Gmail의 AI 기반 스팸 감지 기능은 수년 만에 가장 큰 보안 업그레이드입니다.

라벨이 붙은 봉투 더미 그림 — 게티 이미지 | com.pagadesign

마지막 게시물: Google 보안 블로그 Google이 “최근 몇 년간 가장 큰 방어 업그레이드 중 하나”라고 부르는 Gmail 스팸 필터의 새로운 업그레이드에 대해 자세히 설명합니다. 업그레이드는 RETVec(Efficient and 유연한 텍스트 벡터)라는 새로운 텍스트 분류 시스템의 형태로 제공됩니다. 구글은 이것이 이전에는 사람이 읽을 수 있었지만 기계로는 쉽게 이해할 수 없었던 특수 문자, 이모티콘, 오타 및 기타 원치 않는 문자로 가득 찬 이메일인 “적대적인 텍스트 조작”을 이해하는 데 도움이 될 수 있다고 말합니다. 이전에는 특수 문자가 포함된 스팸 이메일이 Gmail의 방어 시스템을 쉽게 침투했습니다.

“적대적인 텍스트 조작”이 어떤 것인지에 대한 예를 원하신다면 아래 메시지는 스팸 폴더에서 가져온 것입니다. 이러한 이메일에 대한 Gmail의 개인적인 경험은 이와 같은 이메일이 내 받은편지함에 정기적으로 도착했기 때문에 올해 상반기에 큰 문제였다는 것입니다. RETVec에 대한 기술 업그레이드는 효과가 있는 것 같습니다. 지난 몇 달 동안 이와 같은 이메일이 전혀 문제가 되지 않았기 때문입니다.

확대 / 내 스팸 폴더에 있는 “적대적인 텍스트 조작”의 예입니다.

론 아마데오

이와 같은 이메일을 분류하는 것은 매우 어려웠으며 스팸 필터가 “축하합니다. 잭팟 계정에 $1,000 크레딧을 사용할 수 있습니다.”라고 표시된 이메일을 검색할 수 있지만 실제로는 그렇지 않습니다. 여기에 있는 편지의 대부분은 “동음이의어“유니코드 표준의 끝없는 깊이를 살펴보면 일반 라틴 알파벳의 일부인 것처럼 보이지만 실제로는 그렇지 않은 모호한 문자를 찾을 수 있습니다.

예를 들어, 제목 “𝐂انت𝐤_𝐘 겁나 커스터_𝐀hunhunhunhunting”은 대담한 디자인 때문이 아니라 “와 같은 유니코드 글리프를 사용하기 때문에 이상하게 굵게 보입니다.굵은 대문자 수학 c“. 사람이 보기에는 문자 “C”처럼 보이는 수학 기호인데, 스팸 필터링 봇은 이를 엄밀히 수학 기호로 보고 영어로는 그 의미를 이해하지 못합니다. 이런 이메일을 자세히 볼수록, 상황이 더 나빠질수록: 0에 ” “C0NGRATULATIONS”가 포함되어 “O” 문자 중 하나가 대체됩니다. “J🎉ᴄ̲ᴋ̲pot”의 밑줄 친 문자는 너무 이상해서 유니코드 검색에도 나타나지 않으며 많은 공백이 바뀌었습니다. 마침표나 밑줄이 표시됩니다. 결과적으로 스팸 필터는 다음을 찾습니다. 혼돈 이메일에서 기본적으로 포기합니다. (왜 읽지 않은 이메일이 ‘스팸함’이 아닌 ‘받은 편지함’으로 설정되어 있는지 이해가 안 되지만 책임은 지지 않습니다.)

Google은 RETVec이 문제를 해결하기 위해 왔다고 말합니다. “RETVec은 삽입, 삭제, 오타, 동음 문자, LEET 대체 등을 포함한 문자 수준 조작에 대해 탄력성을 갖도록 훈련되었습니다.” RETVec 모델은 새로운 문자를 기반으로 훈련되었습니다. “모든 문자와 단어를 암호화할 수 있는” 인코더 UTF-8을 효율적으로 사용합니다. 따라서 RETVec은 조회 테이블이나 고정된 어휘 크기 없이도 100개 이상의 언어로 즉시 작동합니다.”

Google은 여기서 효율성이 매우 중요하다고 말합니다. 동형에 대해 “고정된 어휘 크기” 또는 “조회 테이블”을 사용하는 대체 접근 방식은 작업 리소스를 많이 소모하게 만들었습니다. 하나 이상의 문자를 숫자, 수학 기호, 키릴 문자, 히브리어 또는 이모티콘으로 대체하는 “축하합니다”의 가능한 모든 철자 오류 및 철자 오류 목록을 상상해 보십시오. 그러면 목록이 거의 끝이 없을 것입니다. Google은 RETVec이 “수백만 개의 매개변수 대신” 200,000개에 불과하다고 말합니다. 따라서 Google의 스팸 필터링 클라우드는 무엇이든 실행할 수 있을 만큼 크지만 로컬 시스템에서도 실행할 수 있을 만큼 작습니다. 리트빅 오픈 소스Google은 스푸핑 공격이 세상에서 사라지기를 바라고 있습니다. 따라서 귀하의 지역 댓글 섹션에서도 언젠가는 스푸핑 공격이 발생할 수 있습니다.

RETVec은 인간이 읽는 방식과 매우 유사하게 작동하는 것 같습니다. 이는 실제 문자 내용이 아닌 단어의 의미를 결정하기 위해 시각적 “유사성”을 사용하는 TensorFlow 기계 학습 모델입니다. Google 유사성 표시 동일한 기술을 사용하여 고양이 이미지를 인식하므로 이를 세계에서 가장 멋진 광학 문자 인식 시스템으로 바꾸는 것이 가능해 보입니다. 분명히 이 접근 방식은 Google이 다음과 같이 말한 것처럼 상당한 개선을 가져왔습니다. “Gmail의 스팸 분류기의 이전 텍스트 벡터를 RETVec으로 교체함으로써 우리는 기준선보다 스팸 탐지율을 38% 향상시키고 오탐지율을 19.4% 줄일 수 있었습니다.” 또한 RETVec을 사용하면 모델의 TPU 사용이 83% 감소하여 RETVec 배포가 최근 몇 년간 가장 큰 방어 업그레이드 중 하나가 되었습니다.”

Google은 “지난 1년 동안” 내부적으로 RETVec을 테스트해 왔으며 이미 Gmail 계정에 출시되고 있다고 밝혔습니다.