이 AI는 소리를 기반으로 사용자가 입력하는 내용을 알 수 있습니다.

블로그

홈페이지홈페이지 / 블로그 / 이 AI는 소리를 기반으로 사용자가 입력하는 내용을 알 수 있습니다.

Aug 11, 2023

이 AI는 소리를 기반으로 사용자가 입력하는 내용을 알 수 있습니다.

이 기사는 IEEE Xplore와 파트너십을 맺은 독점적인 IEEE Journal Watch 시리즈의 일부입니다. 귀하가 입력한 메시지는 손가락으로 키를 두드리는 소리만으로 해독될 수 있습니다.

이 기사는 IEEE Xplore와 파트너십을 맺은 독점적인 IEEE Journal Watch 시리즈의 일부입니다.

Durham 및 Surrey 대학과 런던 대학의 연구자들이 최근 발표한 논문에 따르면, 사용자가 입력하는 메시지는 손가락으로 키를 두드리는 소리만으로도 해독될 수 있다고 합니다.

연구원들은 Apple 노트북 키보드의 각 키에서 발생하는 독특한 클릭을 인식하기 위해 두 가지 기계 학습 모델을 훈련했습니다. 모델은 두 가지 소스, 즉 근처에 있는 스마트폰과 Zoom을 통해 수행되는 화상 통화에서 수집된 오디오에 대해 훈련되었습니다. 그들은 스마트폰 오디오 모델의 정확도가 95%, Zoom 통화 모델의 정확도가 93%라고 보고했습니다.

이러한 모델은 음향 부채널 공격으로 알려진 공격을 가능하게 할 수 있습니다. 본 문서에 제시된 기술은 최신 기계 학습 기술에 의존하지만, 그러한 공격은 영국 정보 기관이 이집트 정부가 사용하는 기계 암호화 장치를 은밀하게 기록했던 1950년대로 거슬러 올라갑니다.

노트북 음향 부채널 공격은 이를 사용하는 사람의 오디오 녹음을 통해 어떤 키를 어떤 순서로 눌렀는지 추정합니다. 이러한 공격은 은행 PIN, 계좌 비밀번호, 정부 자격 증명과 같은 사용자의 민감한 정보를 노출시킬 수 있습니다.

팀의 모델은 CNN(컨볼루션 신경망)을 기반으로 구축되었습니다. 이러한 네트워크는 군중 속의 얼굴을 인식할 수 있는 것처럼 오디오 신호 그래프인 스펙트로그램의 패턴도 인식할 수 있습니다. 프로그램은 각 키 누름의 오디오를 분리하고 해당 파형을 스펙트로그램으로 변환하며 각 클릭의 주파수 패턴을 추출하고 특정 키를 눌렀을 상대 확률을 계산합니다.

보고서의 공동 저자인 Ehsan Toreini는 "우리는 음향 데이터를 CNN의 이미지로 간주했습니다."라고 말했습니다. "내 생각에는 그것이 우리의 방법이 그렇게 잘 작동하는 핵심 이유라고 생각합니다."

음향 부채널 공격은 민감한 정보를 재구성하기 위해 어떤 키를 어떤 순서로 눌렀는지에 대한 추정에 의존합니다.

이 문서에 제시된 공격은 범위가 제한되어 있습니다. 두 가지 오디오 디코딩 모델은 단일 노트북에 입력하는 동일한 사용자로부터 수집된 데이터를 대상으로 훈련 및 평가되었습니다. 또한 그들이 사용한 훈련 과정에서는 키 사운드가 키 레이블과 쌍을 이루어야 합니다. 다른 오디오 환경과 다른 사용자의 다른 노트북 모델에서 이 공격이 얼마나 효과적인지는 아직 알 수 없습니다. 또한 레이블이 지정된 훈련 데이터의 필요성으로 인해 모델을 배포할 수 있는 범위가 제한됩니다.

그럼에도 불구하고 공격자가 입력하는 사람의 레이블이 지정된 오디오 데이터에 액세스할 수 있는 그럴듯한 시나리오가 있습니다. 해당 데이터를 은밀하게 수집하는 것은 어려울 수 있지만 개인이 이를 제공하도록 강요받을 수 있습니다. Smashing Security 팟캐스트에 대한 최근 인터뷰에서 Toreini와 공동 저자인 Maryam Mehrnezhad는 회사가 나중에 모니터링할 수 있도록 신입 직원에게 해당 데이터를 제공하도록 요구하는 가상 시나리오를 설명합니다. IEEE Spectrum과의 인터뷰에서 Mehrnezhad는 “또 다른 예는 친밀한 파트너의 폭력입니다. 그러한 시나리오에서는 전 파트너나 현재 파트너가 나쁜 행위자가 될 수 있습니다.”

연구팀은 이 공격의 위험을 완화할 수 있는 여러 가지 방법을 제시합니다. 우선 간단히 빠르게 입력할 수 있습니다. 터치 타이핑을 사용하면 개별 키 누르기가 혼합되어 키 입력 격리 및 디코딩이 복잡해질 수 있습니다. 체계적인 변화도 도움이 될 것입니다. Zoom과 같은 화상 통화 서비스는 녹음에 오디오 잡음이나 왜곡 프로필을 도입하여 기계 학습 모델이 오디오를 입력된 문자와 쉽게 일치시키지 못하게 할 수 있습니다.

Mehrnezhad는 “사이버 보안 및 개인 정보 보호 커뮤니티는 사람들이 위험과 두려움 없이 현대 기술을 사용할 수 있도록 보다 안전하고 개인 정보를 보호하는 솔루션을 제시해야 합니다.”라고 말합니다. "우리는 업계와 정책 입안자들이 다양한 상황과 애플리케이션에서 사용자를 보호하기 위한 더 나은 솔루션을 찾을 여지가 있다고 믿습니다."

연구원들은 최근 2023년 보안 및 개인 정보 보호 워크숍에 관한 IEEE 유럽 심포지엄에서 논문을 발표했습니다.