剑桥大学新研究:用AI算法“监听”手机打字,触摸屏也中招
手机的内置麦克风,搭配AI算法,就能让输入的每一个字无处可逃。
你可能听不到,但手指每在屏幕上轻轻点一下,都会发出一个声波。离屏幕不到1厘米远的麦克风,轻轻松松就能记录下来。
剑桥大学的科学家们,开发了一只偷听触摸屏的AI。它能从细微的声音中,还原出人类输入的信息。
声波出卖你
四顾无人时悄咪咪在触摸屏上解个锁,怎么就被声波泄露了密码呢?
即使是在触摸屏上轻悄悄地操作,手指的每一次轻微的敲击都会产生声波。当戳击屏幕不同位置时,声波信息也会有相应的变化。
没错,关键信息就隐藏在这些形状不同的声波里。而这些信息,恰巧可以被手机内置的麦克风捕捉到。
研究人员反手开发了一个手机恶意应用程序,当这个程序被植入手机时,能够调动内置麦克风,让其秘密开始工作,记录下触摸时的声波信息。
他们收集了声波形状与触摸位置的对应信息,训练出了一个AI模型,还原输入内容。
恶意程序悄悄启动→悄悄捕捉输入密码时的声波→AI模型预测手指对应在屏幕的位置→还原输入的密码和信息。
AI伙同麦克风,分工明确,里应外合,井然有序地就将你的隐私偷走了。
现场验证
这套程序的效果如何?研究人员找来了45位志愿者,开始了一系列测试。
整套测试的机型选用了Google旗下的Nexus 5手机以及Nexus 9平板。前者为2013年首发,屏幕大小为4.95英寸,后者为2014年发布,屏幕为8.9英寸。两款设备均内置2个麦克风。
△ 实验设备麦克风位置示意:左为Nexus 5,右为Nexus 9
为了模拟真实世界的环境,研究人员没有选择安静的实验室,而是选取了3种日常环境,测试在不同噪音环境下整个系统的准确度:
第一组志愿者需要随机输入数字1-9,每个数字各输入10次,第二组需要输入200组四位数字的密码,第三组随机输入字母,第四组需要输入5个字母组成的单词,这些单词均来自聊天语料库NPS。
在20次实验中,AI能准确还原150个四位数字密码中的91个,还原准确率为61%。
破解字母组成的暗号也不成问题。用27个单词密码测试时,只进行10次实验,模型在手机上破解了7个单词,在平板上成功还原出其中的19个。
我有许多小mimi,都在声波里
去年9月,英国兰卡斯特大学发表的研究,用手机扬声器里的声呐,窃取密码,特别是图形密码。
声呐的原理是,计算声波从发出到返回之间的时差,来确定物体的位置,以及物体有没有移动。这项研究里,AI分析麦克风录下的回声,便可以追踪用户手指在智能手机屏幕上的移动轨迹了。
听一下键盘先
去年12月,就有个名叫Keytap的键盘窃听法术,简单有效,吸引了大片关注。
把收集好的声波的峰值对齐,避免延时影响;再用相似度指标 (Similarity Metric) 精细地对齐波形;对齐之后,做个简单加权平均,就得到平均波形了。
最后,尽情敲键盘吧,只要和平均波形比对一下相似度,就能检测出是哪个按键了。
硬盘偷听,麦克风也不用
这是密歇根大学和浙大学者脑洞的结晶。原原本本的机械硬盘,不加麦克风,不做任何硬件改动,就变成了窃听器,且音质不俗:
硬盘工作的时候,主轴高速运转带动盘片,上面的磁头会感应盘片上的磁场变化,通过改变磁场,来写入数据。
这个过程非常精细。只要受到外部的声波冲击,磁头就会发生偏移。硬盘的位置传感器,产生的电压信号里就会体现出这个偏移。
让AI去分析这细小的偏移,科学家们还原了人类说的话,又还原了高保真的音乐,Shazam的听歌识曲也能答对歌名。
毕竟,硬盘的采样率超过30,000赫兹,几乎是CD级的录音质量。
薯片,不只是清脆
但偷听人类说话,科学家们不是靠薯片碎裂发出的声波,而是在视觉上动了心思。
MIT、微软和Adobe组成的混合团队,用高速相机透过隔音玻璃,拍摄出薯片袋的振动,算法便能判断说话的人是男是女,甚至还原讲话的内容。
研究人员说,声音传播时触碰到周围的物体,会在振动中形成一股微妙的视觉信号,肉眼不会发觉,但高速相机(每秒2000~6000帧)捕捉得到。AI分析视觉信号,便能听出人类的谈话了。
而且,不止薯片袋,铝箔、水杯甚至植物盆栽,都可以用来偷听。这些物件在房间里出现,人类又丝毫不会觉得奇怪,真是得天独厚。
传送门
这篇论文的研究人员共有四位,分别为剑桥大学的Ilia Shumailov、Jeff Yan、Ross Anderson及三星美国研究院Laurent Simon。
论文Hearing your touch: A new acoustic side channel on smartphones地址:
https://arxiv.org/abs/1903.11137