编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者栗子 安妮,36氪经授权发布。原文标题《糟糕,手机密码不保!剑桥大学新研究,用AI算法“监听”手机打字,触摸屏也中招》。
触摸屏,也能出卖你的手机密码。
手机的内置麦克风,搭配AI算法,就能让输入的每一个字无处可逃。
你可能听不到,但手指每在屏幕上轻轻点一下,都会发出一个声波。离屏幕不到1厘米远的麦克风,轻轻松松就能记录下来。
剑桥大学的科学家们,开发了一只偷听触摸屏的AI。它能从细微的声音中,还原出人类输入的信息。
45名志愿者真人测试,数字、字母,都被AI“偷”了出来。
四顾无人时悄咪咪在触摸屏上解个锁,怎么就被声波泄露了密码呢?
“听到你的触摸”,这是论文的名字 (完整版:Hearing your touch: A new acoustic side channel on smartphones) 。在这里,研究人员揭秘了“作案思路”,其实并不难理解。
即使是在触摸屏上轻悄悄地操作,手指的每一次轻微的敲击都会产生声波。当戳击屏幕不同位置时,声波信息也会有相应的变化。
△ 触摸屏上按下“f”键时的声波震动形状
没错,关键信息就隐藏在这些形状不同的声波里。而这些信息,恰巧可以被手机内置的麦克风捕捉到。
研究人员反手开发了一个手机恶意应用程序,当这个程序被植入手机时,能够调动内置麦克风,让其秘密开始工作,记录下触摸时的声波信息。
△ 实验所用的恶意声波收集程序
他们收集了声波形状与触摸位置的对应信息,训练出了一个AI模型,还原输入内容。
至此,作案流程已经基本成型:
恶意程序悄悄启动→悄悄捕捉输入密码时的声波→AI模型预测手指对应在屏幕的位置→还原输入的密码和信息。
AI伙同麦克风,分工明确,里应外合,井然有序地就将你的隐私偷走了。
这套程序的效果如何?研究人员找来了45位志愿者,开始了一系列测试。
整套测试的机型选用了Google旗下的Nexus 5手机以及Nexus 9平板。前者为2013年首发,屏幕大小为4.95英寸,后者为2014年发布,屏幕为8.9英寸。两款设备均内置2个麦克风。
△ 实验设备麦克风位置示意:左为Nexus 5,右为Nexus 9
为了模拟真实世界的环境,研究人员没有选择安静的实验室,而是选取了3种日常环境,测试在不同噪音环境下整个系统的准确度:
公共休息室:周围是聊天的人类,偶尔会出现煮咖啡时发出的较大噪音。
阅览室:电脑键盘声与小声说话声混合的环境。
图书馆:几乎没有说话声,但电脑键盘声环绕四周。
研究人员在这三个环境中,让45名志愿者分别进行了4组实验。
第一组志愿者需要随机输入数字1-9,每个数字各输入10次,第二组需要输入200组四位数字的密码,第三组随机输入字母,第四组需要输入5个字母组成的单词,这些单词均来自聊天语料库NPS。
实验结果验证了这种攻击方法可行性。
在20次实验中,AI能准确还原150个四位数字密码中的91个,还原准确率为61%。
破解字母组成的暗号也不成问题。用27个单词密码测试时,只进行10次实验,模型在手机上破解了7个单词,在平板上成功还原出其中的19个。
就是这样,你毫无察觉,但密码不胫而走。
其实不用慌,因为AI想拿到手机密码,也不止这一种方法。
去年9月,英国兰卡斯特大学发表的研究,用手机扬声器里的声呐,窃取密码,特别是图形密码。
声呐的原理是,计算声波从发出到返回之间的时差,来确定物体的位置,以及物体有没有移动。这项研究里,AI分析麦克风录下的回声,便可以追踪用户手指在智能手机屏幕上的移动轨迹了。
也是在你没有察觉的时候,一切就发生了。
当然,上面这些只是手机上的问题。
如今,从键盘到硬盘,哪一个听不到你的秘密?
(请注意,这是一句严肃的话,没有开车。)
就连家里的盆栽,可能也知道你说了什么。
所以,我们一个一个讲。
去年12月,就有个名叫Keytap的键盘窃听法术,简单有效,吸引了大片关注。
先用麦克风采集一下敲击各种按键的声波,比如每个键收集三次。
再搭个简单的预测模型,算出每个按键的平均波形:
把收集好的声波的峰值对齐,避免延时影响;再用相似度指标 (Similarity Metric) 精细地对齐波形;对齐之后,做个简单加权平均,就得到平均波形了。
最后,尽情敲键盘吧,只要和平均波形比对一下相似度,就能检测出是哪个按键了。
还有开源代码,大家可以直接玩耍。
这是密歇根大学和浙大学者脑洞的结晶。原原本本的机械硬盘,不加麦克风,不做任何硬件改动,就变成了窃听器,且音质不俗:
硬盘工作的时候,主轴高速运转带动盘片,上面的磁头会感应盘片上的磁场变化,通过改变磁场,来写入数据。
这个过程非常精细。只要受到外部的声波冲击,磁头就会发生偏移。硬盘的位置传感器,产生的电压信号里就会体现出这个偏移。
让AI去分析这细小的偏移,科学家们还原了人类说的话,又还原了高保真的音乐,Shazam的听歌识曲也能答对歌名。
毕竟,硬盘的采样率超过30,000赫兹,几乎是CD级的录音质量。
优雅的声音,可能是吃薯片最大的快感。
但偷听人类说话,科学家们不是靠薯片碎裂发出的声波,而是在视觉上动了心思。
MIT、微软和Adobe组成的混合团队,用高速相机透过隔音玻璃,拍摄出薯片袋的振动,算法便能判断说话的人是男是女,甚至还原讲话的内容。
研究人员说,声音传播时触碰到周围的物体,会在振动中形成一股微妙的视觉信号,肉眼不会发觉,但高速相机(每秒2000~6000帧)捕捉得到。AI分析视觉信号,便能听出人类的谈话了。
而且,不止薯片袋,铝箔、水杯甚至植物盆栽,都可以用来偷听。这些物件在房间里出现,人类又丝毫不会觉得奇怪,真是得天独厚。
这项研究,中选了顶会SIGGRAPH 2014。
如此说来,或许世间万物,都知道你的秘密。
不过还好,这些方法还在研究阶段。
这篇论文的研究人员共有四位,分别为剑桥大学的Ilia Shumailov、Jeff Yan、Ross Anderson及三星美国研究院Laurent Simon。
论文Hearing your touch: A new acoustic side channel on smartphones地址:
https://arxiv.org/abs/1903.11137