有些具有超能力的人能够看口型猜出对方讲什么,当然这样的人已算是凤毛麟角。但是如果说有人能够在隔音的环境下看着一袋薯片还原出你在说什么,你信不信?
你到底在说什么?! 这不是比对牛弹琴还离谱的事情吗?
MIT、微软及Adobe的研究人员就做成了这么一件看似超级离谱的事情。其奥秘是研究振动。通过分析视频中声音在物体身上产生的微小振动,研究人员能够还原出环境里的声音信号。在其中一组实验中,研究人员在隔音的情况下,通过15英尺开外的高速摄像机拍摄薯片袋的振动还原出了一段讲话音频。除了薯片袋以外,研究人员还在铝箔、装水的水杯、甚至盆栽植物上面进行了试验,均收到了良好的效果。
其原理在于,声音传播到物体上会引起振动,而这种振动的运动可以创造出一种非常微妙的视觉信号,这种信号是肉眼无法识别的。但是计算机却可以捕捉到,其前提是以高于音频的频率采集视频—试验中,研究人员使用的高速摄像机的FPS(每秒帧数)达到了2000~6000(普通智能手机拍摄视频的FPS一般为60,最高端的商业高速摄像机则可达到100000FPS)。
当然,这种高速摄像机也不是普通人所能拥有的。但是研究人员随后又用普通数字摄像机进行了试验。通过利用大多数摄像头传感器的一项怪异的设计,研究人员成功地以60FPS的频率推断出高频振动信息。尽管这种还原度没有高速摄像机那么好,但是也足以识别出有几个人讲话、讲话的是男还是女了,甚至已经能掌握到足够精确的讲话者的声学特征了。
显然,这种能力在法律取证和刑侦等方面拥有广泛用途。反过来,鉴于不同物体/对象对声音具有不同的振动模式,这种特性又可以催生出一种新型的成像技术。科学的有趣之处正是在于,一开始你研究它是因为酷,但是别人却不断想出新的用途。
题图:MIT