本文来自微信公众号“新智元”(ID:AI_era),编辑:小匀 Priscilla,36氪经授权发布。
【导读】就凭9张人脸就可以覆盖40%人口的面孔?还能够轻松越过Dlib, FaceNet, 和SphereFace三大人脸识别系统?想多了!研究人员发现这只是因为数据集覆盖人群不够广!人脸识别系统可不是这么好骗的…
《碟中谍》中,阿汤哥通过假脸成功骗取了敌人。
如今,人脸识别危机重重,AI产生的假脸能否通过面部生物识别系统?
在本月的一篇名为Generating Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution的论文中,作者深入分析了这种危险的可能性。
由机器学习算法产生的「大师脸」(master face)能否攻破面部识别的防线?
作者是来自特拉维夫大学的三位学者。
在论文中,他们建立了一个模型,生成了9张「大师脸」,它们能够冒充超过40%的人。
并且成功绕过了「三个领先的深度人脸识别系统」。
乍一看,这似乎对需要面部识别的应用构成了明显的安全风险。
能够欺骗Dlib(左)、FaceNet(中)和SphereFace(右)的几张「大师脸」
该团队采用了StyleGAN来创建外观逼真的化妆脸谱图像。
每张假脸的输出都与「野外标签脸」(LFW)数据集中的5749个不同人的一张真实照片进行比较。
一个单独的分类器算法决定了与数据集中的真实面孔相比假面孔的仿真性。在分类器中得分较高的图像被保留下来,而其他的则被丢弃。
这些分数被用来训练一个进化算法,用StyleGAN创造出越来越多看起来像数据集中的「大师脸」。
渐渐地,研究人员找到了一组尽可能能代表数据集中图像的大师脸——9张图片,它们数据集中的40%。
接下来,他们用这些主脸来欺骗三种不同的面部识别模型:
Dlib, FaceNet, 和SphereFace。
这些系统在以LFW数据集上测试的最佳人脸匹配算法为基准的竞赛中排名最靠前。
然而,快速浏览一下能够绕过这三种模型的最高得分的主面孔,就会发现研究的一个明显局限性。它们几乎都是老年白种人的假图像,白头发、有胡子、戴着眼镜。
但是问题也来了,如果这些类型的图像能够代表LFW中的大部分人群,那么该数据集肯定是有缺陷的。
数据集网站上就发布了免责声明:许多群体在LFW里代表性不高。
这些群体包括孩子、婴儿、80岁以上的长者以及女性。
另外,许多种族的代表性也很低,或者根本就没有。
九个大师脸的分数也反映了LFW数据集的局限性。
女性、肤色较深和较年轻的面孔排名较低,不太可能绕过测试的三个人脸识别系统。
代表LFW数据集的九个大师脸及MSC分数
不过LFW网站又写了一份「甩锅声明」:
虽然理论上LFW可以评估某些亚组的表现,但是这个数据库的亚组数据不够多,不能证明某个特定的软件完全通过测试。
说白了,就是这个LFW数据集不够全面……
模拟大部分人脸来解锁人脸识别系统,这个想法是挺不错的。
但训练和测试就不要用有缺陷的数据好吗!
LFW数据集缺乏多样性,就说明AI生成的大师脸覆盖数据集的可能性更大。
这些图像在现实世界中不太可能行得通。
有点好笑不是吗?
但论文的作者就出来澄清了。
虽然这个LFW数据集的确是像官网说的那样,有一定的缺陷。
但LFW仍然还是学术文献里广泛使用的数据集啊!
论文提出了人脸识别系统可能存在的漏洞,攻击者就能钻空子。
所以人脸识别的开发者和用户也应该考虑到这一点。
目前论文提出的方法还没有测试过商用的人脸识别系统,所以数据跟现实生活中的系统还是有点区别。
作者表示,用更加多样化的数据集来训练测试模型,尝试绕过现实世界中的人脸识别系统还是有可能的。
用团队的方法生成大师脸,保护现有的面部识别系统免受攻击,这也是作者未来的研究方向。
所以啊,那些声称能够骗过「40%以上的面部ID身份验证系统」的「大师面孔」
都是炒作!
「认真你就输了!」
不过,这篇论文还是被IEEE自动人脸和手势识别国际会议接收了。
参考资料:
https://www.theregister.com/2021/08/10/ai_master_face/