别再神话人工智能了，现有的AI很容易被骗

转载时间：2021.08.04（原文发布时间：2018.02.23）

260

转载作者：36氪企服点评小编

阅读次数：260次

编者按：本文来自《财经》杂志，李军/文；36氪经授权发布。

1月初，人工智能（Artificial Intelligence，AI）领域出现了一个标志性事件：阿里巴巴和微软的团队在斯坦福大学的阅读理解问答测试中，创造出超越人类水平的成绩。因为这个，有些媒体打出大字标题：人工智能的阅读理解能力已经超过人类。

AI模型已经能够比人类更好地理解文章内容了吗？先放下这个问题，看看AI的另一类重要领域：图像识别。

图像识别是AI最早取得重大突破的领域。2012年，谷歌的两位技术大牛Jeff Dean和吴恩达(Andrew Ng)构建神经网络模型，通过自主学习YouTube上的图像资料，让神经网络模型具备了对于猫的识别能力，并掀起了机器学习构建AI模型的行业热潮。

在最前沿的AI行业应用中，如自动驾驶系统，图像识别也是其构建整个应用的基础能力。所以图像识别能力的发展实际上是整个AI产业能力发展的缩影。但就在2017年底至2018年初，AI的图像识别似乎遇到一些难以解决的问题。这些问题，恐怕可以很好地说明一个真相：目前的AI能力，是十分容易被欺骗的，失之毫厘，谬以千里。

黑猩猩事件

2018年1月《连线》杂志报道，谷歌公司偷偷地把“猩猩”（gorilla）、“黑猩猩”（chimp/chimpanzee）和“猴子”（monkey）标签从图片分类选项中去除。这是怎么回事呢，事情还要从三年前说起。

2015年6月，一位黑人程序员在使用谷歌的照片分类模型对自己的照片进行自动分类标注时，惊奇地发现他的一位黑人好友的照片被打上了“猩猩”的标签。他愤而将此事发布在互联网上并得到高度关注。在一向强调政治正确和反对种族歧视的美国，一个企业的产品有如此严重的种族主义错误，这无论如何都是不能被接受的。

谷歌公司的反馈也非常之快，他们立即就暂停了该分类标签功能，并表示将尽快调整模型，从根本上防止此类事件的再度发生。当时提供这个分类标签功能的，就是谷歌早期的AI图像识别模型。

按理说，在AI技术飞速发展的三年后，借助于更加丰富的数据来源和更加强大的云计算平台，谷歌的图像识别AI模型应该已经具备了比2015年精确得多的识别能力。

但谷歌最终的解决方法却是静悄悄地把引起麻烦的标签从标签库中去除。我们虽然无法得知其中的细节，但对于目前AI模型的能力不由得会有一丝怀疑：准确区分灵长类动物和黑人对于AI模型就真的那么难吗？是的，在某些场景下，对于几乎所有智力正常的人类甚至三岁小孩都能完成的图像识别，对于AI模型却是难上加难。

Google Inception v-3是Google公司在自己的AI平台Tensorflow上的开源图像识别神经网络模型，Top-5错误率可以低到3.46％，代表了人工智能图像识别领域的领先水平（图像识别的判别指标，模型对每幅图像同时提供5个类别标签，其中任何一个类别标签判别正确，结果都算正确。当5个标签全部错误，才算判别错误）。

麻省理工计算机科学和人工智能实验室的实验人员2017年10月完成了一个有趣的实验。他们通过对于被判别物体的表面和颜色进行特殊处理，单纯改变表面材质和颜色进行欺骗，就可以让Google Inception v-3图像识别AI模型做出错误判断，让其把海龟识别为枪支，把棒球识别为浓缩咖啡（espresso）。

另一个有关图像识别的欺诈则是来自于谷歌公司自己的研究团队。他们在2017年12月创造出一种被称为“对抗性补丁”( Adversarial Patch)的物体，能够成功干扰现有的谷歌图像识别AI模型，让其把香蕉识别为烤面包机。

正常状态下，图像识别模型能够准确识别香蕉。但放置了这个“对抗性补丁”后，图像识别模型立即产生错误判别。根据谷歌的研究结果，这种基于特定“补丁”的图像识别攻击，“补丁”面积只要占据不到10％的识别面积，就可以达到90％以上的攻击成功率。

令人惊叹的是，利用“补丁”攻击的过程非常简单。这些干扰性“补丁”可以很方便地打印出来，添加到任何场景或图片中，或者放置在被识别物品的旁边，以便被图像识别的摄像头捕捉到。哪怕这个“补丁”很小，它们也能够诱导AI模型忽略边上应该被识别的物体，而把识别的焦点吸引到自身，最终导致AI模型做出错误的判断。

一名人类儿童甚至一条狗、一只猫在观察图像时会出现这样的错误吗？当然不会。这像神话一样的操作，恰恰说明了目前基于AI的图像识别，和人类以及动物的图像识别模式是完全不同的。

我们知道，目前绝大多数图像识别模型都是基于神经网络算法构造的。这种算法通过建立多重隐藏层和计算单元间复杂的连接关系，对图像信息进行层层分解和抽象，从而构造出包含图像内多重信息特征的特征图。如明暗、颜色、形状、相互关系等等。最后通过特征图内多重特征信息的判别最终完成对于图像的整体判别。

人类显然不是这样进行图像识别的。如果识别机理相似，那欺骗AI的方式应该会对人类有起码的干扰作用，但这些对于AI模型的干扰效果从人类的角度来看都像是笑话。

人类的大脑皮层对于图像和形状的判别机制目前几乎是未知的。最新科技创造出的AI模型判别方式只是在某些方面达到了近似人类图像识别的效果，但千万不要认为AI真的认识图像或形状，它只是以一种你无法理解的方式对于图像进行标记和识别。

为什么谷歌公司历时三年，都最终无法建立准确识别灵长类动物和黑人的AI模型？这就是原因。因为判别方式的天差地别，一个对于人类的简单任务，到了AI模型面前却成为巨大的挑战。

真实世界的理性判断

目前，绝大部分人工智能模型都是基于神经网络这样的“黑盒子”模型构建而成。虽然在绝大多数场景下，模型都能够做出准确度较高的识别和预测。但识别和预测规则完全不透明的情况下，连研究者自己都不知道模型的判断规则。这意味着一旦人工智能被发现某些特定的缺陷，将有机会对其进行有针对性的欺骗。所以，AI模型图像识别的缺陷有可能会在部分行业应用中导致严重的后果。

2017年9月，伯克利等四所大学的联合项目组进一步研究了AI在自动驾驶系统中的应用。

项目组发现，只要在现有的交通标志上粘贴少量图形，就可以诱导自动驾驶系统把“停牌”标志识别为“限速”标志。

由于这些欺骗手段对于自动驾驶系统判别结果的干扰非常成功，这篇论文的标题甚至使用了“来自真实世界的稳健性攻击——面向深度学习模型”（Robust Physical-World Attacks on Deep Learning Models）这样字眼。

这些案例都是对被识别图像进行少量的显著修改来欺骗AI模型，由于这些修改相对明显，人眼还可以主动识别出来。部分更加复杂的攻击有可能以人类无法察觉的方式进行。

同样还是谷歌的图像识别模型，在正确识别的基础上，麻省理工的研究者只是修改了少量的图形像素，同样达到了欺骗模型的目的，把枪支识别为直升机。而修改前和修改后的这两张图，人眼看来完全一样。

所以，目前的AI模型，起码在图像识别领域，是可以被人为欺骗的。而欺骗的手段五花八门，甚至可以使用人类肉眼完全无法识别的方式进行。

阿里巴巴和微软的AI模型在阅读理解测试方面超过了人类。其实这一事件的意义并不是像普通大众想象的那样，AI模型已经可以比人类更好地理解文章内容了。

既然是阅读理解测试，那么决定最终成绩的是测试结果。通过成绩单可以总结出来，这个阅读理解测试其实是回答填空题。填空题的答案是出现在文章中的某个日期、时间、对象等。

对阅读理解考试有丰富经验的人了解，先不通读文章，能够立即开始答题吗？答案一定是可以。根据问题找答案，问时间找时间，问地点找地点，问对象根据上下文找名词。不用阅读文章并理解整篇文章的主旨，人类可以蒙对很多答案。

同样地，对于AI模型来说，它只是建立了词与词、词组与词组的关联关系，并结合上下文的位置信息，提供模型判别概率最高的答案。

如果你认为AI模型真的理解了它所阅读的文章，那你就是用人类思维去套用AI的模型构造方式，这是完全不对的。最终AI模型只是根据文章形成词与词的关联关系，并使用这一关联关系回答问题。

所以，千万不要相信，AI系统现在已经完全具备了识别、判断甚至认知的功能。因为，AI目前具有的这些功能和人类通常意义上的理解是完全不同的。并且，我们也无法完全信任一个AI系统——现有的AI是非常容易被欺骗的，而且欺骗的操作可以非常简单，这对于大众认识AI并合理使用AI是非常重要的。