神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:随着人工智能的普及,其背后不断发展的智能算法也在各种决策中发挥着越来越重要的作用。然而,就算法理解、使用实践、自动化决策中快速渗透的偏见甚至缺乏透明度和问责制等方面问题,仍然尚存争议。前不久,就有媒体爆出,亚马逊自己研发的人工智能简历筛选系统,就存在“偏见”,并且会自动过滤女性求职者。人工智能偏见到底是怎么一回事?著名分析师Benedict Evans专门针对这个问题发表了一篇题为Notes on AI Bias的文章,希望对你有所启发。
图片来源:DigitalOcean
如今,机器学习是科技领域重要的基本发展趋势之一。在未来十年,要通过科技更广泛地影响和改变人类世界,机器学习也是非常主要方式之一。
然而,机器学习也让人产生了不少顾虑。有人担心它对人类就业会带来潜在的不利影响,也有人担心过度依赖机器学习可能会触及人类的道德底线,当然也有人讨论人工智能偏见所带来的一系列问题,这些问题一点都不简单,这也是这篇文章讨论的重点。
原始数据既是一个矛盾体,又是一个坏点子。所以,我们应该精心处理并分析这些数据。
——杰弗里·博克尔(Geoffrey Bowker)
在2013年之前,如果你想开发一个软件系统,并用它来识别照片中的猫,你可能只有通过写程序的方式来实现这个目的。
在程序脚本中,你可能需要关注的是如何识别并分析图片中的动物轮廓、眼睛以及动物皮毛。此外,你还需要关注这些动物有多少只腿等等。然后再把所有的因素综合一起考虑。
然而,这样的程序实际上并没有多大的用处。
从概念上来说,这就好比制造一匹机器马一样。从理论上来说,的确行得通。然而实践起来,却又是另一回事,你会发现事情的复杂性,要比你想象的难得多。
最后,你有可能写了成百上千条脚本程序,也没有得到任何有用的结果。
借助机器学习,我们就不再需要亲自写脚本程序来识别X或Y。
相反,机器学习的做法是,通过收集上千个样本X和Y,并基于这些样本的有关数据通过电脑对其建模。然后,该数据模型就会产生具有一定精准性的全新数据点,同时可以识别其是否符合所有的X或Y样本的特征。
机器学习需要借助数据来建模,而不是通过人工写这个模型程序。这种方式生成的结果高度精准,特别是用于识别或模式发现等情况下。因此,整个科技领域如今都在往机器学习方向发展。
不过,有一个问题也值得我们关注。
在现实社会中,上千个(甚至上万、上百万个)样本X和Y中,同样还包括A、B、J、L、O、R和P。它们可能没有平均地分布,从而系统可能会更加“关注”L和R,而稍微“忽视”了X。
这在实践中又意味着什么呢?
我可以通过自己喜欢的例子来说明。图像识别系统会倾向于分析一张满是绿色草地的山丘,然后识别出山丘上的绵羊。
多数“绵养”的样本照片背景中,都有绿色草地。毕竟,这是羊群通常生活的地方。而这些照片样本中,相比于白色茸毛状的绵羊,绿色草地则会显得更加突出和明显,所以整个图像识别系统就会把对草地的权重加高,从而更“关注”草地。
图片来源:Cubix
如果要用更“严肃”的案例,就不得不提到最近一项关于通过照片识别皮肤癌症的项目。
在这个项目中,皮肤病专家把患有皮肤癌症的照片样本拿来研究,通过对图像的不断放大并进行局部结构分析,从而让系统不断熟练地识别皮肤癌症的标记。但实际上,健康皮肤的照片样本中根本都不存在他们想找到的局部结构。
对这套系统而言,这些局部结构(或者可以理解为一格格像素)是分析并设别皮肤癌症的关键,有的情况下它们比皮肤上的小红斑点还明显。因此,与其说这个系统是用来识别皮肤癌症的,不如说它是用来识别这些局部结构的。
值得注意的是,机器学习背后的系统,实际上并不了解我们所观察事物背后的语义。
我们可以通过识别并理解照片上的一格格像素,从而识别出那只羊、皮肤或者其局部结构,但系统能识别出的却只是一串列数字。它无法看到3D景象,或各种物体和其结构,当然也看不到那只羊。它只能看到的是各种数据模式。
此外,另一个具有挑战的事情是,机器学习系统生成的模型(即神经网络)包含了不计其数个节点,但我们却无法直接深入模型内部并了解它到底是如何做出决策的。否则,机器学习根本就是多余的,我们也许可以直接通过写脚本程序来解决这个问题。
很多人总是担心,机器学习就像一个黑匣子(不过,这个观点的确有点夸大其词。后文还会进一步阐述)。
简言之,人工智能偏见(或者机器学习偏见),实际上是某个寻找数据模式的系统可能会找到错误的模式,而我们人类还有可能不会察觉这个错误。
它是这项科技的核心附带品。无论是在学术界还是大型科技公司,研究和使用这项科技的人都了解这个事实,但其影响却是非常复杂的,而我们可能应对的解决方案,也同样没那么简单。
首先,先谈它的影响。
图片来源:Health Catalyst
提到人工智能偏见,最明显也最直接出现这种情况的场景就是涉及人类多样性的场景。
据前段时间的报道称,亚马逊尝试建立一套机器学习系统,从而来筛选求职者的简历。因为亚马逊现有成员以男性居多,所以这套系统所挑选的符合标准的“合格候选人”画像也更偏向于男性,所以在挑选建立过程中就自动过滤掉了很多女性求职者。
亚马逊随后发现了这个问题,后来也没有再继续开发这套系统。
这个案例的关键点在于,即便求职者简历上并没有标明其性别,系统在自动筛选过程中仍能偏向于男性求职者。
之所以导致这样的结果,是因为系统能够从样本数据中进行模式分析,比如女性在描述个人成就的时候会使用和男性不同的词汇,又或者女性在学校参加的体育运动和男性也不同。
当然,系统肯定不知道什么是冰上曲棍球,不知道人类是什么,当然也不知道什么是“合格”,它可以做的,只不过是对文本进行数据分析罢了。
然而,系统可以分析的数据模式,我们人类却并不一定可以注意到。即便我们注意得到(比如我们所知的不同性别在描述个人成就方面所选词汇的不同),我们可能也会因此耗费大量精力和体力。
当然,人工智能偏见的场景远不止于此。
擅长通过苍白皮肤识别皮肤癌症的机器学习系统,可能根本无法识别颜色较深的皮肤上可能存在的皮肤癌症,反之亦然。
这并不是因为系统对样本有偏见,而是我们可能需要针对不同样本而建立不同的分析模型,从而找出不同的特征。
机器学习系统也并不是可以互通交换使用的,即便是图像分析这种同类型的应用当中。你必须对这套系统结构进行不断的调整,有时候为了识别你感兴趣的数据其固有特征,还需要不断地试验和试错,从而达到期望的准确率。
然而,你可能无法觉察到的是,这个系统在识别某个群体样本时准确率可能达到98%,但识别另一个群体样本的准确率却只有91%(即便这个准确率仍然比人工分析的准确率还高)。
目前我列举的案例都是以人物或者其有关特征为主。但更重要的是,人工智能对人的分析偏见实际上是某个大问题中的一个子问题。
我们会用机器学习来分析很多事物,而样本偏见则存在于所有的分析之中。因此,如果我们的样本是人的话,那相关的数据分析则可能存在一定的偏见。
图片来源:SmartData Collective
为了更系统地了解这个问题,我们可以再次回到之前提及的皮肤癌症案例,并同时考虑以下三种可能被打破的假设情况:
样本人口特征不均匀:所有样本照片中,各种肤色的皮肤样本并不相同,所以系统会基于皮肤肤色做出错误的分析判断。
样本数据包含明显的非平均分布的非人类特征信息,并且毫无诊断价值,但系统却基于此(样本皮肤癌症照片中的一格格像素,或者样本羊群照片中的绿色草地)而不断进行分析训练。在这个案例中,如果我们把所看到的像素当作局部结构(实际并不是)来分析的话,结果就可能相差甚远。
数据所包含的某些特征信息无法被人类察觉发现,即便通过某些特定方法仍然无法发现。
那么,“即便通过某些特定方法”又意味着什么呢?
我们的先验经验告诉我们,数据可能会有倾向性地偏向一部分群体,或者至少会有类似的计划(换句话说,要猜测为什么数据会偏向一部分群体,其实是因为多种社交因素导致的)。
如果我们想要发现样本照片中的局部特征,我们是可以看见的。但我们选择了忽视它,因为我们知道它是不相关因素,但我们却忘记的是,系统对此却全然不知。
然而,如果所有的不健康皮肤样本照片都是在白炽灯的照射下拍摄的,但健康皮肤的样本照片却都是在荧光灯照射下拍摄的,这又会出现怎样的情况?
如果在拍摄健康皮肤样本照片和拍摄不健康皮肤样本照片的间歇期间,你更新升级了手机的操作系统,而苹果或者谷歌刚好又更新了降噪算法,这又会导致怎样的情况?
这些情况,即便我们投入再多精力,我们可能还是根本无法察觉,但机器学习系统却可以轻松地察觉并利用这些情况。毕竟,它什么都不知道。
此外,在这之前我们一直在讨论错误的相关性,但数据中其实也有很多非常正确的模式,只不过基于一些道德因素、法律因素或者产品相关的因素,我们并不想利用这些数据模式。
在某些司法管辖区域,即便我们知道女性司机的车祸率可能更低,我们也不能因此降低她们的保费。
所以,我们就可以轻松地假设,可以借助机器学习系统,结合历史数据并发现看起来像女性名字的被保险人其报保险的几率更低,从而从数据中排除这些名字。
但是,就像前文提到的亚马逊案例一样,系统也许可以通过其它因素辨别出分析对象的性别(尽管系统可能并不了解性别或者汽车等概念),但在了解相关数据分析之前,你可能却全然不知。
最后,我们通常都说,目前我们只会利用机器学习系统从事有关人际社交交往的研究和学习,但实际上并不是这样。
如果你是燃气涡轮机制造商,你可能就会对机器学习系统感兴趣。因为借助机器学习,你可以对成百上千个涡轮机传感器实现远距离测量(通过声音、振动、温度以及传感器反馈的其它数据信息轻而易举地建立机器学习模型)。
假设情况下,你可以从中筛选出1000份出现故障即将停止运转的涡轮机工作数据,同时还可以筛选出另外1000份正常运转的涡轮机工作数据。然而,你可以以此建立一个机器学习模型,从而分析两种数据之间的差别。
分析相关数据后,假设75%的故障涡轮机都是用的是西门子生产的传感器,而只有10%正常运作的涡轮机使用的是西门子传感器(同时假设故障与传感器无关)。
然后,你就会发现,机器学习系统建立的数据模型,就会更加“关注”装有西门子传感器的涡轮机。
图片来源:Hacker Noon
针对人工智能偏见,我们能做的是什么?
首先,我们可以从三个角度来思考人工智能的偏见:
收集和管理训练数据的方法严谨性;
分析和诊断数据模型行为的科学工具;
机器学习实践过程中的培训、教育和注意事项。
在法国喜剧作家莫里哀(Molière)著作的《贵人迷》(Bourgeois Gentilhomme)一书中,讲述了这样一个笑话:一位男子活了一辈子都不知道文学可以分为诗歌和散文,直到别人告诉他后,他才欣喜地发现,原来他这辈子只接触过散文。
如今的统计学家,也可能有类似的体会。他们这辈子可能都在从事研究工作,但就是没有意识到“人工智能”和“样本偏见”两个不同命题。
担心存在样本偏见,或者寻找样本偏见,并不是新问题。只不过,我们需要系统性地对待这个问题。
正如前文涡轮机案例所述,在某种程度上,如果只涉及到和人相关的主题,它可能实际上(或者从理论的角度)就会相对简单一点。因为先验经验告诉我们,针对不同群体可能存在一定偏见,但我们没有意识到的是,我们可能对西门子存在偏见。
而更新的观点是,我们并没有再直接地对数据进行分析,而是让机器通过建立我们无法直接分析的超级复杂的模型来完成这项作业。
整个过程中,透明度就是与偏见相关的值得考虑的主要问题之一。我们担心的,并不只是可能存在偏见,而是我们根本无法知道是否存在偏见,这对我们来说是全新的事物,和我们所接触过的组织机构或自动化流程也不同,所有并没有可以让你回顾审查的清晰逻辑步骤。
图片来源:Symmetry Magazine
在某种程度上,我们可能可以回顾审查机器学习系统,但要去审查其它系统,则更加困难。因此,这就引出了以下两个问题。
首先,目前关于机器学习的研究主要围绕借助相关方式和工具,发现机器学习系统中的亮点功能。
但机器学习是一个全新领域,相关科学进步速度也非常快,所以我们不应该假设,今天还不现实的事情,明天就一定不现实。马斯克牵头成立的AI研究机构OpenAI旗下的这个项目,就是活生生的例证。
此外,在现有的系统或组织架构中,我们可以审查并了解系统决策制定的这个想法,虽然理论上是成立的,但实践过程中却存在很多问题。
比如,在一个复杂的组织架构中,要审查并发现决策制定的方法非常困难。也许存在一个正式的决策审批流程,但这并不是人们实际沟通交流的方式,而且就个人决策而言,人们通常也没有逻辑清晰同时又极具系统性的方法。
正如我的同事维杰·潘德(Vijay Pande)所言,人类群体也是黑匣子。在这个黑匣子中,有不计其数的个体,他们纵横交错与各种组织和机构中,背后还连带着着各种数不清的复杂问题。
我们事后才知道,宇宙飞船在重返大气层时会解体,但美国航空航天局(NASA)内部不少人士都认为,后面可能会酿成悲剧,但系统自身却对此全然不知。
同时,NASA之前在损失宇宙飞船后,也经历过一模一样的审查流程,但后来却因为相同的原因,又损失了一艘宇宙飞船。所以,无论是组织机构,还是人类系统,我们可以审查其遵循的清晰逻辑规则,说起来的确简单,但经验告诉我们,并不是这么回事。这就是所谓的苏联国家计划委员会谬误(Gosplan fallacy)。
图片来源:shutterstock
在本文中,我一直将机器学习和数据库(特别是关系数据库)做比较。关系数据库是一项新的基础技术,它改变了计算机科学中已经证实的事物,同时也改变了宏观世界,它被运用于各行各业,但我们却未曾注意到它。
但数据库也存在问题,而且这些问题都有相似的特征:这些系统可能是建立在错误的假设和数据之上,很难分辨,而我们人类在使用过程中,可以不假思索地听命于系统提示,并且完全不会提出相关质疑。
有很多故事都在讲,税务局把你的名字拼错了,但说服他们修改系统的拼写错误,比你在公安机关申请改名字要难得多。
这是结构化查询语言(SQL)固有的技术问题,还是甲骨文公司(Oracle)的问题,或者是大型官僚机构的制度问题?
建立一个所谓的流程,从而让系统无法修改拼写错误到底有多难?或者在引起民众投诉之前,发现系统出过类似问题,又有多难?
用更简单的生活实例来讲,车载卫星导航系统没有及时更新,车主跟着导航把车开进了河流中。这里的问题是,导航系统的确没有及时更新。但另一个值得关注的问题是,如果这辆车顺流漂向海中,那Tomtom公司(荷兰主营地图、导航和GPS设备的公司)需要承担多少责任?
通过这些内容,我想说明的是,机器学习出现之前,世界上就存在各种问题,当然有各种解决方案。机器学习偏见也会导致问题,但同样也是可以发现和解决的。
因此,最容易想到的出现人工智能偏见的场景,可能并不是来自权威机构的核心研究实验室,而是一些三流技术承包商或软件供应商,他们胡乱地把各种开源组件、软件库以及工具拼凑在一起,在自己不懂的前提下,就直接将其出售给了一些“天真”的买家。
这些只在乎“金玉其外”的买家,看到“人工智能”标签就根本不考虑该问的问题,然后直接将这套软件交给公司底层领着最低工资的员工,并且告诉他们文不加点地按照“人工智能”的提示操作就行。
这就是数据库出现的问题。这个问题,甚至都算不上是人工智能的问题,或者说软件问题。更准确的说,这是人的问题。
图片来源:House of Bots
机器学习系统可以为你做任何事情。你能训练狗完成的事情,机器学习系统也可以完成。只不过,你完全无法确定的是,你到底在训练狗做什么。
我经常都在思考,“人工智能”这个词汇是不是在类似的背景中百无一用。
它在很大程度上给我们造成一种错觉,即我们实际上创造了智能,一种可以真正进行理解的智能,然而,实际上却并不是这么回事。
从根本上而言,它们只不过是机器罢了,也许更恰当的做法,是把它和洗衣机拿来对比。
就洗衣服而言,洗衣机的确要比人工效率高得多,但你把盘子放进洗衣机并开启洗衣功能后,它还是会洗这些盘子,而且盘子也还是会变得干净。但最后的结果,肯定不是你所期待的结果,因为洗衣系统对盘子有偏见。
洗衣机肯定不知道什么是衣服,什么又是盘子,它只是一个自动化机械。从概念上而言,它和之前其它不同的自动化机械也并没有太大的区别。
也就是说,正如汽车、飞机或数据库一样,这些系统可以非常强大,同时又非常有局限性,并且完全取决于人们如何使用它们,或者我们到底有什么企图,甚至人们对这些系统原理的教育或无知程度。
所以,如果说人工智能就是数学,它不会出现偏见,就大错特错了。同理,如果说机器学习本身也存在偏见,这种说法也站不住脚。
机器学习是在数据中发现模式,至于是什么模式,则取决于数据,而数据又取决于我们,我们怎么利用它也是取决于我们。
机器学习在某些领域的表现远远超过我们人类,就像狗比人类更擅长发现毒品等违禁物品一样,但我们却不会根据狗的证据来定罪。狗比其它任何机器学习系统都要聪明。
译者:井岛俊一