编者按:随着人工智能技术的发展,越来越多的问题由算法决定。但人们会相信这些算法吗?人们在什么情况下会相信这些算法?近日,《连线》杂志发表了一篇文章,介绍了透明度对人们信任算法程度的影响,文章中指出,有太多和太少的信息,都会引发人们对算法的不信任,最好的方法,就是给出适量的信息。文章来自于卡尔提克·霍萨纳加(Kartik Hosanagar)最新出版的新书《机器智能的人类指南》(A HUMAN’S GUIDE TO MACHINE INTELLIGENCE)。
(译者注:开始之前,先把自己代入一段故事中去。)
一个晴朗的夏日早晨,你按照预约的时间,来到当地的一家级别很高的诊所进行定期检查。你走进来的时候感觉很好。
你抬起你的胳膊说,“医生,我这样做的时候很疼。”医生回答说,“那就不要那样做。”你们两个都笑了。但是几个测试之后,你的情绪就会开始发生变化。
你的内科医生,友好的老卡尔弗顿·史密斯(Culverton Smith)医生,有一些坏消息要告诉你。
“恐怕你患塔帕努里热(Tapanuli fever)的风险很高,”史密斯医生说。
“这是致命的。好消息是,有一种药物可以帮助预防它。我建议你立即开始服用。它可能会让你头晕,易怒,偶尔会恶心。但这与避免发烧相比,只是一个小小的代价。”
你大吃一惊。“我从来没听说过这种疾病,”当他潦草地写下处方时,你抗议道。“你怎么知道我有得这个病的风险?”
史密斯医生给你看了一份计算机打印出来的文件,上面写满了难以理解的数字和术语。 但他指着表格底部的一行,上面写着:“塔帕努里热:17.88”。
“这个风险因子太高了,”他解释道。“我们希望将其降至5以下。 这些药应该会有帮助。”
“这个数字是从哪里来的?”你问。
史密斯医生耸耸肩,说:
“这是我们新的人工智能系统。最近很流行。找个系统中内置了一千名顶级诊断专家的知识。质疑它给出的结论没有多大意义——也就是说,如果你想活下去,纠结这些是没有意义的。”
然后,你拿着处方离开。但是在开车回家的路上,你还是不能决定是否在药店停下来。虽然你相信科技和机器学习的奇迹。
但仅仅因为史密斯医生的计算机系统告诉你应该这样做,你真的就愿意忍受头晕目眩、易怒和恶心,以避免某些未知疾病的可能性吗? 归根结底,你相信这个算法吗?
如果你的答案是否定的,你可能需要反思一下原因。
问题的一大部分,可能是医生的解释含糊不清。如果,对于你的问题“这个数字是从哪里来的?”。
他这样回答说:
“你今天下午的血液检测显示,你体内有三种蛋白质含量异常低,这三种蛋白质有助于增强你对塔帕努里热的免疫防御。
我们去年秋天进行的基因组分析已经表明,与东南亚血统有关的几种综合症易感性更高。
《新泽西医学杂志》的一项研究发现,这些特征的结合,导致塔帕努里热的发病率增加了94% 。
找个系统将所有数据放在一起,计算出你的风险因子,也就是文件上数字。”
听到这些细节,你可能会发现,你有了更令人信服的理由去购买药物进行治疗,哪怕你并没有真正理解医生所说的一切。
当然,这个故事是虚构的,疾病是虚构的。(塔帕努里热出自阿瑟·柯南·道尔(Arthur Conan Doyle)爵士于1913年写的夏洛克·福尔摩斯(Sherlock Holmes)短篇小说《垂死侦探探案》。)
但是,因为使用人工智能的系统,现在正被用来诊断疾病和计算各种情况下的风险因素,病人和医生怎样才能相信一个关于疾病和健康问题的算法指出的问题是一个真实的问题呢?
研究表明,透明度是理解、接受和信任的关键。让人们看看算法的“黑匣子”里面都是什么,他们的不信任、敌意和恐惧就会逐渐消失。
这个论点听起来很有道理。但真的是这样吗?透明度是培养算法信任的主要因素吗?在这个领域,许多问题的答案都很有趣......也很复杂。
克利福德·纳斯(Clifford Nass)遇到了麻烦。
他在斯坦福大学教授的技术界面设计课很受欢迎,但课上的学生抱怨他们期中考试的成绩。虽然这样的抱怨对于教授来说太普遍了,但是在这次,抱怨有具体的实质性依据。
一个班的学生发现,他们的考试成绩明显低于另一班的学生,即使他们给出的论文是相似的。
造成这个问题的原因并不难确定。论文是由两个不同的助教进行评分的。由于论文的得分本质上是主观的,助教们在评分上有所不同也就不足为奇了。
最小化这个问题的一个方法,是为学生分配特定的助教给特定的论文打分。但是纳斯选择不遵循这个程序。
因为班上有200多名学生,但期中考试只有两道论文题,所以纳斯把按班级让助教进行评分。这个简单而高效的决定,带来了致命的偏见,并引发了学生们正当的异议。
纳斯完全可以做出让步,道歉,然后在以后的考试中采用按题划分的方式。
但作为人机交互领域的专家,他看到了一个用统计学解决方案的机会。基于他的助教提出的一个想法,纳斯决定创建一个算法来解决评分偏差问题。
纳斯和一个研究助理一起,根据每个助教对相似问题集的评分来衡量他们的评分倾向。然后,他们创建了一个简单的统计模型来调整学生的分数,以抵消个人的分数偏差。
纳斯认为,他的学生会满意的。他给他们发电子邮件,邮件中包含了他们的原始成绩和根据他的简单算法调整的成绩。
本着开放的精神,他还仔细解释了他的调整算法的细节,以及如何确保最大可能的公平。
当学生们的抱怨愈发激烈的时候,纳斯大吃一惊。有些学生甚至比一开始还要愤怒。
很明显有些地方出了问题。
这个难题的核心,是透明度和信任之间错综复杂的关系。
当我们与算法互动时,我们知道我们是在与机器打交道。然而,不知何故,它们的智力和模仿我们自己思维和交流模式的能力,让我们迷惑不解,将它们视为人类。
研究人员观察到,当计算机用户被要求描述机器如何与他们互动时,他们会使用拟人化的术语,如“正直”、“诚实”和“残忍”。甚至还提到了算法的“行为”或它们的“失控”。
至少,我们的语言表明,我们对计算机算法的信任度、仁慈度和公平性的期望与对人类同行的期望是一样的。
这有助于解释,为什么利用透明度的力量来提高人们对算法的信任,比人们想象的要困难。
一般来说,透明度的复杂性,尤其是在纳斯评分透明度方面的失败尝试,可以在大规模的公开在线课程中看到,这些课程通常被称为MOOC。
不受学生地点或教室规模等因素的限制,大学、学院和教育平台如 Coursera可供成千上万学生参加在线课程。
例如,我在Coursera上教授的创业课程已经有近10万名学生参加(相比之下,在15年的线下大学课程中,大约有2500名学生参加)。
网络公开课的影响范围很广,但它们也有自己的挑战——例如,如何积极地吸引那些与你没有互动的学生,或者如何给一万多人交上来的论文或设计之类的复杂作业评分。
大多数网络公开课使用同学评分而不是助教给学生论文打分:换句话说,学生们被要求互相评价彼此的作业。
这个概念起初可能听起来很奇怪,但是研究表明,同学打分实际上可以和老师打分相媲美。
匿名的同学评分,通过减少偏袒和其他诸如此类的担忧,以及不再需要为每门课程雇佣数百名评分员来提高分数的准确性。
然而,它并没有消除评分偏见的问题——事实上,它加剧了这种偏见,因为它涉及更多的评分者,这些评分者有着不同的性格和倾向。
年轻的斯坦福博士生勒内·克孜尔切克(René Kizilcec),想解决这个评分偏见的问题。
他的兴趣并不是偶然出现的。纳斯是他的倒是,他亲眼目睹了课堂上发生的混乱。
当克孜尔切克成为纳斯的博士生时,他曾计划为半自动驾驶车辆开发关于信任的界面。
但是在2013年11月,悲剧发生了,55岁的纳斯心脏病发作去世。离开时,克孜尔切克发现,自己越来越多地思考纳斯没有解决的评分问题。
克孜尔切克发现,许多MOOC使用的是克孜尔切克的一位同事创建的评分调整算法的变体。有趣的是,没有一个MOOC向它们的学生解释这个评分算法的细节。
MOOC的管理人员们也不确定是否应该与学生交流他们的成绩是如何决定的,即使他们确实要这样做,也不确定如何有效地做到这一点。
对学生来说,这风险很高,因为分数决定了他们是否获得了完成课程的证书。
然后,基于纳斯的原始实验,克孜尔切克开始创建了一个网络版的实验,通过算法调整成绩,并用它来测试透明度如何最终改变学生对影响他们的算法的信任程度。
他从一组103名学生开始,这些学生提交了论文供同学评分。每篇论文都是由多个同学评分的。克孜尔切克要求这些学生说明他们希望得到的分数。
接下来,每个学生都得到一个综合分数——一组同学评出的分数的简单平均数——和一个计算出来的分数,其中一个分数由一个算法调整,这个算法考虑了每个评分者的偏见。
为了测试透明度对信任的影响,克孜尔切克改变了每个学生收到的关于评分过程的信息量。一组学生被提供了关于算法工作的最低限度的透明度,并且被简单地告知计算出的分数。
第二组学生拿到了一整段内容,解释了如何用一个简单的算法调整分数:
“你的成绩是X,这是基于你从同学那里得到的成绩,并根据成绩的偏差和准确性进行了调整。准确性和偏差估计使用一个统计程序,使用期望最大化算法调整你的分数。”
在收到这些信息之后,参与者立即被问了几个问题,来评估他们对同学评分系统的信任度。
这些问题涉及到对评分过程的理解(“你在多大程度上理解了同学评分中你的分数是如何计算的?”) ,以及感知到的公平性,准确性,最后是信任度。
基于学生最初的预期成绩和最终成绩,克孜尔切克将学生分为两组:一组学生的成绩与预期相似,另一组学生的成绩与预期相反,也就是说,他们的成绩低于预期。
事实证明,两组学生对透明度评分的态度存在显著差异。对于那些达到评分期望值或超过的学生,透明度水平并不影响他们的信任程度。
但对于那些分数没有达到期望的人来说,信任程度与透明度密切相关。得到更多评分程序信息的学生对评分系统的信任度高于那些得到简单解释的学生。
克孜尔切克解释了这一结果,他提到当没有达到期望时,人们倾向于对信息进行更严格的审查。
只要他们相信基本的过程是公平的,就算面临着失望的结果,也往往会对一个系统感到满意。
评分算法是一种针对偏差和误差进行调整的尝试。
“即使结果对我们来说可能是负面的,我们也同意这么做是正确的......即使(我们的)分数被调低了,”克孜尔切克说。
那么,纳斯哪里出错了呢?为什么他对评分算法的深入解释没有赢得学生的信任,也没有平息他们的抱怨?
克孜尔切克实验的另一个方面提供了答案。事实上,克孜尔切克测试的不是两层透明度,而是三层。 上面提到的两个水平分别标记为低和中。
第三组学生还得到了他们个人的原始分数,以及这些原始分数是如何被合并和调整到最终分数的细节。这被贴上了高透明的标签。
这里是实验结果包含意外的地方。 在分数没有达到预期的学生中,中等透明度的学生相对于低水平透明度的学生信任度增加了。
但是那些高透明度的学生,正如你可能预期的那样,并没有对算法有更大的信任感。相反,他们报告的信任度甚至比低透明度的学生还要低!
这一切意味着什么?
克孜尔切克认为,这些结果源于我们将机器拟人化的倾向,以及我们在人类互动中使用的社会规则。
当我们遇到新朋友时,我们会犹豫是否要与他们建立信任和友谊关系,直到我们看到一些证据表明他们是诚实和直率的。
我们期望别人能有一定程度的透明度,我们不信任那些隐瞒真相的人,所以我们倾向于避开那些隐藏自己想法和意图的人。
克孜尔切克指出,我们许多人也发现很难喜欢和信任过于透明的人。
那些花太多时间解释和证明自己意图的人经常引起我们的怀疑,以至于我们开始怀疑“他到底想证明什么呢?”
因此,对于人类而言,存在一种所谓的“适当”透明度——既不要太少,也不要太多。
克孜尔切克认为,这同样适用于算法。信息过多和过少都会破坏用户的信任。他相信,在人与算法的交互中存在一个类似的最佳信任点。
我们现在有了理解克利福德·纳斯哪里出错的基础。纳斯告诉他的学生,他们新调整的成绩是如何计算出来的,他的目标是通过算法的透明性获得他们的信任。
但是纳斯实际上过度解释了算法。在两封冗长的电子邮件中,他详细说明了用来计算分数的精确方法。
如果纳斯给学生提供了适量的信息,让他们相信评分调整程序是公平的,并就此打住,他可能会赢得学生的支持。
通过提供如此详细的解释,他引发了信任反弹。
也许令人眼花缭乱的细节,把学生们的注意力从过程的公平性转移到了他们不利的成绩上,或者是他们对实际程序缺乏理解,从而抵消了他所希望获得的信任。
用现代的表达方式来说,这是一个TMI的例子——信息太多了(too much information)。
原文链接:https://www.wired.com/story/book-excerpt-algorithm-transparency/
编译组出品。