大数据文摘作品,作者 | Josh Lovejoy,Jess Holbrook,编译 | 李飞,张远园,Lisa,钱天培。
机器学习 (ML)是一门代替手动编程、帮助计算机发现数据中存在的模式和关系的科学。它是创建个性化动态体验的强大工具,从Netflix的用户推荐系统,到无人驾驶汽车,机器学习正驱动着各个领域的发展。
但是,随着越来越多的机器学习算法被嵌入到用户体验当中,我们发现,用户体验师还有很长一段路要走:让用户感觉到自己对科技的掌控,而不是被科技掌控,依旧是一个很难实现的目标。
针对这个问题,谷歌用户体验社区开始了一项名为“以人为本的机器学习(HCML)”的尝试。经过一系列的试错和探讨后,他们提出了下面七个要求,来帮助设计师设计出以机器学习为驱动的优秀产品。
现在有很多围绕机器学习和人工智能的炒作。许多公司和产品团队纷纷对以机器学习作为解决方案的产品策略趋之若鹜,反而忽略了更有价值的问题本身。
如果是纯粹地探索这项新科技能够做什么,当然是没有问题的,而且这经常能够激发出对新产品的思考。但是,如果你不能确保与人们的需求保持一致的话,那么你所做的只是建立了一个非常强大的系统,去解决一个非常小或者根本不存在的问题而已。
所以我们提出的第一个要点是:有了机器学习,你仍旧需要努力寻找人们的需求。
为此,你可以做的有:文化背景调查,情感调查,访谈,问卷调查,统计投票,日志分析等等。
机器学习本身并不会弄明白你要解决什么问题。我们仍然需要给出一个问题的明确定义。作为用户体验师,不管主导的技术是什么,我们都需要尽我们所能去了解用户的真正需求。
在明确了你想要解决的需求后,你就需要问自己:机器学习是否能以独有的方式来解决这些需求?其实,很多问题并不需要用机器学习解决。
在产品开发过程中,你要明确哪些用户体验需要用到机器学习,哪些可以被机器学习大大增强,而哪些并不会受益于机器学习,甚至会因其导致产品功能退化。许多产品不用机器学习也可以变得智能或者个性化。不要认为只有机器学习才可以做到。
比方说,当你用Gmail发送邮件而忘了添加附件时,Gmail会在你的邮件中寻找那些包含“attachment”以及“attached”之类的短语,然后会弹出一个提醒窗口。其实,简单的命令式编码就能很容易地解决这一问题。一个机器学习系统很大程度上可以发现更多的潜在错误,但与此同时建设成本也要高很多。
为了帮助团队明确机器学习能对使用案例产生的价值,我们会让团队思考下面三个问题。
1、人类专家会如何处理这一问题?
2、如果人类专家要完成这个工作,你会如何给他们反馈,以便他们下次能够改进?
3、如果由人来执行这项任务,那么用户希望他们做出什么样的假设呢?
花几分钟来回答以上的几个问题,你就会发现人们对机器学习融入产品设计过程的一些假设。这几个问题同样适用于启发产品团队讨论和刺激用户研究。在后面的“标签定义“和“模型训练”部分,我还会再次提及。
在完成这些练习以及一些特定产品和特征的草图勾画之后,我们将团队的所有产品构想放在一个二维坐标系中。
图例:将所有想法绘制在这个2乘2的坐标系中。团队投票决定哪一个想法会对用户造成最大的影响以及哪个可以通过应用机器学习而显著增强
这样,我们就能够将那些有影响力的想法与不那么有影响力的想法区分开,并且了解哪些想法依赖于机器学习,哪些则与机器学习无关或受益很少。
在这个过程中,你应该已经与工程部门进行了合作,如果没有的话,这是一个让他们参与进来的好时机,并借机向他们阐述这些想法的机器学习算法实现。那些对用户有最大的影响并且只能由机器学习来实现的想法(位于上面矩阵的右上角)才是你应该首先关注的。
原型设计是机器学习系统的一个重大挑战。如果你的产品的整体价值在于使用独特的用户数据来定制用户体验,那么迅速得到一个接近真实产品的原型化模型将是一个巨大挑战。此外,如果你等到一个机器学习系统完全就位之后再来测试它的设计,那到时候你可能已经来不及做任何有意义的更改了。然而,有两种用户研究方法可以提供帮助:使用体验者的个人案例和Wizard of Oz研究。
在用早期模型进行用户研究时,你可以让体验者将他们自己的数据带到一系列的研究测试中:例如个人照片,自己的联系人列表,收到的音乐或者电影推荐。请记住,你一定要确切告知参与者他们的数据会被如何使用,又会在何时被删除。用户体验者一般会很乐意参与到这类测试中。
通过这些示例,你可以模拟系统正确和错误的响应。例如,你可以模拟系统向用户返回错误的电影推荐以查看她的反应,以及她做出的关于系统为何会返回此结果的猜想。与使用虚拟示例或者概念描述相比,这更有助于你有效地评估这些可能性的成本和收益。
第二种对于测试尚未建成的机器学习产品很有效的方法是进行Wizard of Oz研究。在过去的二十年中,Wizard of Oz研究作为用户体验的重要研究手段曾风靡一时。现在,这个方法又回来了。
图例:聊天界面是使用Wizard of Oz进行测试的最简单的体验之一。你只需要有一个队友在聊天界面的另一边,假装“人工智能”输出回答
Wizard of Oz研究让参与者相信他们是在与一个自动系统进行交互,但实际上是由一个人控制。
队友模仿机器学习系统的动作,如聊天响应,或者给参与者推荐要打电话给谁,或电影推荐,这些都可以模拟与“智能”系统的交互。 这些交互对于指导设计是至关重要的,因为当参与者认真地与他们认为的人工智能交互的时候,他们会自然地对该系统形成一个心理模型,并根据这些模型调整他们的行为。 观察人们的适应性和与系统的二次交互对于启发设计是非常有价值的。
我们都知道,机器学习系统会犯错误。 了解这些错误,以及它们会如何影响产品的用户体验是至关重要的。 说到这,我们就不得不提到混淆矩阵这个概念。这一矩阵描述了当机器学习系统做出正确和错误的判断时,分别会带来什么后果。
图例:混淆矩阵的四个状态对你的用户可能意味着什么
虽然对于一个机器学习系统而言,所有错误都是同等级别的,但并不是所有错误对于所有人都有着相同的意义。比如说,我们判断“一个人是好人还是恶魔?”;把人归为恶魔这个判断对机器学习系统来说只是一个错误,机器学习系统在做这一判断时,从来没有侮辱他人的想法。它不会知道,使用这一系统的人会觉得,相比于把恶魔标记为好人,把好人标记为恶魔会更让人感受到被冒犯。
在机器学习方法中,你需要对系统的精度和广度进行有意识地权衡。也就是说,你需要去决定,是囊括所有的正确答案更重要,即使这意味着会有更多错误答案包含其中(广度优化),还是让错误答案数量最小化,即使这意味着会有一些正确答案被排除(精度优化)更重要?举例说明:你正在谷歌上搜索“操场”的图片,你会看到这样的搜索结果:
这些结果里有一些小孩玩耍的图片,并不是在操场上。在这次的案例中,广度优先于精度:相对于找到只包含操场、但却有可能漏找你需要的照片而言,找到所有操场的照片要重要的多(即使有几张并不完全符合要求)。
最有价值的机器学习系统会随着时间、用户心智模型的变化而演变。当人们与这些系统进行交互时,他们也正影响、调整着他们将会得到的各种产出。反过来,这些调整将改变用户与系统交互的方式,这种调整也将改变心智模型,循环往复就会构成一个反馈循环系统。这可能导致“阴谋论”问题的产生:人们会形成一个对系统的不正确或不完整“心智模型”,并会产生试图根据虚构规则操纵作出相应的操作。你需要用清晰的“心智模型”来指导用户,鼓励他们提供对他们和模型都有利的反馈。
图例:良性循环的一个例子,是Gboard如何预测用户下一个输入单词的持续演变。用户使用系统建议越多,得到的建议就越好
虽然机器学习系统是在现有数据集上进行训练的,但它们要适应新的输入数据,这些输入数据在发生前通常是无法预测的。因此,我们需要相应地调整用户研究和反馈策略。这意味着要在产品生命周期中,进行深度、高度和广度的超前研究。当用户和用例增加时,你需要计划足够的时间,通过对准确度和误差的定量度量,来评估机器学习系统的性能。另外,你需要与使用机器学习系统的用户近距离接触,以理解心智模型是在每一次的成功和失败中是如何演变的。
此外,作为用户体验师,我们需要思考:在整个产品生命周期过程中,我们如何通过用户现场反馈来提高机器学习系统。设计使反馈变得简单的交互模式,并迅速显示反馈所带来的好处,是设计出优秀机器学习系统的关键。
图例:谷歌应用程序每隔一段时间,就询问用户一个特定的消息是否有用,以获得用户对其推荐的反馈
图例:人们可以给谷歌搜索的自动完成功能提供反馈,包括为什么自动完成的预测可能是不恰当的
作为用户体验师,我们已经习惯了将框架、模型、原型和误区作为标志性的输出。但对于机器学习增强型用户体验,这里只有“标签”可以用来做输出。
标签是机器学习的一个重要方面。有些人的工作是看大量的内容、并给它贴上标签,比如回答像“这张照片里有猫吗?”之类的问题。一旦有足够多的照片被贴上“猫”或“非猫”的标签,你就有了一个数据集,你可以用它来训练一个能够识别猫的模型。或者更准确地说,能够在一定的置信度范围内预测照片中是否有一只从未见过的猫。很简单,对吧?
图例:你能通过这个测试么
然而,当你的模型目标是预测用户的主观评价时,挑战就出现了,比如:他们是否会觉得文章有趣,或者建议的邮件回复内容是否有意义。这些目标需要很长的时间来训练模型,得到一个完全标记的数据集非常昂贵,更不用说标签错误会对产品的有效性产生巨大影响了。
所以,我们应当从合理的假设开始,与各种各样的合作者讨论这些假设。这些假设一般会遵循这样的模式:“对于________用户在________情况下,我们认为他们会选择________不选择________”。尽快把这些假设放入原型中,以便开始收集反馈和迭代。
去为你的机器学习模型找到尽可能好的老师——那些与你的预测领域相关的专业人士。我们建议你雇佣一些专家,或者让他们作为后援,或者将团队中的某个人转变为这一角色。我们称这些人为我们团队中的“内容专家”。
通过这一点,你可以判断在所有假设中,哪个假设会感觉更加“真实”。但是在你开始进行大规模数据收集和标签之前,你需要执行一个关键的验证,即利用内容专家得到的真实用户数据对模型进行实例验证,以确保你的用户接触到的模型不会太蠢,让他们觉得他们是在与合理的人工智能交互。
你需要内容专家用一大堆案例告知你们,人工智能应当产生什么样的结果。这些案例能为你提供数据收集的有效思路、开始训练模型的强大标签集和设计大规模标记协议的框架。
解决机器学习的挑战有非常多潜在的途径。所以作为一个用户体验师,太规范或太快可能会导致无意义的计划,从而导致 工程师同行们的创意流失。信任工程师们,利用他们的直觉,鼓励他们进行实验,即使他们不愿意在全面评估框架到位之前与用户进行测试。
机器学习是一个极需创造性和表达力的流程。训练模型的进展或许会很缓慢,可视化工具也可能做得还不够好,因此工程师们最后可能需要运用他们的想象力来调整算法(甚至有一种方法称为“主动学习”:在每一次迭代后手动“调”模型)。你的工作是帮助他们在整个过程中做出以用户为中心的选择。
用案例来激励工程师们——个人故事,视频,原型,用户研究剪辑,作品 。让他们认识到,惊艳的体验是怎样的,建立流畅的用户研究目标和结果是什么,并且逐渐让他们接触优秀的用户体验想法,以帮助展现你的产品原则和体验目标。越早让他们适应更迭,就越有利于机器学习算法的适用性,以及你对产品产生有效的影响。
以上就是谷歌团队就提升“以人为本的机器学习”提出的七点要求。我们希望,当你在设计自己的机器学习产品的时候,这些建议会对你有所帮助。
当机器学习开始为越来越多的产品和经验提供生产力时,让我们时刻记住:以人为本,用机器学习为人们带来独特的价值,使人们的每一次体验都变得美妙愉快。
原文链接