编者按:智能语音助手时代,通过语音进行搜索的兴起,给寻找问题的答案带来了变迁。与之前提供多个链接的搜索结果相比,通过语音搜索的用户,只需要一个答案。提供这些服务的公司,该怎么应对这一变迁呢?近日,《连线》杂志上发表了一篇文章,介绍了寻找“一次性”(one-shot)答案的历程。文章改编自自由撰稿人詹姆斯·弗拉霍斯(James Vlahos)将于3月出版的一本新书《How Voice Computing Will Transform the Way We Live, Work, and Think》。文章原题为“Amazon Alexa and the Search for the One Perfect Answer”,由36氪编译,希望能够为你带来启发。
如果你在20世纪90年代末参观过剑桥大学的图书馆,你可能会看到一个瘦瘦的年轻人,他的脸被笔记本电脑屏幕的光芒照亮。
在这几年前,威廉·滕斯托尔-佩多(William Tunstall-Pedoe)就已经结束了他的计算机科学研究课题,但他仍然津津有味地品味着陈旧纸张散发出的霉味,喜欢那种书籍从四面八方涌入的感觉。
图书馆收集了几乎所有在英国出版的书籍的复印件,庞大的信息量——500万册书籍和120万种期刊——激励了他。
当然,大约就在这个时候,另一个巨大的知识宝库——互联网——正在形成。谷歌凭借其著名的使命宣言“组织全世界的信息,使其普遍可访问和有用”,正自豪地步入其作为“图书管理员”的角色。
不过,尽管滕斯托尔-佩多仍旧喜欢在图书馆里徘徊,但他认为计算机不应该像图书馆那样,要求人们费力地追踪信息。
是的,浏览搜索结果,偶然发现新的资源,发现相关的事实是一件非常愉快的事情。 但大多数用户真正想要的是一个准确的答案,而不是狩猎般的刺激。
作为实现这一目标的工具,搜索引擎几乎和它们那些塞满书的前辈们一样笨重。
首先,你必须想出正确的关键词。从谷歌或雅虎提供的长长的链接列表中,你不得不猜测哪一个是最好的。
然后你必须点击它,进入一个网页,并希望它里面有你想要的信息。
滕斯托尔-佩多认为,这项技术的工作方式应该更像《星际迷航》中飞船上的计算机:用日常语言提出一个问题,得到一个“即时、完美的答案”。
他认为,搜索引擎最终必将让位于人工智能。
这是一个与飞行汽车不相上下的技术幻想,但是滕斯托尔-佩多开始让它成为现实。
从13岁起,开始就以程序员的身份赚钱,并且一直对教机器学习自然语言的探索特别着迷。
当他读大学的时候,他写了一个名为Anagram Genius的软件,当提供名称或短语时,这个软件可以巧妙地重新排列字母。
例如,“玛格丽特·希尔达·撒切尔”(Margaret Hilda Thatcher)会变成“一个女孩,一个尖的疯狂帽匠”(A girl, the arch mad-hatter)。
几年后,作家丹·布朗(Dan Brown)在《达·芬奇密码》中使用了Anagram Genius来创作情节糟糕的谜题。
这时,藏在图书馆里,滕斯托尔-佩多开始构建一个可以回答几百个问题的原型。
20年后,随着亚马逊Alexa和Google Assistant等语音计算平台的崛起,世界上最大的科技公司突然大步向滕斯托尔-佩多的方向发展。
智能音箱已经成为这个行业最畅销的产品之一; 据美国国家公共电台(NPR)和Edison Research的一份报告,仅在2018年,智能音箱在美国家庭中的普及率就增长了78% 。
根据一项市场调查,人们让智能音箱回答问题的频率比让他们做其他任何事情的频率都高。
滕斯托尔-佩多的计算机愿景已经成为主流,计算机可以一次性回答我们的问题,即提供搜索社区所熟知的一次性回答。
互联网及其支撑的价值数十亿美元的商业生态系统正在发生不可逆转的变化。信息的创造、传播和控制也是如此——这正是我们如何知道我们所知道的事情的本质。
2007年,在经历了互联网泡沫破灭,并承受了起后果之后,滕斯托尔-佩多和一些同事即将推出他们的第一款产品——一个名为“真知”(True Knowledge)的网站,它将为各种问题提供一次性答案。
在当时,他们的目标仍然是非主流的。“在谷歌,有些人对我们正在做的事情非常过敏,”滕斯托尔-佩多说。“一次性回答搜索问题的想法,是一种禁忌。”
他回忆起与一位谷歌高级员工的争论,这位员工拒绝接受甚至存在单一正确答复这种说法。
大型搜索引擎虽然已经索引了数十亿网页,但对用户查询却没有深入的了解。
相反,他们只是在美化猜测:你在谷歌搜索栏输入几个关键词,公司的网页排名系统就会返回一长串由统计数据支持的关于你想知道什么的猜测。
为了证明“真知”的一次性答案抱负是可能的,滕斯托尔-佩多和他在剑桥的小团队开发了一个由三个主要部分组成的数字大脑。
第一个是自然语言处理系统,它试图有力地解释问题。例如,“有多少人居住”、“人口有多少”和“人口规模有多大”都将被表示为对一个地方居民数量的询问。
系统的第二个组成部分收集事实。不同于搜索引擎,它简单地将用户指向网站,“真知”渴望自己提供答案。
它需要知道伦敦的人口是880万,勒布朗·詹姆斯(LeBron James)有6英尺8英寸高(2.032米),乔治·华盛顿(George Washington)的遗言是“ ’Tis well,”,等等。
这些事实中的绝大多数不是人工输入系统的;这样做会太费力。相反,它们是从结构化数据源中自动检索的,其中信息以计算机可读的格式列出。
最后,系统必须对所有这些事实之间的关系进行编码。程序员们创建了一个知识图谱(knowledge graph),可以把它描绘成一个巨大的树状结构。
其基础是“对象”这一类别,它包含了每一个事实。向上看,“对象”类别分为“概念对象”(用于社会和心理构造)和物理对象”(用于其他所有东西)。越高,分类就越精确。
例如,“轨道”类别被分成几组,包括“路线”、“铁路”和“道路”。
构建本体(ontology)是一项艰巨的任务,它扩展到数万个类别,包括数以亿计的事实。
但它提供的结构可以对新的信息进行分类,就像把衣物分别放进衣柜抽屉里一样。
知识图谱在分类学意义上对关系进行编码:花旗松(Douglas fir)是一种针叶树,针叶树是一种植物,等等。
但是,除了简单地表示两个实体之间存在联系之外,这个系统还描述了每种联系的性质:大本钟(Big Ben)位于英国。伊曼纽尔·麦克伦(Emmanuel Macron)是法国总统。
这意味着,“真知”有效地学习了一些关于世界的常识性规则,虽然对人类来说是显而易见的,但对于计算机来说,这些规则很难理解。地标只能存在于一个地方。法国只能有一位现任总统。
对于滕斯托尔-佩多来说,最令人兴奋的是,“真知”能够处理那些事先没有明确给出答案的问题。
想象一下,有人问,“蝙蝠是鸟吗?”因为本体论将蝙蝠归类为“哺乳动物”下的一个亚组,而鸟类则位于其他地方,所以系统可以正确地判断蝙蝠不是鸟类。
“真知”越来越聪明,在向投资者推销时,滕斯托尔-佩多喜欢对竞争嗤之以鼻。
例如,他会在谷歌上搜索“麦当娜(Madonna,美国著名女歌手)单身吗?”当搜索引擎返回链接“Unreleased Madonna single slips onto Net”时,其浅薄的理解是显而易见的。
与此同时,“真知”从这个问题的措辞中得知,“单身”被用作形容词,而不是名词,它被定义为没有与其他人有浪漫的关系。
所以,看到麦当娜和盖·里奇(Guy Ritchie,英国男导演及编剧)是通过一个已婚的链接联系在一起的(当时),系统更有帮助地回答说,不,麦当娜不是单身。
投资者喜欢他们所看到的,于是在2008年打开了风险投资的水龙头。
“真知”扩展到大约30名员工,并搬到了剑桥的一个更大的办公室。 但是这项技术最初并没有在消费者中流行起来,部分原因是因为它的用户界面是“一个丑陋的婴儿”,滕斯托尔-佩多说。
所以他重新发布了“真知”,这是一个设计简洁的智能手机应用程序,可以在 iPhone 和 Android 设备上使用。
它有一个可爱的标志(有一只眼睛的笑脸)和一个朗朗上口的新名字 Evi (发音为 EE-vee)。 最重要的是,你可以向Evi提出你的问题,并听到他们的回答。
2012年1月,在苹果推出Siri语音助手几个月后,Evi首次亮相,并在这家公司的App Store中名列第一,下载量很快就超过50万次。
苹果公司显然被诸如“介绍Evi:Siri最大的新敌人”这样的新闻标题激怒了,一度威胁要下线这个应用。
与此同时,滕斯托尔-佩多被收购邀约淹没了。在与潜在的收购者举行了一系列会议后,“真知”公司同意被收购。
几乎每个人都可以保住工作,并留在剑桥,滕斯托尔-佩多将成为一款尚未发布的语音计算设备产品团队的高级成员。
当这家设备在2014年问世时,其回答问题的能力将在很大程度上由 Evi 提供。
可能你已经猜出来了,“真知”的买家是亚马逊,设备是Echo。
当滕斯托尔-佩多开始在剑桥编程的时候,一次性答案是不流行的。
但是,当Echo出现时,情况已经不一样了。
在语音计算的时代,提供一个单一的答案不仅仅是一个很好的功能,它还是一种需要。
“你不能通过声音提供10个链接,”滕斯托尔-佩多回应了业界盛行的观点。“这是一种糟糕的用户体验。”
随着世界上的大型科技公司逐渐明智起来,他们开始追溯“真知”走过的许多路。
2010年,谷歌收购了 Metaweb,一家创建本体的创业公司,名为 Freebase。 两年后,这家公司发布了知识图谱,号称有35亿个事实。
同年,微软发布了后来被称为概念图谱(Concept Graph)的软件,其中包含了500万个实体。 2017年,Facebook、亚马逊和苹果都收购了知识图谱构建公司。
最近,许多研究人员已经开始设计自动系统,通过网络搜索答案,以比任何人类都快得多的速度,将新的事实储存在本体中。
这个领域出现牛市热潮是有道理的。
市场分析师估计,到2020年,多达一半的互联网搜索将被大声朗读出来。最近,即使是那些值得信赖的屏幕搜索的老图书管理员也在悄悄地切换到oracle模式。
谷歌一直在稳步提高其搜索引擎的网页版和移动版本中“特色片段”的流行程度,这是一种一次性答案。它们获得了比其他结果更重要的地位。
比方说,你搜索“宇宙中最稀有的元素是什么?”在搜索框下面,有这样的回答:“放射性元素砹(astatine)”。
据营销机构Stone Temple的数据,谷歌在2015年7月为超过三分之一的搜索提供了一次性答案。18个月后,有超过一半的情况下是这样做的。
这种一次性解决问题的做法进展缓慢,足以掩盖其最重要的后果:我们所知的互联网被扼杀了。
传统的网络,所有单调乏味的页面和链接,正在让位于会话式的网络,在这种网络中,人工智能占据着主导地位。
我们被告知,它提高了方便性和效率。
但对于所有与传统网络搜索有经济利益关系的人(企业、广告商、作家、媒体机构和科技巨头)来说,这种情况是危险的。
为了理解其中的原因,我们可以快速回顾一下网络世界的商业模式,在这个世界里,注意力就是一切。
公司希望自己的网页被更多的人发现,它们希望自己的广告被看到。
因此,从互联网早期开始,它们就致力于掌握神秘的搜索引擎优化(SEO)技术——调整关键词和网站的其他元素,使它们在搜索排名中显得更高。
为了保证得到一个最佳位置,公司还会直接向提供搜索服务的公司购买付费曝光服务,购买在搜索结果顶部或旁边展示的小广告。
当网页搜索成为唯一的游戏时,很多公司都争先恐后地想让自己的网页排在前十个链接之一。人们通常不会滚动到页面更低的地方。
随着手机的兴起,它们争先恐后地进入前五个。
在语音搜索方面,公司面临着更加艰巨的挑战。它们想抓住所谓的零点位置(position zero),提供出现在所有其他结果之上的一次性答案。
零点位置至关重要,因为它经常被大声朗读出来。
据市场营销机构RAIN的副总裁格雷格·赫奇斯(Greg Hedges)说,这通常是唯一能被阅读的东西,这家机构为各个品牌的人工智能会话策略提供咨询服务。
“如果你想在几年内被人看到,你必须确保你的网站针对语音搜索进行了优化,”他说。
假设你经营一家寿司店,附近有许多竞争对手。一个用户问他的语音设备,“我附近有什么好的寿司店?”如果你的餐馆不是人工智能通常首先选择的那家,那你就有麻烦了。
当然,有一个相当于向下滚动的语言:听到上面的选项后,用户可能会说,“我不喜欢这个。附近还有什么?”但是这需要做更多事情,人们通常尽可能避免这些事情。
达到零点位置,需要一个与传统SEO完全不同的策略。例如,在网页上输入正确关键词的重要性正在下降。
相反,SEO专家试图想出用户可能会说的自然语言短语,比如“什么是最高等级的混合动力车?”,将它们与简洁的答案结合在一起,放在网站上。希望能产生人工智能能够提取并大声朗读的完美内容。
目前,语音搜索还没有付费的曝光服务。 但是,当它不可避免地出现时,互联网的广告商业模式将会发生翻天覆地的变化。
因为语音助手一次只能提供一个答案,所以它们为广告商提供的空间更小。
数字营销机构360i现任首席执行官贾里德·贝尔斯基(Jared Belsky)在2017年接受《广告周刊》(Adweek)采访时表示:“将会有一场争夺货架空间的战争,理论上每个空位都应该更加昂贵。这是将同样数量的兴趣汇集到一个更小的位置。”
这在亚马逊这样的零售环境中尤其如此,因为消费者就在智能音箱的另一端。 凭借声音,他们的目标是登上珠穆朗玛峰——获得最高成绩——或者为此而死。
如果你的产品不是混合动力汽车或者辣金枪鱼卷,而是知识本身呢? 机构媒体已经很不舒服地依赖于大型科技公司来获得大部分的流量,从而获得大部分的广告收入。
根据分析公司 Parse.ly 的数据,谷歌搜索目前约占机构媒体网站的一半流量; Facebook 上分享的链接约占四分之一。 一次性的回答可能会严重限制这种流量。
例如: 我是Oregon Ducks的球迷。 过去,我会在比赛结束后的早晨登陆ESPN.com查看谁赢了比赛。
一旦到了那里,我可能会点击另一个或两个报道,给这个网站带来几分之一的广告收入。 如果我觉得自己特别慷慨,我甚至可能会注册订阅月刊。
但现在我可以简单地问我的手机:“谁赢了Ducks的比赛?”我得到了我的答案,而 ESPN 从来没有得到我的流量。
也许你关心ESPN,这是一家独立的大企业,它的流量被抽走了;也许你不关心。
问题的关键在于,类似的动态可能会影响到大量的内容创作者,从鲸鱼到小鱼。
想想布莱恩·华纳(Brian Warner)的故事,他经营着一个名为“Celebrity Net Worth”的网站。
在这个网站上,好奇的访问者可以输入 Jay-Z(美国说唱歌手)等人的名字,通过华纳员工的调查,发现这位说唱歌手的身家估计为9.3亿美元。
华纳声称,谷歌已经开始从他的网站上收集答案,尽管他明确拒绝了搜索巨头访问其公司数据库的请求。
他说,一旦这种情况开始,实际到达Celebrity Net Worth的流量骤降了80 %,他不得不裁员一半。
“谷歌已经覆盖了多少其他网站和企业?”他问。
谷歌的一位发言人拒绝就华纳版本的故事发表具体评论;但她指出,网站管理员可以使用公司的开发工具来防止他们的网页出现在“特色片段”中。
当语音识别系统读取提取的一点内容时,它们通常会将其归功于来源。
它们可能会提供一个口头的来源,或者,如果这个设备有一个屏幕,一个视觉属性。曝光名字并不能解决问题,结构媒体需要流量。
对于典型的智能音箱,用户以某种方式提供流量的可能性很小。
谷歌和亚马逊的变通方法很笨拙:用户可以访问智能手机上的同伴应用程序 Home 或 Echo,找到搜索结果,然后点击链接去内容创建者的网站。
用户可能会遇到这样的麻烦。 但是,既然她已经得到了她想要的答案,为什么还要自寻烦恼呢?
正如网络流量专家兼Dynamic Search的首席执行官亚瑟·埃尔朗(Asher Elran)在2013年的一篇博客文章中所说,一次性回答操纵了这场游戏,使其对谷歌有利。
“作为网站,我们希望通过使用SEO和提供有趣的内容来争夺这些排名,”他写道。“我们没有想到的是,在我们有机会用辛勤的工作给搜索者留下深刻印象之前,搜索者会发现问题的答案。”
当滕斯托尔-佩多开始研究后来成为“真知”的东西时,他得到的印象是谷歌反对提供一次性的答案。
尽管当时一些员工无疑有这种感觉,但公司领导人的声明明确表示,长期计划总是建立一个oracle。
“当你使用谷歌时,你会得到不止一个答案吗?”埃里克·施密特(Eric Schmidt)在2005年的一次采访中问道,那是在他卸任首席执行官十多年前。“好吧,这是一个漏洞......我们应该能够一次性给你正确的答案。”
多年来,技术上的障碍使施密特的目标保持在一个安全的距离上。这带来了某些优势。
根据1996年颁布的管理互联网言论自由的法律——《通信规范法案》第230条,网络媒介不能对他人提供的内容负责。
只要谷歌仍然只是一个信息渠道,而不是信息的创造者——一个中立的图书管理员,而不是一个无所不知的“神谕”——它就有可能避免法律责任和道德责任带来的大风暴。
“谷歌喜欢10个链接的部分原因是,他们不能确定什么是对或错,”滕斯托尔-佩多说。
但是在这个语音时代,谷歌公司“不杀信使”的定位很难被接受。
假设你点击了一个搜索结果,最终阅读了旧金山纪事报(San Francisco Chronicle)的一篇文章。谷歌显然不对那篇文章的内容负责。
但是当这家公司的Assistant回答你的一个问题时,这种区分就变得模糊了。
尽管这些信息可能是从第三方来源获取的,但感觉好像是直接来自谷歌。
因此,提供语音搜索回复的公司获得了很大的权力来判定什么是真的。
丹尼·沙利文(Danny Sullivan),谷歌搜索的公关联系人,去年在一篇关于特色片段的博客文章中提到了这一危险。
他解释说,直到最近,一些用户还在问“罗马人是怎么知道夜间时间的?”得到了一个荒谬的一次性答案: 日晷。
这是一个没有后果的错误,沙利文向公众保证,谷歌正在努力防止这样的失误在未来出现。
但是不难想象类似的错误会带来更大的影响,特别是随着越来越多的美国人接受语音搜索和绝对可靠的人工智能“神谕”的概念。
过去的一次性回答错误地声称巴拉克·奥巴马(Barack Obama)宣布戒严,伍德罗 · 威尔逊(Woodrow Wilson)是3k党成员,味精导致大脑损伤,女性是邪恶的。
谷歌心甘情愿地修正了这些弥天大谎,并解释说这些错误并不是它编造的——它们是从劣质网站中自动提取出来的。
给人们一个检查来源的方法,可以防止错误信息横行。
但是,很难想象使用Echo或Home的用户会不厌其烦地定期登录这些应用程序。而语言属性,如果存在的话,通常是模糊的。
用户可能会被告知答案来自雅虎或Wolfram Alpha(计算知识引擎)。这就好比说,“我们的科技公司从另一家科技公司获得了这一信息。”
它缺乏看到记者或媒体机构名称的特殊性; 它还省略了用于得出结论的证据。
当来源是公司自己的知识图谱或其他内部资源时,来源就变得更加不透明:“我们的科技公司从自己那里获得了这些信息。相信我们。”
提供一次性答案的策略,也意味着我们生活在一个事实简单而绝对的世界。当然,很多问题只有一个正确答案:地球是一个球体吗? 印度的人口是多少?
然而,对于其他问题,有多种合理的观点,这使语音助手处于一个尴尬的位置。认识到这一点,微软的 Cortana 有时会针对有争议的问题给出两个相互竞争的答案,而不仅仅是一个。
谷歌正在考虑做一个类似的版本。不管这些公司是否愿意扮演“世界实况调查者”的角色,它们都需要支持这个角色。
大型科技公司对信息传播的控制,特别是在语音计算时代,引起了人们对奥威尔式知识控制的恐惧。
在民主国家,更紧迫的问题是,公司是否在操纵事实,以有利于其公司利益或其领导人的个人议程。
对知识的控制是一种强大的力量,从未有如此少的公司获得过像门户这样的主导地位,世界上绝大多数信息都是通过门户流动的。
与此同时,我们其他人可能正在失去让这些守门人承担责任的技能。
一旦我们习惯于把自己的信仰寄托在厨房柜台上方便的智能设备上时,我们可能就会对费力、好奇和发人深省的寻找事实失去耐心,并希望它们自己来找我们。
如果水可以毫不费力地从你的水龙头中流出来,为什么还要从井里抽水呢?
2016年离开亚马逊的滕斯托尔·佩多承认,语音助手带来了新的风险,或者至少加剧了现有风险。
但是他有一个典型的工程师的观点,认为技术引起的问题可以通过更多更好的技术来解决(你猜对了) ,比如人工智能可以学会抑制事实上不正确的信息。
如果有一天网上的“神谕”足以让像剑桥大学图书馆这样的地方被淘汰,他会感到怀旧。
但只是在一定程度上。“我可能会错过它,”滕斯托尔-佩多说,“但我不确定,如果我不需要的话,我是否会回到那里。”
原文链接:https://www.wired.com/story/amazon-alexa-search-for-the-one-perfect-answer/
编译组出品。编辑:郝鹏程