编者按:Benedict Evans通过对比Google和苹果运用AI的做法来探讨AI可以有什么样的应用模式,同时展望了更大的人机交互模式的发展,并对AI的局限进行了分析。看AI的东西你得费点脑力,尤其是Ben Evans的东西。
(要想了解AI的历史和现状,可以看看Frank Chen的介绍)
过去几年AI的发展就好像变魔术一样。技术开始发挥作用了,或者说开始表现得比原来好多了,而且新技术也开始出现,尤其是在机器学习(ML)方面,把这些技术应用到某些长期存在的重要用例时,我们开始得到好很多的结果。比方说,图像识别、语音识别以及自然语言处理的错误率已经低到接近人类的水平,至少在一定尺度上如此。
所以你可以对着手机讲:“给我看看在海边的小狗的照片”然后语音识别系统就会把声音变成文字,自然语言处理就会把文字变成照片查询交给你的照片app,事先利用ML系统给照片打上“小狗”、“海滩”等标记的照片app就会通过运行数据库查询把带有相应标签的图片显示出来。神奇吧?
这里其实发生了两件事—首先你用语音输入对话框进行查询,然后对话框可以用之前不可能做到的方式执行查询。这两件事都要靠机器学习,但是是两套相对独立的机器学习,而且其实最有趣的部分不是语音而是查询。实际上,能够问到“海滩边的狗的照片”,其重要的结构变化不在于计算机能够找到照片,而在于计算机自己已经搞定了怎么去找这件事。你给了它一百万张标记为“里面有狗”的照片,然后又给它一百万张标记为“里面没狗”的照片,然后它就会自己想出怎么去识别狗的办法。现在,试试“这个数据集里面的客户有离网倾向”,或者“这个网络存在安全漏洞”,或者“大家阅读和分享很多的故事”。然后再试试没有打标签的情况(“无监督”而不是“有监督”学习)。
现在你还得用数据分析工具花数小时或者数周的时间去寻找找到这些东西合适条件,而且还得靠人来做这些事情—对Excel表格进行排序以及重新排序,目测出怪异的结果,只是数据有上千列上百万行。机器学习有望把大量非常大型非常繁琐的数据分析工作自动化—不仅仅是运行搜索,而且还能自行想出应该进行什么样的搜索才能找到你想要的结果。
也就是说,语音接口或图像识别这些比较抢眼的示例只是底层技术最明显的例子而已,但是这种技术却有着广泛很多的应用—你可以用到键盘上、音乐推荐系统上、网络安全模型上或者自动汽车上。有可能。
对于Google来说这是一个根本性的变化。从狭义上来说,图像和语音识别意味着它能够更好地理解问题,并且更好地对音频、图像以及视频进行索引。但更重要的是,它可以更好地回答问题,而且能够回答此前无法回答的问题。因此,就像我们在Google IO上面看到的一样,该公司正在以该技术为核心进行调整。当然,针对不同用例技术的使用方式和程度会各有不同。比较引人注目的是Google Assistant—一个采用语音的前端,可对你的行为进行分析,以便更好地回答问题并且试图在用户询问前先解决一部分问题。但这只是矛尖而已—真正的变化在于对Google收集的数据语料库的理解质量,以及Google在各种不同产品中回答的各种查询的质量。其实现在才刚刚开始。
对于微软来说情况一样,只是方式不同。(完全错失了移动时代的)微软正在创建基于云的工具,让开发者在这些技术基础上开发自己的应用,Facebook(新闻流不是机器学习应用是什么?)和IBM同样如此。能够处理大量数据来赚钱或者帮别人做这件事情的人会发生变化,今后会有一大堆与此相关的新公司的出现。
另一方面,虽然我们有魔术但是还没有HAL 9000(电影《2001太空奥德赛》里面的机器人)—我们还没有一个接近人类智能的系统(所谓通用AI)。我们也还没有一套好的理论来解释这将意味着什么—人类智能是指我们现有的技术和想法的总和还是其他呢?没有,相反,我们现在只是有了一堆的工具,但是还需要开发和连接起来。我可以让Google或Siri给我看海滩边的狗照片,因为Google和苹果以及把工具连接起来去实现这一点,但是我不能让它替我订饭店除非他们已经增加了与Opentable集成的API。我能问什么?—对于Siri、Google Assistant或者任何聊天机器人来说这是一项根本挑战。
这导致了一堆有关算不算AI的玩笑的产生:
这些玩笑反映了两个问题。一是至少在概念水平上,人工智能本身不仅仅是“一堆不同类型的IF语句”这件事情并不是很明显。二是从魔术变成平庸实际上是一切技术和计算的特点,这并不是说它就没有用了,而是说技术的感觉实际上就是这样。也就是说,给人感觉出来还没多久的东西才叫技术。电我们现在已经不视为技术了,也不会把洗衣机看成是机器人了,所以你也可以把“那个是AI还是计算”换成“那个是技术还是工程?”
我觉得这里的一个基本点是Eric Raymond原则—即计算机不应该问用户任何自己可以自动检测、复制或者推断出来的东西,尤其是推断。审视过去50年整个计算的发展的办法之一,就是把计算机需要问的老问题干掉,然后增加计算机可以问的新问题。有很多这样的东西给到用户时看起来未必像是问题,但事实就是,而计算机现在已经不再询问了:
有时候我觉得,作为非常老的科幻小说读者,科幻确实基本上没怎么谈到计算,但是却讲了很多“自动化”的东西。不过如果你把那些东西都列出来的话,你会发现其实没有一个看起来像“AI”(尽管很有可能将来有人会用到),但是很多都是“自动化”的。而这正是任何除HAL 9000以外的“AI”的本质—自动导航仪、自动拼写检查,自动硬件配置,自动图像搜索或语音识别器,自动饭店预定或者打车……这些都是计算机代劳的事务性工作,因为它有了智能,人工赋予的智能,所以可以替你做这些事情。
说到这个又引出了苹果。
从1984年开始,苹果就一直在造可以问一些问题的计算机,而大家对此的抱怨也一直没有停止—一个用户的问题是另一个用户的自由选择(从iOS和Android的对比当中你可以看清楚这一点)。乔布斯说iDVD的界面应该只有一个按钮:“BURN(刻录)”。1997年它推出了Data Detectors—这个框架会读入文本并析取出结构化的数据—比如预约、电话号码或者地址等。现在你使用AI技术来做同样地事情,那个东西是AI吗?还是“一堆IF语句?”是不是说只有一些规范的算法才能算是AI?这有关系吗?对于点击号码而不是要靠复制粘贴来打电话的用户来说,这个问题有意义吗?
这无疑就是苹果看待设备AI的方式之一。在iOS 10里面,苹果在界面融入了AI。其形式很多样,有时候是明显的新东西,比如图像搜索,但更多的是旧功能的改进或者是给现有应用增加小小的新功能。的确,苹果把“AI”看作是“计算罢了”。
与此同时,苹果一直在不遗余力地宣传自己的主张(这引起了很多关注),即企业不应该采集和分析用户数据,并且明确表示在提供这些(带有AI特性的)服务时并没有那么做。这可以有很多的解读。比方说训练它们的神经网络跟运行它们(智能服务)的神经网络可以是不一样的。你可以在云端借助大规模图像集训练好一个神经网络,然后再把训练好的系统加载到手机上再用来处理本地数据,整个过程不需要从设备上传任何东西。这个其实也是Google Translate在手机上的运行方式—训练是预先在云端完成的,但是分析是在本地进行的。苹果说Apple Photos也是一样—“事实上我们不需要你有山的照片来训练系统认识山。我们自己可以找山的照片。”苹果还提供了API给开发者在本地利用GPU来运行预先训练好的神经网络。至于其他服务,苹果会考虑“不同的隐私保护程度”,比如对数据进行加密,这样哪怕苹果收集了数据并且用来进行大规模的分析,但是(从理论上来说)你也没有办法知道数据跟哪一位用户有关。
鉴于苹果做这件事情(AI)的地方和手段以及使用的技术如此丰富,所以你很难下结论说“苹果失去了AI”。苹果显然已经决定做至少是一部分的AI了,当然是在自我约束(考虑隐私保护的前提下)的情况下做的,不清楚的是产生影响的服务有多少,或者说规模有多大。我拍的山的照片你也许不需要,但是如何训练它认识我的儿子呢?—这件事情是在设备本地完成吗?训练数据会更新吗?Google的训练数据能好多少呢?它从中受益的程度如何?
抛开隐私问题不谈,这个领域发展是很快的,快到你很难分辨出最强的领跑者是谁,也很难说出哪些东西可以商品化,哪个东西是最大的差异化优势。尽管相关技术的主要计算机科学都已经出版并且开源,但实现并不是微不足道的—这些技术都还没有商品化。但是苹果的芯片设计方案绝对是一个鲜明对比。自打2008年收购了PA Semi后,苹果就把自己设备的SoC(系统芯片)设计作为根本的核心竞争力以及竞争优势,现在它给自己设计的芯片无疑是市场领先的(这一点碰巧会成为它推出VR产品时的重要优势)。还不清楚的是苹果是不是也这么看待“AI”的。
(哪怕Google Photos在对象识别方面总是比Apple Photos好10—15%,但到了一定的精确度之后,用户还能不能分辨出来这种差异呢?毕竟,iPhone上的Apple Maps用户要比Google Maps多3倍,而Google Maps无疑是更好的。Google的任何优势会不会被苹果基于设备的Photostream或别的功能抵消呢?再一次地,这些都还不是很清楚。)
苹果和Google以及各自平台上的app的共同主线是,最终许多的“AI”都会成为横跨所有东西的API和开发工具,就像定位一样。15年前手机的位置定位看起来像是魔术,移动运营商的“定位服务”是有收入预测的。GPS和wifi查找把LBS(定位服务)变成了又一个API调用:“你在哪里?”变成了又一个计算机不再会问你的问题。但尽管定位变成了又一个API—只不过是数据库查询罢了—只不过是又一个IF语句罢了,但由此创建出来的服务却组成了一个谱系。一头是像Foursquare这样的东西—只能通过实时定位来变魔术的东西。再往后一点是Uber或者Lyft—让Lyft知道你打车时在哪里的话会很有用,不过着并非必不可少的步骤(但是当然,对于司机app来说是)。但然后还有像Instagram这样的东西,对于它来说定位是一项免费的可有可无的功能—对于自动给照片进行地理标记来说很有用,但这不是必须的,甚至你可能都不想这么做。(相反,图像识别即将会变革Instagram,尽管他们需要仔细地对训练数据中不同类型的咖啡进行分类。)最后,还会有比方说这样的航班app,你进行航班查询时它可以问你住在哪座城市,但是问不问其实都没关系。
同样地,也会有只能靠机器学习的产品出现,无论是用于图像或者语音或者别的什么(不再会有人把定位视为‘改变打的’的东西)。会有把它当作锦上添花的服务出现,也会有它(机器学习)在里面无关紧要的服务出现(只是大家还没意识到)。所以,苹果既提供了图像识别,也提供了一个更智能的键盘,以及在日历app中提供了地点建议—它把“AI”撒播到各个地方,就像定位这个特性一样。正如任何计算机科学工具一样,总会有一些技术会被商品化,也会有一些还不能商品化。
到目前为止,所有这些都意味着AI的影响会形成某种T型模型:垂直方向会有搜索,AI在其中扮演着关键的变革作用,然后会有一个横跨一切改变东西的层(就像定位一样)。但还有另一种潜在的模型,AI在里面会成为手机本身新的一层—这层东西会改变交互模型并且把服务从相互隔离的一个个app烟囱重新定位到新的类似运行时的地方。,它会改变手机的聚合层吗?—这样的AI会让app变得更好,但是会不会改变app的定义呢?对于苹果发明的这一模式来说,这是一个极大地不稳定因素。
显然就某些情况而言答案是肯定的。至少搜索意味的结构性变化会改变竞争版图并且会动摇Google通用搜索与其垂直竞争对手的混合模式基础:一次Yelp查询可能会变成一个Google问题,或者甚至在你开始问之前答案就会提供给你了。这是把问题干掉的另一种情况—Google未必再提供10个它认为可以回答你的问题的结果,而是直接给你答案,甚至还会尝试在你开始问问题之前就给出答案。
更有趣的是,一项Uber或者Lyft请求,或者一次Opentabe预订也可能从app被语音UI或者地图之类的接口重新聚合成一项建议或者回答(去吃饭通常也得打车)。只有一个按钮—询问一个简单问题的app很容易就可以变成一个请求,无论是在Google Assistant、Siri、苹果或Google Maps或者聊天应用都是如此。实际上,看待苹果开放API到Maps、Siri、Messenger等的方式之一可以是把它看成是Google的反面。Google会替你找摄像头、饭店或者酒店,而苹果则依靠开发者来搞定相同的用例。Google Allo推荐饭店,而苹果的iMessage会给你一个Opentable插件。
不过这个有多大区别呢?是,你可以告诉Siri或者Google Assitant“给我看所有新的Instagram帖子”,但为什么把这个放进所有问题的应答流里面就是一个更好的UI呢?为什么看这些东西(所有新的Instagram帖子)Google的ML接口是比针对Instagram设计的Chrome更好的地方呢?ML也许(确实会)让Facebook的新闻流更好,但它消除了一对多以及一对一通信渠道之间的区别了吗?为什么通用目的的渲染层就比专用目的的渲染层更好?被归为通用目的的ML层会改变这个吗?
有人也许会提议进行重新绑定,因为它让接口更简单—你的主屏可以显示你的文档、邮件以及当天会议,这样你就不必打开每一个app才能处理这些东西了。也许“接下来你想打开哪一个app?”这个问题也可以不用问了—车打好了,会议已经接受了,开支报告已经批准了。Facebook的一整块交互已经这么做了,而且是在ML之前—看哪些分享的帖子,跟谁聊天,看什么新闻这些它都帮你定好了。但这并不是手机上唯一的东西。再次地,我们没有HAL 9000。实际上我们并没有一个能够了解你、了解你一切需求,知道你的app里面有什么东西的系统,我们离这样的愿景差得还很远。所以认为Google可以把你在手机上做的一切纳入到一个统一的基于AI的交互层(位于最顶层)的想法更像是所谓的“邪恶博士计划”—它太过聪明了,需要的技术(杀手激光卫星,或者意念解读)实际上并不存在。
看起来有两件事情使得讨论AI的爆发很难。一是“AI”是一个太过宽泛的概念,这意味着我们会有新的魔法之锤把每一个问题都变成钉子。AI做不到这个,我们有一堆新工具来解决部分但不是全部问题,从各种数据池析取出来新洞察的承诺未必都能满足。数据有可能有误,洞察也可能是错的。其次是这个领域正在快速发展和改变,我们一直在讨论新东西和现在做不到的东西。所以会充斥着令人兴奋和胡说八道,会充斥着质疑和愿景,会有一堆令人惊艳的公司出现。其中一些会进入到所有东西里面你甚至都不会注意到它的存在,而有的则会成为下一个Amazon。