为何众科技巨头都在抢滩语音识别技术？

转载时间：2021.07.15（原文发布时间：2017.07.10）

207

转载作者：36氪企服点评小编

阅读次数：207次

大数据文摘作品，作者 | Alon Bonder，编译 | 蒋宝尚，杨捷，廖远舒

上周的科技圈头条几乎都被语音技术抢占：百度AI开发者大会在北京召开，发布DuerOS对话式人工智能系统，搭载DuerOS的设备可让用户以自然语言对话的方式进行人机交互；同天下午，阿里人工智能实验室召开了新品发布会，发布第一款智能音箱产品天猫精灵 X1，这款音箱内置智能语音助手AliGenie，能够听懂中文普通话语音指令，并实现智能家居控制、语音购物、手机充值、音乐播放等功能。

国内两大公司先后发布智能语音产品，这意味着继亚马逊、谷歌、苹果等国际科技巨头发布其智能语音产品和解决方案之后，在中国以中文为基础的对话式人工智能产业的风口也已经到来。而世界范围内，对话式人工智能产业全面爆发。

在喧嚣背后，我们不得不面对更根本的问题：语音技术到底增加了什么价值？对于投资者和创业者来说，这到底是风口还是昙花一现？本文将逐步介绍语音技术演变逻辑线，有何增值，以及分散在其中的可投资机会。

在过去的几个月里，语音技术开始受到越来越多人的关注与青睐。从亚马逊的Echo到google home以及苹果公司的HomePod，似乎每家公司都参与了进来。SNL也通过发布针对老年人的”Echo silver"来凑了个热闹。

但在喧嚣背后，我们不得不面对更根本的问题：语音技术到底增加了什么价值？

优秀的风投从业者既需要把握变革型技术发展趋势，更需从中分辨出具有广阔商业前景的部分。这就需要从业者充分认识并且了解技术的真实水平，并做深度挖掘。基于此，以下文章将逐步介绍语音技术演变逻辑线，以及分散在其中的可投资领域。

智能手机是一块踮脚石

以智能手机为媒介，我们使用语音技术已经有很长一段时间了。苹果在2011年推出了Siri，自那以来，基于智能手机的语音助手的使用数量一直在稳步增长。 2015年，65％的智能手机用户使用了语音助手，而这两个数字在两年前只有现在的30%。虽然与语音助手的互动中大多是非常简单指令（例如“呼叫某人”或“搜索附近餐馆”），但也有证据表明这些互动变得越来越复杂。

来自百度的一项分析表明，2014年至2016年间，API对文本朗读服务的要求增加了20倍以上。这表明人们不仅仅是向语音提出更多的问题，还期待更多答案。因此，设计支持语音的应用程序需要对用户体验和搜索功能进行根本性的重新思考，并重点关注图形用户界面（GUI）。

硬件驱动主流意识

为何众科技巨头都在抢滩语音识别技术？在过去两年中，像Amazon Echo和Google Home这样的设备将语音应用程序推向主流。到目前为止，亚马逊已经成为市场的领导者，截至2016年底，约有800万台Echo，相关设备的出货（相比之下，Google Home约为50万台）。消费者也越来越期待他们的新型号产品问世。

亚马逊的早期成功可以归功于其他们领先发展该技术，以及其积极的营销推动策略。即使如此，截至2016年第一季度，虽然有 60%的美国人听说过Echo，但只有5％美国客户拥有Echo。这意味着从产品推广率到购买率之间还有很大的增长空间。事实上，估计显示，到今年年底，所有支持智能语音的设备销售可能性会攀升至3300万个单位。

第三方技术使用的增长

语音设备的快速扩展足以促使第三方技能和应用的生态系统加快形成。截至2017年5月，市场上的亚马逊Echo有12,000多种功能，而Google Home只有近100项。正因为这两家公司舍得对研发的投资以及创作工具的大众化，才让我们见证了这些增长。

然而，亚马逊Echo或Google home的应用程序大多数都不实用：只有30％的亚马逊Echo功能，会让消费者再次使用，更多的情况是，消费者在下载一周内就会卸载相关程序，平均下来只有3%得以保留。人们通常习惯使用这些设备的最简单的功能，例如设置定时器，播放歌曲或者控制在家的IOT设备。

为何众科技巨头都在抢滩语音识别技术？

亚马逊Echo功能使用情况如上图

迹象表明，由于两项重大变化，这些参与统计数据在不久的将来会有所改善：（1）创建支付功能，使开发商可以通过应用获利; 和（2）改进的应用程序发现过程。

截至今天，开发人员无法向用户收取下载或使用其语音应用程序的费用，这样一来他们就缺乏积极性去创造更贴心的应用程序。此外，要求他们首先通过其他媒体了解应用程序，然后在线下载应用程序的发现过程对于用户来说非常麻烦。亚马逊和谷歌都试图解决这些问题，但时机和影响目前还不明朗。

语音授权的交易量有所增长

虽然对于更广泛的开发商群体来说，通过语音应用程序直接获利还不可能，但亚马逊已经表明，消费者愿意通过语音花费更多的钱。在亚马逊商城，Echo的所有者比他们没拥有Echo之前金钱花费多了10%，购买频率提升了6%。亚马逊通过Echo支付所赚取的收入将超过明年销售设备所赚取的收入，而且差距还会继续扩大。预计到2020年，除去预计的40亿美元设备销售收入，亚马逊将从语音授权交易中产生70亿美元的收入。

为何众科技巨头都在抢滩语音识别技术？这个消费习惯的改变给我们传达了两个重要的信息：一是，现在开发商有了充分的理由去用语音设备吸引顾客。第二就是，未来将有大量语音设备，尤其是亚马逊研发的设备将会跟客户的信用卡绑定。这跟那些一直在努力获取客户付款方式的聊天室和其他消息app相比就有了绝对优势。我们已经看到的趋势是;随着亚马逊推出其可以搭载大量第三方设备Alexa操作系统，表明这种整合的价值将进一步扩大。

语音识别正在改进

智能语音被主流所采用的另一个主要的原因是，语音识别技术的迅速发展和改进。截至2016年，语音识别的错误率已经从2012年的近三分之一下降到约5%。，而2012年接近三分之一。深度学习方法已经成为这些增长的重要催化剂，并且有可能在未来几年内其将会具有更高的效率。

为何众科技巨头都在抢滩语音识别技术？然而，尽管语音识别在不断的进步，但真正的自然语言理解（NLU）还有很长的路要走。语音助手常常无法理解我们表达的真正含义，即使他们进行了完美地转录。因此，消费者常常对Siri等产品感到失望，苹果公司在广告中宣传Siri具有非常广泛的应用，但实际上真正好用的点就那么几个。这少数几个也是通过广泛培训(理解请求的所有可能变化)，以及创建工具(快速识别特定响应)的结果。

在语音技术阶梯的投资

为了看清语音技术在价值创造中的投资机遇，我做了下面这个技术阶梯图表。

为何众科技巨头都在抢滩语音识别技术？从投资的角度来看，并不是所有的层面都是平等的。由于谷歌和亚马逊低成本基础建设的发展，阶梯底层的那些技术（distribution scale）已经能够很快被商业化。这样一来，投资兴趣也会慢慢往技术阶梯的上层走，初创公司间将会有更激烈的竞争和更多的价值创造。

特别的是，技术阶梯中又以AI软件工具和应用程序最有前景。第一个代表了针对开发人员并且专注于创建和部署语音应用程序的产品。第二个代表针对最终用户的服务，涵盖消费者和企业的垂直行业。我们期望看到新业务集中在这两个层面，尤其是当AI软件和应用（比如购物、搜索和娱乐）正在努力向着语音技术突飞猛进。

开发语音的原生优势

与任何新技术一样，围绕着这些新的可能性将会存在一些兴奋点。然而最有可能成功的将是那些真正了解语音优势并且可以创造出能推动我们期望界限的服务和工具的企业。比如，当今蓬勃发展的拼车市场只有通过了解手机固有的移动性和位置感知才能得以实现。它和无缝支付系统创造了一个神奇的产品体验。类似的例子也将出现在语音技术中。

当然，这项挑战的实质就是了解语音原生优势在实际应用中的体现。以下是一些让我很感兴趣的优势。当我遇到这些领域的企业家时，我会进行密切的关注。

原生优势1：增加互动速度和效率

美国人平均每分钟打字40字，口述为150字。尽管如今的千禧一代手工灵敏，但是语音驱动的界面将比敲击键盘快得多。尽管在查看天气状况和运动成绩时这并不是一个明显的用户体验改进，但在更复杂的用例中这将会是非常有价值的。例如，医生平均每天花费一到两个小时的时间手动将数据输入到电子健康记录（EHR）系统中。若使用更好的口授软件，这些宝贵的时间便可以被更好地利用。

另一个优点是减少了信息导航的时间。语音技术打开了非结构化搜索的可能性而不是利用现代GUI提供的嵌入式菜单。例如，假设您希望根据一个非常用的索引维度在一个电子商务网站上过滤列表（例如引用缺陷或者新近启动的评论百分比）, 自然语言语音界面可以解释该需求并且据此整理结果。在目前的情况下，电子商务网站不会对此进行变更，以为这将大大降低用户体验。

潜在的启动应用：改进企业工作流程，个性化数字体验，自动化数据转录和汇总。

原生优势2：免提参与

为何众科技巨头都在抢滩语音识别技术？在一些实体环境中，例如一些工业场地或者正在开车，使用屏幕将会受到限制。在这种情况下，语音驱动界面不仅可以加速对信息服务的访问，还可以使其更加安全。超过三分之一的语音用户已经将其汽车引用为语音应用程序的主要载体。

一些公司已经开发出了专门用于免提环境的应用程序。像Guardhat和RealWear已经将语音技术融入到了专为工业设置的元素中。在汽车领域中，微软、亚马逊这些成熟玩家和处于早期阶段的公司比如Mycroft和Capio已经将语音助手作为车辆的楔子。

潜在的启动应用：促进工业环境中的沟通，管理分散的员工队伍，扩大信息可访问性，提高个人生产力。

原生优势3：对话透明

一些企业每年跟踪记录数百万小时的客户服务和销售电话。目前，这些记录主要用于监控常规的统计数据，如通话量、解决问题时长和满意度调查分数。然而，只关注统计数据而不是对话内容，将会增大忽视重要见解的风险。通过实际监控这些通话，企业可以发现新的以客户为导向的建议，找出更能引起顾客共鸣的产品介绍，或者自动地根据已有的表现最佳者的信息形成一个信息解集。通过语音驱动的分析工具，这些见解可以在一定规模上从那些被认为的黑暗数据中提取。

像亚马逊这样的平台玩家开始消除对消费者和品牌之间的直接接触，剩下的几个接触点将具有更大的影响。任何和顾客的对话（哪怕是一个愤怒的客户）将不仅被视为交流的机会，而且是一个学习的过程。

潜在的启动应用：产生商业智能，增强员工培训，改善客户服务/销售。

原生优势4：环境计算和语境意识

Google自成立以来，一直不断关注搜索速度。工程组中，整个团队都在致力于从毫微秒上提高顾客点击完搜索按钮后的信息检索时间。现在终于有人意识到提升速度的最大潜力就是去除掉一个步骤—在用户完成输入之前就提供搜索结果。

下一波搜索将会更加快速超前地发送问题的答案，甚至会不需要提问。

这个想法代表了环境计算的未来即当相关性最高时智能设备网络在实时响应环境中实际发生的情况。这是Amazon Echo或Google Home等语音设备的终极目标。这些设备旨在在后台运行，但是他们有权随时聆听，并且可以在最有帮助的时候插话。

潜在启动应用程序：提高生产力，培训模型以了解会话语境，促进语音驱动的商务和内容相关的广告。