编者按:本文来自微信号智东西(ID:zhidxcom),作者:寓扬。36氪经授权转载。
随着智能音箱的火热以及背后语音交互生态的成熟,将会带动越来越多的设备语音化、智能化,使语音真正成为人机交互的一个界面。而在语音交互设备中,语音芯片凭借定制化、低功耗、高能效、端智能以及成本优势等地位越发重要,成为人与云端“沟通”的桥梁。
在智能语音市场,随着亚马逊、谷歌等互联网巨头公司的推动,仅仅是智能音箱一个品类今年的全球销量预期有望达到3000万台,并陆续涌现在各个国家,市场呈爆发之态。作为语音芯片市场最大的玩家联发科以占据了70%的市场份额,2017年语音芯片出货量预计达到2000万片以上。
智东西通过调查梳理发现,随着语音交互的涌现,诞生了一个新的语音芯片行业,数十家公司参与其中,语音芯片的发展呈现初期通用组合芯片——语音芯片涌现——语音AI芯片蓄势待发的趋势。通过语音芯片发展的三阶段以及数十家芯片公司的介绍,智东西为你呈现语音芯片的崛起!
▲注以上为智东西不完全统计
本文所讲的语音芯片侧重于智能语音设备兴起后,专门为语音交互场景打造的SoC芯片(芯片级系统,System on Chip),它兼具运算力和低功耗,支持多通道麦克风阵列接口,支持信号处理算法等。
在人机对话的语音交互中,语音识别、语义理解、语音合成、任务执行等都是在云端进行。而在终端侧,语音芯片的作用是对智能语音设备拾取的多通道声音进行处理并传输到云端,并将反馈结果以语音的形式输出。如果说云端是智能语音设备的大脑,那么语音芯片就是连接人与“云脑”的桥梁。
目前,智能音箱的迅速发展正成为语音芯片崛起的重要动力。结合产业链各方消息,智东西此前预测智能音箱市场规模在今年年底有望达到3000万台。这意味着仅仅是智能音箱的发展,就推动语音芯片市场达到3000万量级,尽管与以亿为计算单位的手机芯片无法相提并论,但作为一个新兴品类,仍处于快速发展期。
在智能音箱这个市场中,联发科、德州仪器、科胜讯、全志科技、杭州国芯、晶晨科技、成都启英泰伦等芯片厂商都推出相关的语音芯片,且又以联发科一家独大,占据智能音箱约七成市场份额,粗略计算联发科在2017年语音芯片销量将达2000万片以上。
通过对目前市面上语音芯片的观察,我们发现语音芯片有以下特点:其一兼具运算能力和低功耗的考量,采用最适合做语音处理的CPU(中央处理器);其二是具备高度整合性的语音SoC,支持多通道的麦克风阵列接口,集成Codec(多媒体数字信号编解码器)模块/DSP(数字信号处理)模块,并且集成WiFi/蓝牙模块等;其三在语音算法上支持回声消除、噪声抑制、声源定位、语音增强等技术,或具备良好的音值调节功能;其四端智能化,集成神经网络单元将部分云端训练好的智能本地化工作。
通过智东西近期对产业链的采访以及梳理,根据语音交互的发展状况,将语音芯片的发展归纳为三个阶段,第一个阶段为语音芯片过渡期,采用通用芯片组合方案;第二个阶段为崛起期,语音芯片兴起;第三个阶段为语音芯片进化期,语音AI芯片涌现。
第一阶段,大约2015年以前尽管智能语音设备,包括智能音箱、远场交互的智能电视等都已出现,但在市场尚未起量的情况下,语音设备采用的多是通用芯片+Codec芯片/DSP芯片等相结合的方式实现语音处理,如全志的R16芯片。
2015年到2017年之间,随着智能语音设备市场规模进一步发展,专门用于智能家居或智能音箱的语音芯片开始陆续亮相,包括联发科推出的MT8516芯片、科胜讯的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。
此外,随着智能语音设备的迅速发展,对于端智能的需求也在显现,语音AI芯片应运而生。端智能是近两年来AI领域大火的概念之一,指的是数据的采集、计算、决策都在前端设备进行,优势在于稳定、时延小、同时能够保护用户隐私等。如杭州国芯推出的GX8010和启英泰伦推出的CI1006都属于语音AI芯片。
在智能语音设备的市场早期阶段,由于芯片研发漫长的周期(一般需要18~24个月),高昂的研发投入,因此在市场规模尚不大的情况下,市场并没有专门的语音芯片应用到智能语音设备中。
2010年6月微软推出的Kinect体感周边设备、2012年三星推出的远讲语音电视、2014年秋亚马逊推出的智能音箱Echo以及2015年京东&科大讯飞推出的叮咚音箱等是智能语音设备的早期代表,它们采用的多是通用芯片(AP芯片/平板芯片等)+Codec芯片/DSP芯片等组合的方式,由Codec芯片进行模拟信号的数字信号的抓换,DSP部分对数字信号进行处理,包括回声消除、噪声抑制、语音降噪/增强等,使语音便于后端的语音识别,再由通用芯片进行处理传输到云端提供语音处理的计算力支持。
以亚马逊Echo为例,2014年秋天亚马逊推出智能音箱Echo,最初使用的是TI(德州仪器)的DM3725数字媒体处理器,该芯片之前主要应用在多媒体设备、视频机顶盒、游戏终端等,在进行语音传输处理时,仍需要搭配Codec芯片。在早期的Ehco中,亚马逊使用TI的DM3725(数字媒体处理器)+TI的ADC(模数转换器)来实现。
▲德州仪器DM3725芯片
后来或许是处于成本以及其他考虑,亚马逊的一些产品开始使用联发科MT8563芯片,这款芯片同样不是语音专用芯片。直到今年Q2季度,联发科推出了MT8516才算真正意义上的语音芯片。
另外一个例子是国内早期智能音箱的代表叮咚音箱,最初国内也没有专用语音芯片,采用的是全志科技R16芯片+科胜讯Codec芯片的方式进行语音处理,而全志R16之前则是用于平板的芯片。
在语音交互场景的早期,智能设备并无太多销量,即使看到了这一潜在机会,研发一款专用芯片的时间成本、投资成本都决定了在最初一段时间,智能设备需要使用通用芯片或其他芯片作为过渡期。
随着智能语音设备销量不断增长,典型的就是2016年以来,以亚马逊Echo为代表的智能音箱市场规模的不断扩大,专用的语音芯片也开始出现,2016年又刚好是语音芯片兴起最集中的一年。
其实早在2013年7月国内首颗专用语音芯片就诞生了,它由四川长虹和中科院声学所付强(现为先声互联创始人)团队共同研发。新研发出的长虹语音芯片的优势是在语音识别的基础上,融合了多方面的语音增强功能,包括语音降噪、回声消除、波束形成等,支持低功耗唤醒,能够实现远场语音采集。可能因为四川长虹的一些原因,这款芯片在研发出后并没有投入生产,之后就不了了之。
2015年以后语音芯片就开始陆续兴起,包括联发科MT8516、科胜讯CX20924、晶晨半导体A113、瑞芯微RK3036、北京君正X1000等公司,如联发科推出了MT8516应用在了阿里天猫精灵上,晶晨A113应用在了小米AI音箱上。
▲阿里天猫精灵主控板上使用的联发科MT8516芯片
整体来说,这些语音芯片都是面向智能音箱以及智能家居场景打造的专用芯片,支持多通道麦克风阵列接口,采用适合做语音处理的CPU;在语音算法上支持回声消除、噪声抑制、声源定位、语音增强等技术,并兼具运算能力和低功耗的考量。
但有趣的是,除了联发科外,都是一些中小芯片公司推出语音芯片,像高通、英特尔等巨头芯片公司并没有推出语音芯片。考虑到联发科过去做DVD的光驱起家,多媒体一直是其核心技术,在语音芯片上跟进不足为怪。而高通、英特尔等并未在语音芯片上跟进,一方面反应出相对于手机、电脑而言,语音芯片市场目前规模较小,并没有引起巨头玩家的重视;另一方面也反应出他们在语音芯片布局上进展较慢,如高通在今年6月份还专门发布了一个智能语音平台,正是从另一方面弥补在语音芯片研发上的缓慢。
此外,智东西还了解到,全志科技会在2018年初推出一款专用的语音芯片,联发科也会在明年推出更具竞争力的语音芯片。
随着华为麒麟970芯片以及苹果A11芯片的推出,AI芯片成为行业热议的话题。所谓AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责),从而实现端侧智能。
目前无论是智能音箱还是其他智能设备,更多的智能都是在云端来实现,但云端存在着语音交互“时延”的问题,对网络的需求限制了设备的使用空间,以及由此带来的数据与隐私危机。为了让设备使用场景不受局限,用户体验更好,端侧智能以成为一种趋势,语音AI芯片也随之而来。
2016年以来,语音AI芯片也开始走进大家的视野。成都启英泰伦在去年推出CI1006,杭州国芯在今年10月底推出GX8010,都是语音AI芯片。
▲杭州国芯GX8010芯片
对比语音芯片,语音AI芯片具备以下特点:首先语音AI芯片中集成了专用的AI处理器模块,用以对本地的机器学习算法进行加速;其二高度集成,语音AI芯片不但集成CPU、AI处理器,还会将DSP信号处理、WiFi/蓝牙等模块集成进去;其三能够实现端侧智能,将一些常用或者简单的功能直接集成到本地,通过AI芯片进行本地计算,从而设备可以在端侧离线完成如听音乐、日常问答及闲聊等任务,实现更快的交互能力。
再考虑到用户体验以及数据隐私等问题,更快的交互体验以及更多本地计算会是一种趋势,随着智能语音场景的爆发, 语音AI芯片也会迅速发展。
但目前的AI芯片更多的在于手机和视觉应用领域,一方面手机市场体量足够庞大,另一方面视觉应用技术也相对成熟。而在语音领域,一方面语义理解技术短期内很难突破,另外智能语音是一个新兴市场,智能音箱作为典型爆款产品,今年全球整体市场规模也不过2500万~3000万台之间,而这些都导致了语音AI芯片进展相对缓慢。
联发科副总经理暨家庭娱乐产品事业群总经理游人杰曾对智能语音的发展提出一个三阶段论的观点,他认为智能语音的第一阶段是智能音箱的普及,第二阶段是更多智能语音设备的出现,语音成为人机交互的界面,第三阶段就是端侧智能,通过语音AI芯片来实现更多本地计算,提供用户更好的交互体验。
不难看出,我们目前还处于第一阶段,需要推动智能音箱的普及以及更多智能设备的出现,从而推动语音交互界面的到来。只有当语音成为一种交互界面,才意味着整个智能语音市场的爆发,才会有更多的巨头芯片厂商以及中小芯片商涌入其中。
而针对当下智能语音设备所需的智能化,游人杰谈到,CPU本身可以做一些“轻”AI的功能,如果本地需要很强的AI能力,目前则会在语音芯片的基础上外置一个AI处理器来实现。此外游人杰也透露,联发科语音AI芯片的推出尚需1~2年时间。
相比一款新型芯片研发的高昂成本,在对算力有很大需求的产品上,通过添加一个独立的AI处理器模块,确实可以快速满足产品端对AI能力的需求,并且缓解了芯片产品漫长的研发周期(一般18~24个月)。从时间来看,随着智能语音的兴起,未来1~2年后可能将会是语音芯片爆发的高峰期。
有分析认为,到2020年AI芯片市场规模将达到146.16亿美元,约占全球人工智能市场规模12.18%。随着人工智能的火热,以GPU(图形处理器) 、FPGA(现场可编程门阵列) 、ASIC(为专门目的而设计的集成电路)为代表的AI芯片类别均将获得快速发展,语音芯片/语音AI芯片也会在这个过程中受益并爆发,在此过程中会诞生一个新兴的语音芯片行业,以及一波语音芯片公司。
根据游人杰智能语音发展的三阶段论,目前我们还处于第一阶段的智能音箱普及期,先通过一款爆款产品来引爆整个语音交互行业,并由此推动家庭场景、办公场景等的语音智能化,使语音成为人机交互的一个界面,才能真正推动语音芯片的爆发,以及演进到语音AI芯片。
仅仅是今年全球智能音箱市场销量预计有望达到3000万台,随着语音交互进一步爆发,场景进一步开拓,智能语音设备将快速进入亿级规模市场,可见无论是当下的语音芯片还是即将到来的语音AI芯片,都将有广阔的市场空间。
由于当下智能语音市场规模相对较小,相比芯片研发的高成本投入,像高通、英伟达、英特尔等芯片巨头或是并不看好这块市场或是语音芯片研发进展缓慢,给予了更多中小芯片厂商发展的机会。
目前在语音芯片行业已涌现出数十家公司在这一领域“开疆扩土”,包括联发科、杭州国芯、全志科技、晶晨半导体、启英泰伦等,既有芯片领域的大公司,面向智能家居、消费电子领域的国有芯片品牌,还有新兴的创业公司。正是语音交互的兴起,为他们在既有业务之外,提供了一个新的经济增长点,并且随着语音交互的爆发,这一领域甚至会诞生下一个巨头芯片公司。
可以预见的是,2018年会有更多语音芯片的诞生,在未来1~2年,语音AI芯片也将进一步发展迎来爆发期。
随着语音交互设备的诞生发展,芯片也经历着从通用组合芯片到语音芯片再到语音AI芯片的演进。随着语音交互的爆发,语音真正成为人机交互的界面,语音芯片也将成爆发之态。
但与此同时,语音与视觉也将会走向融合,毕竟多元的交互方式才更符合人性的体验。在语音芯片崛起后,“语音+屏幕”相结合的交互方式也是业界更加认可的一种趋势。