智能语音交互的第一步是语音识别,但是一直以来,真实环境下远场语音识别的准确率都差强人意,很多AI公司都在试图通过深度学习的方法解决这个难题。声智科技认为,虽然深度学习给语音识别带来了极大的提升,但是在真实场景下,语音往往受到噪声、混响、回声等声学因素的干扰,致使输入云端模型的数据丢失大量特征,真实效果远未达到期望,因此最好从底层的声学技术切入去解决这个难题。
之所以会有这样的观点,主要还是因为声智科技的团队在中科院做了多年声学研究,很清楚物理底层信号的原理与难点,特别是人机交互所使用的语音信号。一般来说,人听到的声音包括直达声和反射声(人听自己说话的声音还包括骨导传输),当距离声源较远以后,声波的反射效果增强形成较强的混响,特别是在一些声学效果较差的环境,如果附近还有其他的噪声干扰,例如电视、风扇、汽车等等,即便我们人类也很难听清远处的人声,这就直接影响了远场语音识别的准确率(也会产生远程语音唤醒等难题)。
深度学习识别的准确性主要依赖于模型的优化和数据的规模,同时也对训练样本数据的精度和维度都有极高要求,而这主要依赖于训练数据的采集和标注,但是目前来说,这些数据的获取几乎都是依赖于人力来完成。显然,这无法满足未来人工智能爆发式增长的需求,从底层声学技术入手,很可能是一条更容易实现的道路。
(注:声智科技的智能音箱开发板)
正是看中这个机会,2016年4月,陈孝良带领团队从中科院离职,成立了声智科技,组建了二十多人的技术团队,同时获得了峰瑞资本领投的千万以上融资。经过几个月的努力,其研发的回声抵消、噪声抑制、声源定位、混响消除、声音定向等核心技术和麦克风阵列等硬件已经量产应用,这也意味着解决真实场景下远程语音识别与唤醒的思路经过了验证。
与此同时,声智科技以自己的技术和产品来采集真实场景下的远场语音数据,并以这些真实数据直接训练深度学习模型。陈孝良告诉36氪,目前已经将真实场景下的语音识别率从60%提高到了80%左右(中等阈值),随着场景数据量的增长将达到90%以上的识别率。
不过,从商业的角度看,卖声学解决方案并不是个好生意,毕竟这不是“必选项”,而是“加分项”。声智科技想到了以产品的形式提供技术支持,形成了在芯片、模组、OS、云服务等层面的语音交互解决方案。这种模式非常类似手机领域的MTK(联发科)。
从2004年起,MTK转型进军手机市场,不同于当时德州仪器、高通、英飞凌等国际芯片厂商只提供芯片平台给手机厂商,MTK提供的是高性价比的“保姆式”的整套成熟方案,大幅减少厂商的研发周期与成本。随着智能手机的普及,MTK股价一度曾超8000亿元。
如同当年MTK,声智科技产品化的第一步是先做底层器件——声学模组,这是与技术结合最紧密的。公司即将推出的声学模组,主打零门槛集成和较高性价比,端内置远场拾音、噪声抑制、声源定位、声源分离、回声抵消、音效增强等算法(2.0版本还将集成声纹识别、情绪识别等算法),预计9月正式开放预售,希望以此圈住一批客户。目前,已经与360等国内知名厂商建立了合作。未来,如果客户量足够大,或者业务有需要时,也会考虑做成芯片。
(注:图为 声智科技的主要产品方向)
业务方向层面,声智科技前期主要面向智能音响领域,同时逐步拓展智能安防、智能医疗、机器人等领域的客户。在声学模组基础上,声智科技还打造了智能音响的一体化语音交互方案,包含硬件与云端服务,目标客户定位于传统音响厂商,主打零开发门槛,包括了多种麦克风阵列方案(单麦技术方案,双麦技术方案,4+1阵列方案,6+1阵列方案和8+1阵列方案),集成了自研的音箱声效、声波对码等技术,外接了第三方的语音识别、语义理解等技术,可以简单理解成一个没有壳的“Echo”,音响厂商只需要基于声智科技开源的APP开发集成,即可快速打造出个性化的智能音响。这大大降低了智能音响开发的门槛,甚至只需要7天就可完成样品模型。
之所以选择从智能音响入手,主要是因为这个大市场里还未出现大玩家。数据显示,2014 年全球电子音响行业产值约为 4844亿元,2015年京东大数据显示音箱的销售额增长了62.6%。去年春天上线的亚马逊智能音响Echo则在18个月已经售出300万台,2017年预计销量有望达到1000万台。但在国内,模仿Echo的产品、互联网品牌的智能音响销量都不太好。陈孝良认为,这主要是因为智能音箱涉及的产业链和技术其实很复杂,但却没有公司提供优质的解决方案;而声智科技在这个领域机会很大。
市面上重视智能音响市场的AI厂商还有不少,比如科大讯飞、思必驰都推出了相关的产品。不过创始人陈孝良告诉36氪,这两家公司也拥有成熟且经过市场验证的麦克风阵列技术,这是Echo音箱的核心技术,也是Echo音箱的主要成本;但是仅有麦克风阵列技术还是不够的,这只解决了智能问题,却没有解决音箱问题,必须要有声学技术方案支持;此外,目前市面上的这些麦克风阵列方案强调通用语音交互,开发门槛太高,特别是有些技术点还不能完全满足垂直领域厂商开发的需要,这也给声智科技提供了时间窗口。