智能语音交互方式的出现,对远场识音提出了更高的需求。麦克风阵列是当前最主要的远场拾音方式,但不仅需要额外购买,而且因为尺寸较大需要更改产品的ID设计。
我们近期接触的「语智科技」则希望通过技术创新,不借助麦克风阵列实现远场拾音,且可以实现优于当前主流商用引擎对比的结果。
一般来说,传统ASR技术(自动语音识别技术,Automatic Speech Recognition),往往借助麦克风阵列采集声音信号,分别对单路信号进行降噪,将多路语音处理后合成一路,再进行语音识别。使用语智科技的技术,则可以做到使用任意麦克风采集声音信号,直接输入远场语音识别引擎FFASR,在云端进行降噪、回声消除、语音识别。
之所以能做到通过单路信号实现高准确率识别,团队在实现原理、算法方面做了一系列创新。简单来说,技术上重点关注人声与环境声的对比,以此进行声学建模,自研了基于这套声学信号的语音识别算法进行识别。
这一技术,将会以远场语音识别引擎(FFASR, Far-Field Automatic Speech Recognition)的开发者平台的方式对外开放,开发者可登录语智科技官网直接调用 API,流程类似调用其他语音识别API,工时约为几十分钟。语智科技告诉36氪,最近一次内部测试数据显示,其 FFASR 远场识别引擎的性能指标领先业内 15%以上。
这意味着,即使不使用麦克风阵列,用户也能获得语音识别较好的体验,对开发者来说,不仅可以缩减使用麦克风阵列的 BOM 成本及开发成本,还可以加速智能产品的落地速度。首先是成本更低,当前麦克风阵列还处于行业发展早期,价格普遍在几十元-200元左右不等。其次,对于存量市场带有麦克风的产品来说,无需进行任何硬件部分改动,就可以增加远场语音识别功能,可以加快产品研发的进度。
这套方案在国内外并不常见,团队分析主要原因是这套方案需要同时精通声学、语音识别两个跨学科领域,这种跨界人才非常难得。公司CEO 冯一、CTO徐源盛、均毕业于北京大学计算机系,是ACM大赛获奖者,在创业前期曾花费一年时间进行过声学、语音识别相关算法研究;声学开发总监黄智超为北京大学声学方向硕士 ,研究领域为麦克风阵列和降噪技术。
事实上,包括Google在内的公司也在研发通过算法的方式降低麦克风阵列中麦克风的数量。未来有技术实力的大公司也有可能推出类似的方案。冯一预计,现阶段大公司的负责人很少能同时精通声学、语音识别,其职能决定了起没有时间补足欠缺的部分,因此很难调和、统筹研发进度;而大部分公司要研发类似的技术并达到类似的效果,可能需要2年时间。
当前,家居、汽车是智能语音交互主要的应用场景,这也是语智科技重点优化识别性能的市场。36氪也在现场进行了试用,在播放夜店歌曲的情况下,可以在2米外准确识别“打开窗帘”、“关灯”等指令。
FFASR将会免费提供给开发者。这种方式有助于语智科技快速拓展客户,并积累真实数据。后期则有可能会客户提供定制化的语音识别技术进行收费。
智能语音交互作为一种新的技术,正被越来越多的产品采用。市场数据显示,2015年,中国的语音市场规模为46.8亿人民币,比前一年增长53.1%,占世界的12%,预计到2020年,全球语音市场规模预计将达到191.7亿美元。随着亚马逊Echo和Alex走红,国内智能语音交互的竞争升级,科大讯飞、百度、搜狗、思必驰等先行者重点面向平台级的机会,正进行激烈的竞争。
2016年开始,麦克风阵列也成为智能语音交互赛道上一个备受关注的细分方向,诸如声智科技、GMEMS、先声互联等公司都瞄准了这一市场,并获得了资本青睐。冯一认为,当前与麦克风阵列的厂商并不存在太多竞争,麦克风阵列不容易切入的存量市场将是公司重点关注的方向。
语智科技已经组建了25人左右的团队。今年12月,语智科技公司宣布完成2000 万元 Pre-A 轮融资,由晨兴资本、云启资本领投,九合创投跟投,融资将主要用于研发投入及市场渠道铺设。