李根 发自 Vegas
量子位 报道 | 公众号 QbitAI
万万没想到,一条数据线火了。
在2018 CES现场,这根线成为关注的热点之一,它被华尔街日报评价“Best of CES 2018”,还拿到了智能家居、智能车载、智能应用软件以及科技促进生活等4项2018 CES创新大奖。
不说你也猜到了。AI时代下,这肯定不会是一条普普通通的手机数据线。
那它有何不同之处?可以先看看这段网上流传挺广的视频。
KikaGO
这个数据线,真名叫做KikaGO。
除了给手机充电,KikaGO还能以语音交互的方式,帮助用户完成很多操作。包括接打电话、即时通信软件的收发信息、导航以及播放音乐。
更为特别之处在于,KikaGO能在非常嘈杂的驾驶环境中,准确识别用户的语音指令,而且通过声纹识别技术,可以只听令于自己的“主人”。
其实KikaGO不只是一个数据线,更是一个“全语音车载助手”。在CES现场,Kika对量子位表示,这个产品软硬一体打磨的挑战并不小。
△ KikaGO外观
但从硬件上,KikaGO为什么选择这种方案?
最主要的原因还是车内噪音较大,驾驶环境下,手机与司机之间的距离约有50cm。要在这个距离与手机语音交互,需要比较大的声音。
为了解决这个问题,KikaGO选择在常见的数据充电线上,创造性的加装了2个朝向相反的收音麦克风。因为要解决降噪的问题,至少需要两路音频信号。
数据线上还有一个芯片,用来进行信号转换和增益。随后,这些声学信号传送到手机端的KikaGO应用中,继续完成语音识别、语义理解等程序。
用户的指令,会被KikaGO进一步推送到第三方App中。据介绍,有了KikaGO的协助,司机在驾驶全程中,操作手机只需动嘴、不需动手。
△ KikaGO场景应用图
如果你想试用KikaGO,还得英文好才行。但可能你不知道,Kika起源于中国。
这家全员都以英文名片示人的公司,目前公司在北京和硅谷设立双总部,分别在印度和台北设立了研发中心。
Kika也不是一家刚创立的公司。早在2014年就推出了首款输入法产品Kika Keyboard,还在2015年拿到了“Google Play顶尖开发者”称号。
不过由于主打海外,国内用户直接感知接触有限。
目前,这家来自中国的公司在海外进入了140多个国家,支持173种语言,全球用户数量达4亿,月活6000多万。
也就是说,Kika做的事情跟国内的搜狗类似。这或许能解释Kika能够推出KikaGO的原因,用户、数据量、语音输入、人机交互等等之前的储备,都为现在做好了准备。
全语音解决方案
KikaGO背后到底有什么技术挑战?量子位从Kika CTO姚从磊博士口中获得了答案。
首先最直接的挑战是口音。与国内语音交互中的方言类似,英语场景也会面临口音问题。姚从磊说,通行的解决方法是收集更大规模的口音数据,然后进行训练优化模型,或者用更少的数据,但利用更多的深度神经网络,实现更好的效果。
在具体解决中,Kika两条腿走路。一边是靠数据底子,因为输入法有强大的用户基础,打造了一个千万量级的语音和文本数据集进行模型训练;另一边也在不断优化技术,同时与约翰霍普金斯大学进行合作,既做半监督的语音声学模型训练,也把输入法中的上下文信息理解应用到语言模型中,大幅提高语音识别的准确度。
其次还有理解。区别于文字输入,语音交互中缺失了标点符号、emoji等反映人类情感的信息,于是容易造成理解偏差,甚至谬以千里。
在情感理解方面,Kika也做了两手方案。
一手方案是构建情感数据集,涵盖各种情绪表达,在用户输入语音和emoji系列之间找到联系,利用深度学习网络训练,该数据集规模上接近亿级,主要来自Kika用户输入的匿名化脱敏数据。
虽然也曾经尝试过Twitter上的公开数据,但最后发现用户场景和日常IM聊天还不尽相似,数据效果不算好。
另一手方案是通过技术功能完善用户体验。比如支持用户用语音编辑、修正已经输入内容,降低用户使用语音输入的门槛。
此外,软硬件结合方面也有交叉整合带来的问题。
比如数据线本身功能是充电,但作为语音方案硬件载体,还需要考虑数据信号传输方面的效果。
还有安卓手机如何通过充电口,完成充电线与App之间声音信号流传输联动,且不干扰其他App,个中问题也不少。
最后还有车型号本身,大车、小车、SUV等不同空间的车,对于收音效果可能都会有影响,如何做到不同空间距离的识别效果最佳,以及车速较快、开窗、车内音乐播放等场景下的降噪表现,都是一道道需要亲自打磨测试才能解决的难题。
这也是Kika首次推出硬件相关产品,CTO姚从磊坦言:吃了不少苦头,趟过了不少明坑暗坑。在软件技术上准备好后,又经历了6个月的时间打磨产品。
不过,从当前市场反馈来看,无论是CES 4项大奖的奖励,还是社交媒体上用户的刷屏反馈,不仅击中了用户痛点,也是种瓜得瓜。
实际上,对于Kika这样的公司而言,生长壮大于移动互联网浪潮中,现在又面临大数据基础上的AI机遇,进入新领域、诞生新物种,也属于情理之中。
而且对于机器学习出身的姚从磊而言,深度学习为核心的AI革命,还提供了一种提升产品能力、完善产品体验的方法,是一把得心应手的锤子。
对于技术研发人员而言,可以通过问题(钉子)寻找,运用得力大锤解决问题。
这位Kika CTO甚至将此称为:AI思维。
AI思维
姚从磊举例说,对于输入法为代表的人机交互产品来说,核心标准是:全、准,快三个方面,这三大挑战在深度学习革命之前并没有解决得很好。
但如果基于AI技术,“全”方面可以通过多媒体内容库中的索引、分析和推荐,用户从输入感知层面能感到词库更全;而“准”方面,识别和理解方面更是大幅度突破,是60分到90分的提升;“快”的问题上也能抛开传统统计模型的缺点,对联想词的准确度有更精准的提升,甚至是数倍的提升。
除了核心产品本身的能力提升,姚从磊也在内部鼓励团队到产品线的全链条中寻找“钉子”,然后试着用AI这把得心应手的工具提升用户体验。
或者也能在核心发展AI引擎的主线上,不断拓展边界,推出之前没机会尝试的产品,比如当前推出的KikaGO.
姚从磊透露说,基于之前技术和数据的积累,现在Kika已经建立起了自己的AI技术库,将围绕输入法引擎(Engine Alps)、语音引擎(Engine Appalachian),以及内容推荐引擎(Engine Andes)推出更多AI落地方案/产品。
△ Kika的AI技术库
但也不是没有挑战,比如供不应求的AI人才。
不过这位Kika CTO回应说:并不是非常担心,即便竞争激烈,但Kika在数据、技术提升方面的实力会日益彰显,并且Kika也形成了吸引和培养AI人才的成熟机制。
“如果你的某一个技术提升就能让数千万人的生活更美好,想想就很激动人心。”
OMT
最后补充一句,这款拿了一堆奖的KikaGO,还没有正式发售,连售价也没有确定。而且主要的销售市场也是海外并非国内。
TO B是一个更重要的方向,基于场景方面的考虑,KikaGO也在寻求更多的合作伙伴,也许未来Uber、Lyft的司机都会用上这款产品。
— 完 —