首页 >热门资讯> 商业智能(BI) > 智能音箱声学语音技术完全自研,背后是那个你不了解的小米 >

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

转载时间:2021.06.15(原文发布时间:2020.06.30)
254
转载作者:36氪企服点评小编
阅读次数:254次

小米是一家什么公司?

答案可能见仁见智。一直以来,高性价比是小米最初抢夺市场的切入点。但如今手机市场增速放缓,IoT成为手机厂商们比拼的下一个赛道。

小米也来到了转型的十字路口。

那么小米在AI研发上的方向和成果如何、怎么切实加快技术落地,我们和小米人工智能部聊了聊。

小米加速AI自研

除了询问天气、播放音乐的常规功能,你可否想过有一天音箱也可以成为一个能交心的朋友?

不久前发布的小米小爱音箱Art已经全面支持情感化的语音交互,小爱同学在被唤醒时,可以基于用户情绪,做出开心、害羞、惊讶等等不同的反馈,就像一个有情绪的机器人。这是小米人工智能部AI实验室最新的语音成果之一——通过情感TTS合成,实现拟人化情感化的小爱同学音色。

当然,作为小米的第九款音箱,当中也融入了小米更多的自研声学语音技术,比如支持全屋播放、就近唤醒等功能。

设想一下,用户直接对小爱同学发出“全屋播放”的指令,不必打开APP,房间里面所有音箱产品都能播放同一首歌曲。早上起床的时候,远处的音箱闹钟响起,只需要呼唤近处的音箱就可以直接关闭远处的闹钟,不必亲自下地。

智能音箱是一种枢纽型产品,也是小米IoT上的爆品,所以声学、语音技术也是小米在人工智能研究中进度最快的一个方向,已经实现了100%的自研。此外,小米的人工智能研究还包括视觉、自然语言处理(NLP)、知识图谱和机器学习等方向。

小米人工智能部AI实验室主任王斌博士介绍道,在人工智能领域中,机器学习更偏底层,是人工智能的核心支撑技术。声学、语音和视觉偏感知,是对人们感知到的声学、语音和视觉信号进行处理。而NLP和知识图谱则更偏认知,是对文本内容进行深入的语义理解。

目前,小米的声学、语音技术主要用于智能设备的交互,而视觉技术主要用于提升小米手机相机的拍摄效果,NLP和知识图谱则主要应用于各种互联网内容服务。小米的机器学习一方面研究包括自动机器学习在内的相关算法,另一方面则主要是构建大规模的训练和推理引擎平台,其中包括端侧的深度学习推理引擎。目前小米的很多基础AI技术也正在平台化,从而能够全面支撑公司的多样化业务,目前包括端侧深度学习推理引擎MACE在内的框架已经开源,后期各项工具、平台也会逐步开源开放。

王斌表示,今年小米在AI技术上会在多个方向上继续发力,比如视觉方向重点是在基础画质算法上实现突破,达到行业一流水准;声学语音方向还在进一步加强唤醒和合成的工作,尽快实现更大突破;NLP则在结合实际场景的情况下突破多模态内容理解技术。

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

“在公司内部的技术布局上,很多部门会有些相关性,大家互相支持去探索,成长会更快,“小米人工智能部总经理叶航军博士表示,目前小米的人工智能主要应用在三个赛道,除了前述以音箱为主的IoT产品,还有手机相机和互联网领域(搜索信息流推荐、电商平台等),相对而言,消费者对前两者AI应用的感知更加强烈。

“目前看,手机竞争很大程度上是拍照能力之争”,叶航军一言道破手机市场竞争本质。目前手机领域已经很久没有激动人心的颠覆性技术,相机作为使用最高频的功能之一,也是手机厂商们大展拳脚的领域。除了各类硬件上的加减乘除,围绕摄像的AI算法也是各家手机厂商的持续创新的沃土——AI算法的边际成本比硬件更低,而且可复制性也很高。

小米自研的视觉技术一方面不断提升相机的基础画质,另一方面主要体现在多种相机相册应用中,比如超级夜景、HDR、魔法换天、魔法分身等等。

以魔法换天为例,小米自研的AI算法可以将天空和照片的其他区域区分开来,通过更换天空素材,并调整其他区域的亮度颜色等,达到改变天气的目的。“当时市场上的竞品APP换天的成功率只有70%左右,我们在攻坚之后达到了90%以上”,王斌表示,尤其是针对前几年北京的雾霾天气,换天功能也是“击中用户痛点”,在社区还掀起了换天比赛,得到用户广泛好评。

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

“事关小米生死存亡”

毫无疑问,小米正在不断提高AI技术的自研率。站在普通用户的角度,对这些技术的感知虽然不甚强烈,但不积跬步无以至千里,种种微小的技术进步却也隐藏着小米的未来。

其实,小米内部围绕AI技术的研究在很早就开始了,但早期主要分散在各个业务部门。直到2012年,崔宝秋加入小米,把分散的研发力量聚合,才组建了人工智能与云平台团队,并且主导了小米“云计算-大数据-人工智能”的技术发展路线。随着技术立业的理念深入,小米成立了集团技术委员会,由集团副总裁崔宝秋博士担任技术委员会主席。

到了2019年年初,小米开启的新一轮架构调整。原来的人工智能与云平台部拆分成立成为三个部门:人工智能部、大数据部和云平台部。这三个部门也成为小米公司内部的一级部门,三位负责人直接向雷军汇报。

如今小米人工智能部的带头人叶航军也是在2012年加入小米的,再此之前,他先后就职于IBM、Google和腾讯。在小米的八年期间,他从小米云团队总监、小米AI平台团队高级总监,再到升任小米集团人工智能部总经理、AIoT战略委员会副主席,个人主要关注领域包括搜索引擎架构、分布式系统、云计算及人工智能。

小米去年年末的这次结构调整也释放了明显的信号:未来小米在云计算+大数据+人工智能这三类技术路线上的投入还要更大,而且会更垂直。“以前没有机会去暴露的一些项目,现在得到了更多的机会,有了更多的资源投入、更多的跨部门合作,公司对AI的重视程度越来越高”,叶航军表示。

2018年年初,雷军确定了小米“手机+AIoT”的双引擎战略。小米始终坚持给用户提供高性价比的产品,硬件本身的利润率很低,通过口碑积累了大部分用户。

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

利用硬件沉淀毛利更高的互联网收入,需要时间,也需要AI帮忙发挥出更高的效率,回到硬件上,随着手机市场大盘的下滑,小米要冲击高端高价,就必须要有自研技术托底。在IoT层面,小米的优势在于数量够大,占据了先发优势,从IoT到AIoT的转变,也是在打造更大范围的万物互联,提供更智能的硬件产品体验。

从财报上看,小米2020年第一季度营收497亿元,同比增长13.6%,其中手机以外的收入(互联网收入+IoT收入)占总收入达到了40%,份额也正在持续扩大。AIoT的引擎也正在助推小米总体营收狂奔。

在去年的重整中,雷军不止一次在内部会议中强调技术立业的重要性——“事关小米生死存亡,是小米持续发展最重要的动力和引擎”。

落地!落地!落地!

任意一项关键技术研发都不是小数目短周期的投入,尤其是AI。AI落地是绝大多数企业非常重视的目标。当然,AI落地也并不意味着所有的AI技术都需要自己研发。以声学语音为例,虽然小米这方面的核心技术已经实现几乎100%自研,但并不代表单一产品中的所有技术都来自小米之手。

所以在确定方向之初,清晰的判断尤为重要。叶航军表示,小米是一家专注而务实的公司,并不会为了研究而研究,也没有一定要完全自研的情结,一切还是基于理性判断。当然,王斌也认为,“上述领域的核心AI技术一定要跟上的,不然迟早会被卡脖子,如果是一定要自己掌握的,就会始终投入”。

所以,在选择供应商还是自研技术之间,小米内部会维持“动态平衡”。

小米在AI技术自研上虽然起步较晚,技术的标签也还没真正走入用户心智,但客观来看,小米通过快速灵活务实的打法逐渐建立了自研的护城河。

首先是小米一直以来的效率足够高,在硬件上适用,在AI技术研发上也依旧适用。

AI技术特别是应用于设备的AI技术在研发过程中的一个困难是,硬件一旦变动就可能会导致算法全盘失效,在实操过程中,小米的人工智能团队也学会了如何快速提取公共的部分,通过减少需要改动的地方,提高算法在不同硬件上的复用效率。

其次,小米也有足够丰富的场景(电商/金融/游戏等)可供技术验证,也积累了大量的数据。据Q1财报数据显示,在IoT领域,小米IoT平台已连接2.52亿台设备,接入了手机、家庭、穿戴等7大场景,209款设备。

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

“AI技术到处都有用武之地,但要和场景充分结合技术才能产生巨大火花”——这也是王斌教授离开学术界进入工业界的一个重要原因。当然,王斌也并不是小米内部第一个做出这种选择的学院派,小米对于AI技术研发落地的重视、AI场景的多样性和优势还在持续吸引更多的工程师加入。而这些人才在不断塑造小米的工程师文化,也是小米接下来打造技术护城河最重要的基础。

在内部,小米AI技术的主要驱动力来自业务,这也保证了小米AI技术的研发大都是基于用户体验而开发,在推出之后也更能迎合用户需求。王斌也承认,小米还是一家发展中的年轻公司,目前技术反推业务的比例还不是很高,但是由于小米的业务多样化,技术驱动业务的成功案例也在不断增加。

针对AI部门未来的发展,叶航军也已经制定出了长期目标和短期目标。他说,短期目标还是在IoT+手机相机+互联网三个应用领域上持续加强优势,加强投入,长期目标则是“希望帮助公司发现更多的机会,比如健康、教育等”,让技术更多地去反推小米的业务。

目前小米也在同步补齐AI所需要的基础能力,年底将打造一个AI技术中台,主要是面对公司内部打造成一个统一的技术输出出口。

正如崔宝秋此前接受访谈时所说,小米的所有产品,包括硬件产品、软件产品和互联网服务都需要AI来赋能,“今天AI在小米已经无处不在,这也充分表明了AI在小米整个生态系统中的重要性。”

有人认为,人工智能也是继蒸汽机、电力技术、计算机信息技术之后的第四次产业革命。叶航军带领的小米人工智能团队也不想掉队。叶航军表示,“不管如何定义人工智能,共识是,人工智能是能帮助提高效率和体验的一个工具,所以公司的判断是在人工智能方面必须要投入的”。

回到文章开头的问题,小米到底是一家什么样的公司。几乎每一个小米人工智能部的人都会毫无迟疑说,小米是一家互联网科技公司。但要成为用户心智中真正的互联网科技公司,小米需要做的事还有很多。在叶航军看来,分为三步。

“首先技术上要有独特的地方,其次是产品和体验,技术要落地到用户能用上的地方”,叶航军表示,“第三是你的生态和品牌,用户怎么看待你的公司,要靠产品上的优秀体验,再让用户去定义你到底是一个什么样的公司”。

AI时代已经到来,对于一家企业而言,能够通过科技让每个人享受科技带来的美好生活,才能撬动更大的社会价值。

[免责声明]

资讯标题: 智能音箱声学语音技术完全自研,背后是那个你不了解的小米

资讯来源: 36氪官网

36氪企服点评

商业智能(BI)相关的软件

查看更多软件

行业专家共同推荐的软件

限时免费的商业智能(BI)软件

新锐产品推荐

消息通知
咨询入驻
商务合作