首页 >热门资讯> 图像影音设计 > 微软语音识别领军人物黄学东: 机器翻译离举一反三还很远 >

微软语音识别领军人物黄学东: 机器翻译离举一反三还很远

转载时间:2022.10.20(原文发布时间:2018.05.24)
57
转载作者:36氪企服点评小编
阅读次数:57次

编者按:本文来自微信公众号“ 一财科技”(ID:ChinaChanceClub),作者:赵陈婷;36氪经授权转载。

曾经培养过李开复、陆奇,如今还拥有沈向洋、洪小文的微软从来不缺华人技术大咖。

而黄学东一直是这家老牌IT巨头的一线大咖中相当有个性的一位。作为微软公司语音识别领域的领军人物,加入微软25年的老将黄学东至今仍活跃在人工智能领域科学研究的前线。

“我负责的具体范围过几年就会有所变化,但是有一件事情没变,我是微软语音技术的创始人,微软的语音识别、语音合成技术都是我一手创建出来的。”对自己成绩足够自信的同时黄学东对于技术本身又表现得足够谦逊,真正的自然语言理解还需要更长的路要走,那才是人工智能真正的皇冠。

假装听懂人话

黄学东有一连串响当当的头衔。

他是国际电子电气工程师学会(IEEE)和美国计算机学会(ACM)的双科院士,也是微软认知工具包CNTK的缔造者之一。2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。

同时,黄学东还是微软全球技术院士,这代表着微软技术人员的最高荣誉,现在全球也仅有20多人获得这项殊荣,而黄学东是目前微软唯一的华人技术院士。

但这一切头衔面前,让黄学东目前最满意的成绩是今年3月份他带领的团队在机器翻译领域拿下一项里程碑式的成就:其研发的机器翻译系统在通用新闻报道的newstest2017中译英测试集上,达到了人工翻译水平。

“微软机器翻译第一次达到了媲美人的水平,这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西,而现在计算机第一次在翻译质量上超过专业人士的水平,这对人类文明的进展来说是很震撼的。”黄学东这样解释道。

上述成就对于黄学东所在的团队而言,其实是不断挑战的结果。

2016年,微软率先实现语音识别系统5.9%的低错误率,在Switchboard对话语音识别任务中已经达到人类对等的水平。

2017年8月,黄学东所在的团队奖又将上述对话语音识别词错率降低至5.1%,创造了当时该领域内错误率最低纪录,首次达成与专业速记员持平而优于绝大多数人的表现。

这意味着,如果让一个人来翻译,或者把错误率整出来,那绝对达不到5.1%,这是一群人联合攻关才能做到的水平。

黄学东的观点是,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。

黄学东深信“对话即平台”,“语音交互的发展是一个自然的过程,这是因为语音交互是一个无需触碰设备即可完成的体验,它可以让人摆脱设备的枷锁。”

目前,微软已经将机器翻译技术落地。

但高计算量、噪音问题、理解力这三个问题,目前还是限制了语音交互在实际应用场景中的效果。

“虽然如此,但是语音交互毕竟已经可以落地并产生了商业化应用,‘机器听懂人话’这个目标已经基本实现。”但黄学东认为机器翻译是位于感知到认知之间的一个过程,因为它可以“假装”听懂,翻译出来的效果还不错,但实际上它并没有听懂。

语音交互的难题

2018微软人工智能大会(Microsoft AI Innovate)上,黄学东还展示了微软全球首创的AI会议系统。

这款令人惊奇的用于多人会议的设备,可以同时记录多人会议的语音和图像,对不同人的发言进行标记和语音转写,还分开归档提取会议重点议题或摘要。

要知道当前的AI巨头,包括Amazon,Google等推出的类似产品都是面向C端的消费者,而微软的产品一推出就是面向具有更高准入门槛的商用市场。

而这个被微软全球技术院士黄学东形容为“黑塔”的产品其实是由中国的AI公司ROOBO和微软合作开发的。

从技术上来讲,这款产品的应用解决了几个AI领域的关键性技术,比如多人对话场景下的噪音处理,多人对话场景下的说话人语音分离及语音技术与图像技术的同步应用。

黄学东在接受一财科技记者采访时表示,上述产品是微软的“全武功”黑科技,“这是人工智能用听觉和视觉对《封神演义》里‘耳听八方、眼观六路’完整的写照。”

作为技术提供方之一,ROOBOCTO雷宇表示,这款产品是由微软和ROOBO合作,由深度挖掘DDK开发板的技术潜力而来。

“其中,ROOBO完成MSDDK在音频,声学及硬件的设计与实现,并且由ROOBO直接向开发者提供硬件,而微软提供Speech Service开发平台。配合Azure提供的认知服务,提供多种语言和知识技能,可以广泛应用于智慧家电,机器人,智能音响,机顶盒等多种场景。”雷宇解释道。

而ROOBO还在5月初的微软Build 2018大会上,与小米、华为、大疆一起,作为中国企业代表出现在微软CEO纳德拉的演讲环节。

事实上,ROOBO此前更为外人说熟知是因为“前腾讯CTO”熊明华。

2013年年末,熊明华从腾讯离职,并于2014年在硅谷创办七海资本;2017年9月,七海资本先后投资两家带有物联网基因的公司,他们分别是ROOBO和威马汽车,熊明华亲自挂帅,担任前者董事长和后者副董事长。

熊明华此前接受一财科技记者采访时透露,他自己在ROOBO中扮演的角色更像是执行董事长,目前将近一半的时间参与到了ROOBO公司的日常管理和运营中去。

可以肯定的是,机器翻译上从达到人类水平到超越人类水平,这在业界一度被解读为人工智能在研究领域的突破性进展。

但是现有大多数硬件与智能服务的交互体验仍有很大缺陷。黄学东认为这应该归于在“语义识别”方面大家还在止步不前。“我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。”

黄学东认为在没有突发事件的情况下,现在的机器翻译可以做到基本可信、基本可达、基本还算比较雅。但是如果出现突发事件,机器翻译出错误会出得比人类更离谱。而最好的方法是在机器转录翻译的时候,有人在旁边看着,有错误就给纠正一下。

在黄学东看来,语义理解是语音交互中最难攻克的问题之一。他指出,这是因为语音理解方面的标记非常少,而且也没有公认的标准,所以要通过非监督式学习来攻克这个困难,但是,非监督式学习目前还在探索阶段,亟待突破。

“我们现在还没有达到,什么时候达到也不知道。”黄学东可以肯定的是,强人工智能一定是由自然语言理解、感知驱动的,让计算机能达到人的知识获取能力,可以通过阅读自动获取知识。

[免责声明]

资讯标题: 微软语音识别领军人物黄学东: 机器翻译离举一反三还很远

资讯来源: 36氪官网

36氪企服点评

图像影音设计相关的软件

行业专家共同推荐的软件

限时免费的图像影音设计软件

新锐产品推荐

消息通知
咨询入驻
商务合作