云从科技研发语音识别技术 97.03%一举打破世界纪录

转载时间：2021.08.27（原文发布时间：2018.10.29）

165

转载作者：36氪企服点评小编

阅读次数：165次

在语音识别领域，全球科技企业的目标很一致，那就是想“超过人类”。之前科研界设定人类错词率为5.9%的这个界线，受过严格训练的专业速记员错词率在3%左右，错词率（Worderrorrate，WER）是衡量语音识别技术水平的核心指标。

人类的界线已在2017年被微软超过，而受过严格训练的专业速记员则一直坚守着自己的底线。

然而这个纪录也在这个10月被打破，2018年10月 29日，中国人工智能“国家队”云从科技在语音识别技术上取得重大突破，他们融合图像识别与语音识别的优势，推出全新Pyramidal-FSMN语音识别模型。

在技术研究的「最后一公里」，每 0.1 个百分点的进步都异常艰难。全新Pyramidal-FSMN语音识别模型在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录，准确率提升到97.03%，将Librispeech的错词率（Worderrorrate，WER）降低至2.97%，超过阿里、百度、约翰霍普金斯大学等企业及高校，大幅刷新原先记录。

云从科技研发语音识别技术 97.03%一举打破世界纪录

DS2：百度，ESPnet：约翰霍普金斯大学，DFSMN-CE：阿里

云从科技并没有把人脸识别作为唯一的“宝”来押注，这家孵化自中国科学院的企业，并不是第一次取得这样的技术突破。

2018年2月，云从科技正式在国内首发“3D结构光人脸识别技术”。2018年4月，云从科技“跨镜追踪技术”（ReID）技术在Market-1501，DukeMTMC-reID，CUHK03三个数据集刷新了世界纪录，其中最高在Market-1501上的首位命中率（Rank-1 Accuracy）达到96.6%，让跨镜追踪技术（ReID）技术在准确率上首次达到商用水平，人工智能从「刷脸」跨到「识人」的新纪元。

云从科技研发语音识别技术 97.03%一举打破世界纪录

语音识别技术同样是智能感知中一个重要的部分，通过语音识别，机器就可以像人类一样听懂说话，进而能够理解、思考与反馈。近年来，在深度学习技术的帮助下，语音识别取得了极大的进展，从实验室开始走向市场，走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。

云从科技研发语音识别技术 97.03%一举打破世界纪录

智能感知+大数据，是云从科技打造核心技术闭环，领跑人工智能行业的利器。

据悉，此次技术突破是云从科技打造核心技术闭环路径中的关键一步。此前，云从科技在10月12日发布了国家发改委“人工智能基础资源公共服务平台”项目，该平台可以基于行业数据为各行各业提供人工智能智能感知及大数据服务，中国人民银行、中国联通、中国邮政、民航局、金山云等企业与机构与云从首批签约。这个搭载人脸、人体、手势、红外、语音、车辆、风控、文字、大数据分析等多种方式为一体的人工智能平台，云从倾注了大量的技术力量。

云从科技研发语音识别技术 97.03%一举打破世界纪录在平台发布会上，云从科技创始人周曦提出了人工智能发展的五个阶段，核心技术闭环是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录，并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”，广泛强化合作伙伴范围，稳步推进从核心技术到智能生态的五步走战略。