微软机器学习项目Project Oxford推出说话人与视频识别API预览版

转载时间：2021.06.30（原文发布时间：2015.12.16）

291

转载作者：36氪企服点评小编

阅读次数：291次

Image title

据微软技术博客消息，继开放图像、人脸、语音、文字识别API预览版之后，微软研究院的机器学习项目Project Oxford刚刚又开放了说话人、表情与视频识别API。

机器学习是巨头近年来的竞争热点。这种竞争体现在了开源上面，今年以来Facebook、Google、微软、IBM等均先后开源了自己的机器学习系统。开源当然可以造福开发者，但是这背后也有巨头想打造自身生态体系和吸引人才的动机。

不过，这种开源吸引的是专业开发者，为了壮大生态体系，技术公司还需要靠易用的API和有趣的应用吸引应用开发者和用户。比方说今年风靡全球的How-Old.net传图猜年龄的应用就很有趣，吸引了许多媒体关注和用户参与。微软今年在Build 2015大会发布的Project Oxford就是一个面向应用开发者的机器学习开源项目，它提供了一系列的文字、图像、语音、视频识别的API与SDK，里面使用的模型都是通过微软现有其它产品中使用的深度学习和机器学习技术训练得到的，开发者可以很方便地将功能植入到自己的应用里面。

Project Oxford开放的API包括三大类：视觉、语音与语言。其中视觉方面之前开放预览的API包括计算机图像识别、人脸识别，此番新增了表情识别与视频识别。表情识别可通过分析人脸分辨其情绪是快乐、惊喜还是悲伤等；视频识别则可以进行动作识别与视频静态化处理。语音识别在原有的语音识别基础上增加了说话人识别，即不仅可以知道说的是什么，还能知道说话者是谁；以及自定义智能识别服务（CRIS），可针对不同的语言和声音进行定制识别。语言方面包括了拼写检查和语言理解智能服务（LUIS），后者可为应用提供自然语言命令识别服务。

此次新增的两项API还是有不少可挖掘的应用场景的。比方说，说话人识别API可帮助通过语音识别用户或客户，这可以用来辅助进行用户鉴权的工作，提高系统的安全性。或者也可以应用到客服方面，通过来话识别客户，增强客服效率和客户体验。而视频识别API显然有助于进行视频分析与自动化编辑，比方说检测视频中的人脸和动作然后进行相应处理等。

感兴趣的可到Project Oxford网站试试。

本文由「 boxi 」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道。

[免责声明]

资讯标题：微软机器学习项目Project Oxford推出说话人与视频识别API预览版

资讯来源： 36氪官网