首页 >热门资讯> 在线作图 > 世界是平的:视频自动生成字幕、ASR技术与在线教育#投稿# >

世界是平的:视频自动生成字幕、ASR技术与在线教育#投稿#

转载时间:2022.04.16(原文发布时间:2013.05.10)
142
转载作者:36氪企服点评小编
阅读次数:142次

编者按,本文作者为和誉资本合伙人吴湘(微博ID@吴湘-和誉资本),讨论的是视频自动生成字幕、ASR技术如何可以服务于在线教育。

世界是平的:视频自动生成字幕、ASR技术与在线教育#投稿#

2009年11月Google宣布自家的语音识别技术为Youtube提供支持,使得英文的Youtube视频可以在上传时直接将其中的语音转化为字幕,2012年Google宣布支持共10种语言的识别。同时可以支持超过50种语言的自动翻译。

而之后,IT领域更多将焦点对准ASR(Automatic Speech Recognition)自动语音识别技术本身。2011年苹果Siri横空出世,且不论其是否真的是个超级智能语音助手,但那个时候国内几乎所有的苹果论坛都充斥着大量山寨的“中文版Sir”软件,影响力不可不大;Google在语音识别技术上亦是过硬的,因而在此后将大量精力集中于此,现在Android上的语音识别也较为成熟。

那为什么要在这个时点来讲视频自动生成字幕及翻译这个几年前Youtube就能做到的事情呢?一切源于时下最火的在线教育。

一讲到在线教育,现在无论是在知乎等问答网站还是36氪这种科技新媒体,一概在说如何“微创新”,如何颠覆线下教育。而我想在这里说的,只是很传统,很没创新性的东西:以现有技术,可以快速将国外优秀的教育网站视频课程翻译成中文。但是就仅这一条,便可以使中国用户直接用上目前最好的东西。

举个例子,目前Udemy上已经有超过5000门的课程,其中3000多门是免费的,质量可以说非常好(比例一些教乐器的,实在是精良)。然而,中国的“哑听英语”过于严重,如果有一款应用或插件,可以将这些课程利用现有技术“直接汉化”,那么免费的课程可以直接给中国用户使用,即使是付费课程,如果没有语言的障碍,也应该会有用户使用。

根据上面这种需求,目前已经有两种解决方式:

1、网易公开课式的翻译

优点是准确,但及时性很差,而且耗费的人力物力超大。另外一个就是版权问题,网易也是加入OCWC国际开放课件联盟之后才没有版权问题的(其实很多网站上免费的视频都是没取得版权就以免费之名义传播,涉嫌侵权)。

但对其他网站来说,假如原网站不授权,这种方式很难正规发展。而上面提到的这些在线教育网站通常是商业机构,很难谈合作,原网站想做自己直接开中文版就是了。

因此,该方式并不可取。

2、ASR软件

即利用语音识别技术做成桌面软件,通过Google提供的API,或者是科大讯飞的API,可以对已经下载下来的视频进行识别并自动对轴字幕并翻译成中文。事实上,已经有一些这样的软件,比如博客园的一位博友的软件作品Autosub,但基本上是个人爱好,利用一些开源的程序编写,功能较为单一和粗糙,如一旦有背景乐干扰,其识别率就大为下降、速度慢。

拿Autosub来说,就是一个学生的习作。该软件的主要功能是:打开已经下载的视频,利用Google的API实现自动呈现字幕,利用Bing的API实现自动翻译。

拿Techcrunch上的一个关于Linkedin的视频为例,一个英文不通的用户运用Autosub的典型场景如下:

(1)通过嗅探软件下载该视频,文件为linkedin.mp4
(2)导入视频到软件,识别并翻译(视频中的walking back就是识别出来并自动加载的)

世界是平的:视频自动生成字幕、ASR技术与在线教育#投稿#

通过这一系列动作,的确用户“听懂”或“看懂”了这个视频的内容,但是嗅探、下载等反人类的操作体验是极为糟糕的,而且也不是一般用户可以顺利操作的。

最好的体验应该是怎样的?

上面提到现在的两种常用方式来翻译或自动翻译国外网站视频内容,因为上述的种种缘由极难接受。而在我看来,好的体验场景应该如下:

1、用户打开在线教育网站(免费查看或付费后查看),出现视频页面
2、点击漂浮在视频上面的加载字幕按钮
3、浏览器插件自动嗅探、自动抽取音频、自动加载字幕和翻译。

可惜,目前我还没有发现有这种插件。那么,如何做到?技术点有几个:

1、嗅探功能:如迅雷的嗅探功能已经能够做到这一点
2、抽取音频:抽取该视频的音频并交由API去处理
3、加载功能:使处理完毕的字幕加载到页面当中

在手机上的类似体验,原理其实都差不了太多。

现有技术水平的障碍

当然,上面提及的技术还有以下几点问题:

1.翻译技术目前并不过关。虽然英文识别水平已经能达到95%的准确率,但是翻译成中文的质量不敢恭维。不过好在大部分中国用户只要有英文字幕就能解决大部分问题了,毕竟只是听不懂,只要有英文字幕,勤奋的中国人还是可以通过查字典、慢慢磨的方式弄懂的。

2.Google API在国内使用不畅,比较前面提到的Autosub,其经常会出现断网的情况,这个实在是糟糕,只能寄望于讯飞等公司了。

3.有些在些教育网站在国内速度的确是不大好,而且部分国外视频存在无法打开的现象,这个,有点无解。

不过,总的来说,除第一点,这些问题目前都是可能部分程度的解决。

总结

其实,本文通篇没有在讲教育,也没有讲颠覆,而只是讲一种可能性,希望能实实在在的给我们中国的普通用户用上一些美国的现成的而又对中国人也是有用的教育产品。

我们相信群体的智慧,欢迎就在线教育给我们投稿:tips#36kr.com,请移步这里查看详细投稿要求。

[免责声明]

资讯标题: 世界是平的:视频自动生成字幕、ASR技术与在线教育#投稿#

资讯来源: 36氪官网

36氪企服点评

在线作图相关的软件

查看更多软件

行业专家共同推荐的软件

限时免费的在线作图软件

新锐产品推荐

消息通知
咨询入驻
商务合作