一个人开发的语音识别，正在被一亿人使用

转载时间：2021.07.07（原文发布时间：2015.06.11）

349

转载作者：36氪企服点评小编

阅读次数：349次

上瘾的游戏化学习体验、全球用户超过1个亿、刚刚宣布获Google Capital 领投的C轮4500万美元融资......Duolingo（多邻国）无疑是语言学习领域最明星的产品之一。此次，36氪独家专访了它背后的一名“造星人”—— Duolingo 的工程师秦龙博士——让他为我们讲讲多邻国幕后那些事儿。

秦龙在Duolingo 主要负责多语种的语音识别技术，用人话说，就是他的工作保证了 Duolingo 能够辨识你用各种语言对它说的话。下面，秦龙博士会和我们分享语音识别背后的开发细节、怎么利用这种技术学口语、智能化英语学习的下一步是什么。

秦龙在卡内基梅隆大学获得博士学位，他于2014年秋加入 Duolingo并负责平台上的多语种语音识别技术，是 Duolingo 第一位中国工程师。

36氪：语音识别技术针对的是用户的口语学习。和与真人对话相比，语言学习者在用电子设备学习口语时优势和劣势主要是什么呢？

秦龙：可能出现的障碍是，机器判断学习者读音错误时，用户会有挫折感，这种黑白分明的正误反馈一般是不会出现在人与人的对话之中的；再加上机器识别不能保证100%准确，有的学习者会发向我们抱怨：为什么我明明读对了，但还是被识别为错误？

除此之外，目前语音识别技术在语言学习软件中的应用，还普遍停留在帮助用户改善发音的层面上，并不能被自由创建场景进行人机对话，而后者对语言学习其实是至关重要的。

优势的话，一是学习者心理压力小。可能很多人小时候都经历过，在街上碰到一个老外，爸爸妈妈就在一旁戳你：“快去和老外对个话”。其实对很多人来说，开口说外语的门心理障碍其实是很大的，而通过机器学口语就完全没有这种压力。其次是可以利用碎片化时间，学习更高效，而和真人对话的时间成本和门槛都比较高。

36氪：具体来说，目前的语音识别技术可以怎样帮助学习者提高口语呢？

秦龙：主要是两种方式，第一种的目的是帮助用户改善发音：软件给出一个句子，用户读句子，机器会通过语音识别技术来判断你发音对不对，给出一个评分。

第二种方式，目前的语言学习软件，包括 Duolingo 在内，做得都还不够好：理想状况下，在创建的场景下，学习者和电子设备应该可以实现自由对话，语音识别技术不但能够识别发音是否标准，还能进行语义理解，判断学习者的词汇句法是否正确，这和Siri的技术有些相似，但具体如何在 Duolingo 中实现，我们还在研究中。

目前 Duolingo 网页端已经可以做到的是：在创建的场景中，引导用户先用文字翻译句子，再把翻译后的外语读出来，机器会分别就文字翻译和口语发音两方面的水准进行打分。

36氪：Duolingo 目前提供超过40种语言课程，甚至包括克林贡语。语音识别技术支持其中多少种？

秦龙：目前已支持的语言有10种（英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、丹麦语、瑞典语、土耳其语），已在开发中即将上线的还有乌克兰语和挪威语。Duolingo 在英语语音识别中投入最多，它的识别结果和打分也最准确，因为英语是目前 Duolingo 上学习人数最多的语言，占到全部流量的30-40%。

36氪：团队目前有多少人？每种语言的语音识别需不需要开发者本身懂这种语言？

秦龙：Duolingo 语音识别团队目前由我一个人负责。我本人只会中文和英文，所以刚开始接触的时候也有些忐忑。最后衡量语音识别效果的是客观评测，所以开发者其实并不必须掌握语言本身，但对每种语言的是深入理解对开发是有很大帮助的，在细节的处理上会更准确一些。

36氪：能不能给非技术背景的读者解释一下，多语种语音识别的难度究竟在哪里？Duolingo 每开发一种新语言的成本如何？

秦龙：难度主要来自三方面。一是数据非常庞杂：来自网页端、平板、手机端的语音质量都不相同；男女老少，甚至不同文化程度的人有不同的语言习惯；朗读和自然对话的语音数据不同；室内录音和室外录音也数据也不同......要将这些情况全部考虑进去，做出准确的识别结果，需要相当大的开发量。

二是不同语言有不同元素，比如中文的特点是有平仄声调，德语的特点是可以把不同词汇组在一起生成一个新词，因此词汇量异常的大，开发时需要根据每种语言的特点做相应调整。

三是多语种数据库本身有很大的维护成本。

就 Duolingo 来说，开发英语识别这部分用了2-3个月，其他一些小语种（西、德、法、意）在数据到位的情况下，用2-3个星期就完成了。

36氪：Duolingo 作为一家创业型公司，整个公司负责语音识别技术的也只有你一个人，没有科技巨头们那么多的资源，又要开发多种语言，怎么应对这种压力呢？

秦龙：我们的诀窍主要是：利用一切可以利用的免费资源。比如，我们会利用公开的Google API 在Chrome 版本的 Duolingo 中使用，省去一部分开发资源；我们还会利用 Google Voice Search 的语音识别，不过因为我们识别需要服务于语言学习的目的，而不是搜索目的，所以使用时会在后端做一些调整；另外，我们还会抓取一些开源词典的发音，并根据 Duolingo 的需求做一些剪裁和修改。

注：原文是对话大意，为便于阅读，语句经过修改和整理

原创文章，作者：小天。转载或内容合作请点击转载说明，违规转载法律必究。

寻求报道，请点击这里。

[免责声明]

资讯标题：一个人开发的语音识别，正在被一亿人使用

资讯来源： 36氪官网