热门文章> 语音识别技术的发展历程 >

语音识别技术的发展历程

36氪企服点评小编
2021-05-06 11:57
1587次阅读

   你知道语音识别技术的发展历程吗?在人工智能皇冠上,语言是一颗明珠,代表着人工智能的最高水平。假如机器能与人交谈,这台机器就一定有强大的人工智能。现在,智能语音对话已成为人工智能最有发展前景的技术领域之一。举例来说,在清晨起床时,我们向智能音箱发出语音指令以实现对它的操作。告诉它新闻播报的时候,可以实时收听,告诉它播放音乐,立刻就可以实现。总之,所有这些看起来科幻的智能场景,实际上都是未来智能生活的一个标志。而语音识别则从智能单品走向智能场景,扮演着重要角色。接下来小编就给大家介绍一下语音识别技术的发展历程,一起来看看吧。

语音识别技术的发展历程语音识别技术的发展历程

   语音识别演示系统显示了计算机自动将人类声音内容转换成相应文字的能力。声音信号的预处理和特征提取,声音模型和模式的匹配,语言模型和语言处理是语音识别的基本过程。

   语音识别技术的原则如下:

   对语音特征参数进行预分析,制作语音模型,并储存在语音参数库中。识别:对待识语音进行同样的分析,得到语音参数,与库中的参考模板进行比较,用判别法找到与语音特征最接近的模板,从而得到识别结果。辨识方法主要有:基于模式匹配的动态时间规整方法,基于统计模型的隐马尔柯夫模型方法,基于统计模型的深度神经网络方法。

语音识别技术的发展历程

早在1952年,戴维斯等人就开发出了世界上第一套能够识别10个英文数字发音的实验系统,并正式开启了语音识别的进程。声音识别的发展至今已有70多年的历史,但从技术方向上大致可分为三个阶段。

从1993年至2009年,语音识别一直处于GMM-HMM时代,语音识别率的提高十分缓慢,尤其是在2000年至2009年,语音识别率的提高非常缓慢;2009年,深度学习技术,特别是DNN的兴起,语音识别框架变成了DNN,语音识别进入了DNN时代,语音识别的精确度大大提高;2015年后,由于“端到端”技术的出现,语音识别进入了一个百花齐放的时代,语音界正在进行深度和复杂的网络培训,而端到端技术的应用,进一步大大提高了语音识别的性能,直到2017年微软公司在Swichboard上达到了5.1%的准确率,从而使语音识别的准确率第一次超过了人类,当然,这是在某种限定条件下的一种实验结果,还不具有普遍性。

在70年代,语音识别主要是针对小词汇量、孤立词的识别,采用的方法也主要是简单的模板匹配法,即先提取语音信号的特征构造参数模板,然后将测试语音与参考模板参数一一比较匹配,并将与最接近样本对应的词标注为该语音信号的发音。这种方法可以有效地解决孤立词识别问题,但不能有效地解决词汇量大、个体差异大的连续语音识别问题。进入80年代以后,研究思路发生了很大变化,开始由传统的基于模板匹配的技术思路转变为基于统计模型的技术思路。

早在1970年左右,HMM的理论基础就由Baum等人建立起来,后来被CMU的Baker和IBM的Jelinek等人应用于语音识别。该模型假设一个音素包含3-5种状态,同一状态下的发音相对稳定,不同状态下的跳跃有一定概率;某一状态下的特征分布可用概率模型描述,GMM是该模型中使用最广泛的模型。所以GMM-HMM框架中,HMM描述了语音的短时、平稳动态,GMM用于描述HMM每个状态内的语音特征。

在GMM-HMM框架的基础上,研究人员提出了多种改进方法,如结合上下文信息的动态贝叶斯方法、区域训练方法、自适应训练方法和HMM/NN混合模型方法等。这一切都给语音识别研究带来了深远的影响,为下一代语音识别技术的发展奠定了基础。90年代以来,随着语音识别声学模型的区分性训练准则和模型自适应方法的提出,语音识别在很长一段时间里发展缓慢,语音识别中的误识率那条线一直没有明显下降。

Hinton在2006年提出深度置信网络(DBN),推动了深度神经网络(DNN)研究的复苏。Hinton在2009年利用DNN对语音进行声学建模,在当时的TIMIT中取得了最佳效果。微软研究院的俞栋、邓力在2011年底又将DNN技术应用到大规模连续语音识别任务中,极大地降低了语音识别的错误率。从此以后,语音识别进入了DNN-HMM时代。

HMM主要用DNN模型来代替原始GMM模型来对每个状态进行建模,DNN的优点是使人们不再需要假设语音数据的分布,它将连续的语音帧拼接在一起,包含了语音的序列结构信息,对于状态的分类概率有了明显的提高,同时DNN还具有强大的环境学习能力,可以提高对噪声和重音的鲁棒性。

简而言之,DNN就是给出一系列特征输入所对应的状态概率。因为语音信号是连续的,不仅各音素、音节和词之间没有明显的界限,而且各发音单位也会受到语境的影响。尽管拼框能增加上下文信息,但对语音来说还不够。而且,递归神经网络的出现能够记忆更多的历史信息,更有利于建立语音信号的上下文信息模型。

因为简单RNN存在梯度爆炸和梯度消散问题,难以训练,不能直接用于语音信号建模,所以学者们进一步探索,开发出许多适合语音建模的RNN结构,其中最著名的就是LSTM。通过输入法、输出法和遗忘法门,LSTM能更好地控制信息的流动和传递,具有较长的短时记忆能力。尽管LSTM的计算复杂度较DNN有所提高,但总体性能仍能稳定提高约20%。

由于BLSTM在LSTM的基础上作了进一步的改进,不仅考虑了语音信号的历史信息对当前帧的影响,而且还考虑了未来信息对当前帧的影响,使得它的网络中有一个沿时间轴的正、反两个信息传递过程,从而使模型能够更加充分地考虑背景对当前帧的影响,从而大大提高了语音状态分类的准确性。考虑到未来信息的代价,BLSTM模型需要进行句子级更新,模型训练的收敛速度较慢,同时还会带来解码的延迟,针对这些问题,业届都做了工程上的优化和改进,至今仍有许多大公司采用这种模型结构。

CNN是图像识别的主流模型,而语音信号的时间频率图也可视为图像,因此CNN也被引入到语音识别中。为了提高语音识别率,需要克服语音信号所面对的多样性,包括说话者本身、说话者所在的环境、采集设备等,这些多样性可以等价于各种滤波器和语音信号的卷积。与CNN等效,CNN设计了一系列具有局部聚焦特性的滤波器,通过训练学习获得滤波器的参数,从而从多种多样的语音信号中提取不变的部分,CNN本质上也是一个不断地从语音信号中提取特征的过程。与传统的DNN模型相比,CNN模型在同样的性能条件下,具有较少的参数。

从建模能力上看,DNN适合于将特征映射到独立空间,而LSTM适合于长短记忆,CNN适合于减少语音信号的多样性,因此,一个好的语音识别系统就是这些网络的结合。

端到端的语音识别方法主要通过改变代价函数来实现,而神经网络的模型结构变化不大。总而言之,端到端技术解决了输入序列长度远远大于输出序列长度的问题。端对端技术主要分为两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。在传统语音识别DNN-HMM体系结构中,每个帧输入对应一个标签类别,标签需要反复迭代,以确保更精确地匹配。
以损失函数为CTC的声学模型序列,无需预对数据对齐,只需训练一个输入序列和一个输出序列。CTC关心的是预测输出的序列是否与实际输出的序列相似,而不关心每一个预测输出序列的结果是否与输入的序列在时间点上完全对齐。

调制模拟单元是音素或单词,所以它引入了Blank。对一个语音来说,CTC的最后输出是尖峰序列,尖峰的位置与建模单元的Label相对应,其他位置为Blank。

最初,Sequence-to-Sequence方法主要应用于机器翻译领域。Google在2017年将其应用到语音识别领域,取得了很好的效果,单词错误率降至5.6%。如下图所示,Google提出的新系统的框架由三个部分组成:Encoder编码器编码器组件,它类似于标准声学模型,输入语音信号的时间频率特征;经过一系列神经网络,将其映射为高级特征henc,然后传递到Attention组件,该组件利用henc特征来学习输入x和预测子单元之间的对齐方式,子单元可以是一个音素或一个字。最终,attention模块的输出被传递到Decoder,产生类似于传统语言模型的一系列假定单词的概率分布。

端对端技术的突破,不再需要用HMM来描述音位内部状态的变化,而是把语音识别的各个模块统一到神经网络模型中,使语音识别朝着更加简单、高效和精确的方向发展。
声音识别技术的现状。

当前,主流的语音识别框架仍然是由三部分组成:声音模型、语言模型和译码器,其中一部分还包括前处理和后处理。伴随着各种深度学习网络和端到端技术的兴起,声学模型成为近年来的研究热点,业界纷纷推出自己的新型声学模型结构,刷新了各数据库的识别记录。鉴于中文语音识别的复杂性,国内在声学模型方面的研究进展较快,目前主流方向是深度和复杂度更高的端到端融合神经网络技术。

2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN利用大量卷积直接对全句语音信号进行建模,主要借鉴了图像识别的网络结构,每个卷积层采用一个小的卷积核,在多个卷积层后加上一个池化层,通过累积非常多的卷积池化层对,可以看到更多的历史信息。

在2018年,阿里提出了LFR-DFSMN。在此模型中,采用了低帧率和DFSMN两种算法,使语音识别错误率降低了20%,解码速度提高了3倍。该网络通过在FNN的隐层中添加可学习记忆模块,有效地建立了语音的长时相关模型。并且DFSMN可以通过跳跃来训练更深层次的网络结构,避免深层网络梯度消失的问题。

在2019年,百度提出了流式多层次的截断注意力模型SMLTA,它是一种基于LSTM和CTC的注意力机制,用于获得更大范围和更多层次的上下文信息。其中,流式表示可以直接对语音中的一小段进行增量解码;多层次表示多层次注意模型的堆叠;截断表示利用CTC模型的尖峰信息,将语音切成一小段,注意模型和解码可在小段上展开。在在线语音识别率方面,该模型相对于百度上一代DeepPeak2模型提高了15%的识别率。

开放源码语音识别Kaldi是该行业的基础语音识别框架。DanielPovey,Kaldi的作者,一直推崇Chain模式。这种模式与CTC相似,其建模单位相对于传统的状态较粗,只有两个状态,一个状态为CDPhone,另一个为空白CDPhone,训练方法采用Lattice-FreeMMI训练。这种模型的结构能够在解码时采用较低的帧率,其解码帧率是传统神经网络声学模型的1/3,准确率比传统模型有很大的提高。

远场语音识别技术主要用于解决真实场景中舒适距离内的人机任务对话和服务,其发展始于2015年后。远场语音识别技术解决了复杂环境下的识别问题,使其广泛应用于智能家居、智能汽车、智能会议、智能安防等领域。当前,国内远场语音识别的技术框架主要是前端信号处理和后端语音识别,前端是利用麦克风阵列来进行信号处理,如去混响、波束形成等,以便使语音更加清晰,再送到后端语音识别引擎中。

另外两个技术方面的语音识别:语言模型和译码器,目前在技术上还没有太大的改变。目前,虽然神经网络在语言模型方面也有一定的研究,但是在实际应用中,纠错后处理方面的应用还比较多。译码器的核心指标是速度,行业内大多数译码器都是静态译码,即构造WFST网络,它包含了所有可能的路径,译码就是在这个空间中进行搜索的过程。因为这一理论比较成熟,更多的是工程优化问题,所以无论是学术界还是工业界目前都很少关注。

语音识别技术发展趋势

声音识别技术主要趋向于远场与融合,但是在远场可靠性方面仍有许多难点尚未突破,如多轮交互、多人噪杂等场景尚待突破,还有更迫切需要的人声分离等技术。这些问题应通过新技术彻底解决,使机器的听力远远超过人类的感知能力。不仅仅是算法上的进步,还需要整个产业链共同的技术升级,包括更先进的传感器和更强算力的芯片。

仅就远场语音识别技术而言,仍有许多难题,包括:消除回声技术。在传统的单靠信号处理方法难以消除非线性失真的情况下,对语音交互系统的发展起到了一定的阻碍作用,而深度学习方法在消除非线性失真时,往往不能充分考虑信号的相位信息,而只能直接寻求各频段上的增益,因此深度学习方法在拟合非线性失真时,与信号处理方法相结合可能是一个好的方向。二是在噪声条件下的语音识别有待突破。擅长信号处理线性化,深度问题。

   伴随着人工智能语音技术的成熟和发展,智能语音产品不断涌现,层出不穷。借着迅雷不及掩耳之势迅速占领了市场,各大巨头都看中了其中的商业价值空间,纷纷想要分一杯羹,一时间智能语音产业蓬勃发展。在这样的市场背景下,语音识别方案也开始出现新一轮的变革,一方面是语音识别方案的蓬勃发展,另一方面是局部离线语音技术的兴起。拿智能翻译机器来说。云翻译智能机,解决语言交流中的语言障碍,实现外语自然对话。智能化翻译设备的出现打破了语言的束缚,解决了出国语言交流的难题。以上就是小编为大家介绍的语音识别技术的发展历程,希望对您有帮助。

[免责声明]

文章标题: 语音识别技术的发展历程

文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。

消息通知
咨询入驻
商务合作