国网公司对人工智能方向的研发一直是重点投入,设备运营管理是人工智能的核心应用领域之一,涉及到图像识别、视频分析、声纹识别、知识图谱、数据智能等多个领域。声音识别技术能解决这些问题吗?对变电设备异常工况的诊断与识别,如:变压器、电抗器、断路器、隔离开关等主要设备内部不可见缺陷的准确诊断与识别,以及绕组变形、偏磁异常、内部放电等的诊断与识别,正在进行探索与研究。声纹识别技术究竟是怎么一回事?接下来小编就给大家解答一下人工智能黑科技——声纹识别是什么,一起来看看吧。
人工智能黑科技——声纹识别
声音纹理(Voiceprint)是一种带有言语信息的声波频谱,它是一种生物特征,它由一百多个维度组成,包括波长、频率和强度,它具有稳定性、可测量性和唯一性。
人的语言生成是人类语言中心和发音器官之间一个复杂的生理物理过程,舌、牙、喉、肺、鼻等发声器官在大小和形状上各不相同,因此对任何两个人来说,声纹图谱都是不同的。
个体的语音声学特征具有相对的稳定性和可变性,且并非一成不变。这些变化可能来自生理、病理、心理、模拟、伪装等,也可能与环境干扰有关。
然而,由于每个人的发音器官都不一样,所以在一般情况下,人们仍然可以区分不同的人的声音,或者判断是否是同一个人发出的声音。
每个人说话时所用的发声器官在大小和形状上都有很大的不同,因此任何两个人的声纹图都有不同,主要体现在以下几个方面:
共振模式特点:咽腔共振,鼻腔共振,口腔共振。
声音纯度特征:不同人的声音,纯度一般都不相同,大致可以分为高纯度(明亮)、低纯度(沙哑)和中纯度三个等级。
均音高特点:均音高的高低即一般所说的嗓音是高还是低。
音高的高低是指人们通常所说的音色是否饱满或干瘪。
语谱图中不同人声的谐振峰分布情况不同,而声纹识别则是通过比较两段语音说话人的发音,判断其是否属于同一人声,实现“闻声识人”的功能。
在算法层面上,声纹识别可以通过以下基本技术指标来判断其性能,除此之外,还有其他一些指标,如:信道的鲁棒性、时变的鲁棒性、假冒攻击的鲁棒性、群体的普适性等,这部分后面将详细展开。
FalseRejectionRate,FRR):在分类问题中,如果两个样本是相同的(相同的人),但被系统误认为是不同的(不同的人),那么就是错误的拒绝案例。误报率是指所有同类匹配案例中误报率的百分比。
误报率(FAR):在分类问题中,如果两个样本是异类(非同一人),但被系统误认为是同类(同一人),那么就是错误接受情况。误报率是指所有异类匹配病例中错误接受病例的比例。
等错率:调整阈值,使误拒绝率(FalseRejectionRate,FRR)等于误接受率(FalseAcceptanceRate,FAR),此时FAR和FRR的值称为等错率。
精确度(Accuracy,ACC):调整阈值,使FAR+FRR最少,将其减至1,即ACC=1-min(FAR+FRR)
速率:(提取速度:提取声纹速度与音频时长相关,验证比对速度):实时RealTimeFactor比(衡量提取时间与音频时长的关系,例如:1秒可以处理80s的音频,然后实时比是1:80)。校验比值对速度是指平均每秒可以进行的声纹比对次数。
ROC曲线:描述FAR和FRR之间变化关系的曲线,FAR为X轴,FRR为Y轴。在阈值增长的过程中,从左到右,每个时刻都有FAR和FRR两个值,将这些值在图上描点连接成曲线,即ROC曲线。
门限:在接受/拒绝二元分类系统中,通常设置一个门限,当分数超过这个值时,才会作出接受的决定。根据业务需求调整阈值可以平衡FAR和FRR。在设置高阈值时,系统对接受决策的评分要求更严格,FAR降低,FRR提高;在设置低阈值时,系统对接受决策的评分要求更宽松,FAR提高,FRR降低。对于不同应用场景,调节不同阈值,则可在安全性和便利性之间实现均衡。
声源采样率
人类语音的频段集中于50Hz ~ 8KHz之间,尤其在4KHz以下频段
离散信号覆盖频段为信号采样率的一半(奈奎斯特采样定理)
采样率越高,信息量越大
常用采样率:8KHz (即0 ~ 4KHz频段),16KHz(即0 ~ 8KHz频段)
信噪比(SNR)
信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度
15dB以上(基本干净),6dB(嘈杂),0dB(非常吵)
信道
不同的采集设备,以及通信过程会引入不同的失真
声纹识别算法与模型需要覆盖尽可能多的信道
手机麦克风、桌面麦克风、固话、移动通信(CDMA, TD-LTE等)、微信……
语音时长(包括注册语音条数)会影响声纹识别的精度
有效语音时长越长,算法得到的数据越多,精度也会越高
短语音(1~3s)
长语音(20s+)
文本内容
通俗地说,声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人
固定文本:注册与验证内容相同
半固定文本:内容一样但顺序不同;文本属于固定集合
自由文本
作为生物识别技术的一种,声纹识别的应用场景很多,根据声音的特性,以下从公共安全、金融、社会保障、智能硬件四个方面介绍了声纹识别的应用。
1、安全保障。
作为一种生物特征,声纹最早被成功地应用于刑侦、鉴定领域。近几年来,由于因特网的发展,语音案件也呈现井喷式增长的趋势,声纹识别已成为唯一一种有效的技术侦查手段,通过声纹识别和声纹大数据技术,对重点人员进行监控,打击电信诈骗、反恐、刑事案件侦破、身份查询及验证等,为公安工作提供有力的技术支撑,有效遏制和打击犯罪,营造和强化安全的社会公共环境。
2、财务。
以银行、互联网金融等各类金融服务机构为对象,利用声纹识别技术,提供用户注册、远程验证、金融生物识别等解决方案,大大提高了金融机构风险防范系统的安全性,增强了风控能力,增强了用户的安全性,防止了身份欺诈。
此外,在电话客服系统中,通过语音识别技术可以实时地识别用户的身份,从而为用户提供个性化的客服服务。
3、社会保障
对退休人员,我国每年至少要进行一次生存状况核实,并以此为基础发放养老金,目前可到指定的社保大厅或自助终端进行生存核实,对于一些行动不便的老人来说,这种方式也很不方便。语音识别技术在远程认证方面有其天然优势,只要有一部电话(手机或固定电话都可以),就能完成生存认证,为参保人员提供方便,同时也为国家节省了大量费用,避免养老金流失。
4、智能硬件。
声纹识别解决了目前智能产品只能识别用户说话内容而不能区分说话人身份的问题,使智能产品能够区分不同角色,实现“听、说、读”。
使系统针对每一个人提供不同的内容和服务,使人机交互更加简单,让用户享受到更加轻松、个性化、安全的产品体验。
作为生物识别技术的最前沿,声纹识别技术随着技术的成熟将在越来越多的应用场景中落地,相信在不远的将来,第三代身份证上的声纹将成为继指纹、人像之后又一项新的公民身份标 识。在我们未来的科技生活中,声音将扮演越来越重要的角色。以上就是小编为大家介绍的人工智能黑科技——声纹识别是什么,希望对您有帮助。
[免责声明]
文章标题: 人工智能黑科技——声纹识别
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。