智能语音市场概括与技术分析-36氪企服点评

随着人工智能产业的飞速发展，中国在智能语音这一细分市场上的发展速度还将持续增长，但目前国内在智能语音市场，技术已相对成熟，头部企业在行业中的垄断地位较大。从上世纪50年代起，语音识别技术的研究就开始了，可追溯到1950年代。伴随着信息技术的发展，智能语音技术已成为人们获取和交流信息最为方便、有效的手段。下面就由小编为您介绍的智能语音市场概括与技术分析。

科大讯飞开放平台

0条点评

咨询产品

免费试用

解决用户选型困难的好软件，有各维度的信息

智能语音市场概括与技术分析

一、智能语音简介

智能语音是人工智能技术的重要组成部分，包括语音识别、语义理解、自然语言处理、语音交互等。

当前，人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域，主要解决的是感知智能的需求，就是使得人工智能能够感知周围的世界，能够“听见”或者“看到”。

自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域，解决“听懂”、“看懂”，并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。

在关键技术层中，语音识别、自然语义理解（Nature Language Process， NLP）、机器学习领域的关键技术在人工智能技术当中居于重要地位，是人机交互技术的基础。

二、智能语音市场概况

1. 中国人工智能市场规模持续增长，智能语音处于重要地位

通过上图我们不难发现，人工智能行业最近几年呈现出一个快速发展的态势，产业增长率平均在43%左右，属于一个快速发展的产业。2018年，人工智能市场规模达200亿元，如果按照之前的增速，预计到2019年年末，整个人工智能行业规模将达到近300亿元。

而在智能语言方面，当前人工智能产业中，智能语音是一个产业化程度相对成熟，产业规模较大的这么一个细分领域，从2011年整个市场规模只有6.3亿，到2017年整个智能语音市场规模已经超过百亿，整个行业正经历着高速的发展，预计未来几年，智能语音市场仍然会保持着较高速度快速发展。

2. 智能语音技术是人工智能产业链上的关键一环

从底层的基础设施到中间层的技术服务到最上面的行业应用，可以看到，智能语音技术在整个产业链当中，起到了一个承接的作用，将人工智能的技术底层产业化，并在智能家居、可穿戴设备、机器人等行业落地，是整个人工智能产业链中的关键一环。

3. 科技巨头纷纷从不同维度布局相关产业链

（1）国外科技巨头：通过并购等手段，夯实核心技术，开放应用平台，扩展以AI为核心的生态系统

谷歌：打造开发者生态链，推出Google Home，试图建立物联网时代安卓系统。

苹果：基于智能硬件定标准，做平台、获数据，重视物联网时代生态控制权。

（2）国内科技巨头：开放语音生态系统，以产业内合作的方式，将语音技术植入产品和或应用于相关业务场景，构建全产业生态链厂。

百度：瞄准人工智能战场，对外开放语音生态系统，对内在自身产品业务中实现AI First。

三、智能语音技术分析

1. 语音识别（ASR）
1）语音识别概述

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的高技术。

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

语音识别系统构建过程整体上包括两大部分：训练和识别。

训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；

而识别过程通常是在线完成的，对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块：

“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等;

“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

目前，各语音识别方案提供方，包括讯飞、百度、云知声、思必驰等，都在提供包括麦克风阵列等硬件在内的整体解决方案，以软硬件结合的方式提高语音识别的精准度的问题。

2）语音识别技术原理

声音实际上是一种波，在开始语音识别之前，首先，需要对声音进行静音切除处理，以降低对后续步骤造成的干扰。

其次，要对声音进行分帧，把声音切成一小段一小段，每一段就是一帧，分帧操作一般不是简单的切开，而是使用移动窗函数来实现，而帧与帧之间一般是有交叠的。

每帧的长度为25毫秒，每两帧之间有0.2S的交叠，我们一般称之为帧长2秒，帧移0.2秒。

分帧之后，语音变得很小。但是，波形在时域上几乎不具备任何描述能力，必须对其进行变换，常用的方法就是根据人耳生理特性提取MFCC特征，将每个帧波形转换为一个多维向量，它包含了这一帧语音的内容信息，我们将这个过程称为声学特征提取。这时，声音变成了12行(假设声学特征是12维),N列的矩阵，称为观测序列，在这里N表示帧数。以上就是小编为您介绍的智能语音市场概括与技术分析。

智能语音市场概括与技术分析

一、智能语音简介

二、智能语音市场概况

三、智能语音技术分析

项目管理SaaS为什么很难一家独大？答案藏在中小企业的痛点里

2021年玩私域：不懂这些你就OUT了！

企业为什么要买SaaS？| 专家视角

SCRM如何帮助李佳琦们布局私域流量？

“救命文档”打破信息孤岛，让受灾群众不再成为“孤岛”