北京爱数智慧新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

转载时间：2022.01.14（原文发布时间：2021.08.16）

148

转载作者：36氪企服点评小编

阅读次数：148次

图片来源：摄图网

随着人工智能技术的发展，人工智能市场不断扩大，很多AI企业拓展海外市场。AI产品首先要克服语言方面的障碍，比如AI产品能够识别和听懂某一地域的语言，并对说话人做出对方能听得懂的回应。

近期，北京爱数智慧针对AI产品出海企业推出一系列外语数据集，分别是乌尔都语、德语、俄语、巴基斯坦英语、埃及阿拉伯语五个语种数据集，涵盖对话和朗读两个方面，这些语言数据采集自欧洲和亚洲大部分地区。

对话式数据集

对话式AI是人工智能热门方向，也是目前最先落地的技术之一。对话式AI涉及到语音识别、自然语言理解、机器学习等人工智能技术，使机器理解人类语言并与人类进行有效沟通。对话式AI一般以文本机器人、语音机器人、多模态数字人、智能质检和坐席辅助等形式赋能于营销、客服、质检等场景。

北京爱数智慧新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

图片来源：摄图网

例如在客服场景中，因真实客服对话随意性较大、口语较多、话题不易集中、存在省略语等现象，因此，在训练客服等用于对话场景的AI模型时，自由对话数据集显得尤为重要。北京爱数智慧近期新推出的数据以自由对话数据为主，分别是德语、俄语和埃及阿拉伯语自由对话数据，这些数据可帮助AI模型快速识别不同场景的对话内容并做出有效回应。

德语对话音频数据集

该数据为对话式数据，总共300多人参与录制，参与录制人来自德国北莱茵-威斯特法伦州、巴伐利亚、柏林、杜塞尔多夫、克罗伊茨贝格等大部分德语地区。录音内容为自由对话。该数据集可用于智慧出行、智能社交、智能家居控制等场景。

俄语对话音频数据集

该数据集总时长近1000小时，共有超过500人参与录制，参与录制人来自莫斯科、萨兰斯克等地，在安静室内环境下录制。音频内容为自由对话，适合对对话式AI的训练和测试。该数据集可应用于智能社交、智能家居等场景，用于训练智能音箱、语音助手等产品的AI模型。

埃及阿拉伯语对话音频数据集

该对话数据集总时长超过500小时，超过500名埃及国家阿拉伯语地区人参与录制，录制人覆盖各个年龄阶段。数据集适用于拓展埃及及其他人工智能市场的AI产品模型训练。该数据集可应用于智能社交、智能终端、智能家居等各大场景。

朗读式数据集

北京爱数智慧新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

图片来源：摄图网

“小爱同学，请循环播放我的歌单前十首歌曲。”

“唉，小爱为您循环播放我的歌单前十首歌曲，尽情享受吧！”

当我们和智能音箱交流时，音箱首先识别我们的声音，将声音转换成文本，理解人的意图获取答案后，再通过语音合成播报出来。或者我们登录某个应用工具，可通过语音输入密码来实现。

实在是太酷了，这些智能设备是怎么做到的？AI模型首先通过对海量语音、语言数据集进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”，这些是完成整个人机对话的前提。

因此，朗读数据是人工智能精准识别的重要组成部分，广泛应用在智能装备、智能音箱、语音助手等场景。北京爱数智慧近期新推出乌尔都语和巴基斯坦英语朗读式数据集，用于AI产品人机交互、控制命令等。

乌尔都语朗读音频数据集

乌尔都语是巴基斯坦国语，是印度斯坦语的一部分，印度斯坦语是世界第四大语言，近30个国家使用该语言，全球使用人口约1.4亿。该朗读数据集超过500人参与采集，采集地域为巴基斯坦伊斯兰堡、辛德、卡拉奇等地。数据总时长超过450小时，内容为日常用语、人机交互、控制命令、唤醒词、数字串等。可应用在智能家居的智能音箱、智能出行的语音助手、智能穿戴等AI设备的模型训练与测试。

巴基斯坦英语朗读音频数据集

英语是巴基斯坦官方语言之一。巴基斯坦英语朗读数据共有近200人参与录制，参与录制人来自巴基斯坦伊斯兰堡、拉合尔、卡拉奇等区域。数据集内容多为日常用语、唤醒词、数字串等。该数据集可广泛应用于智能终端、智能社交、智能出行等多个领域。

朗读数据和对话数据都是用于提升模型识别语音的精准度，喂养的结构化、高质量的数据越多，模型在识别人声的准确度越高，反应敏捷度越好。特别自由对话数据的训练，还原真实说话场景，可帮助模型提升复杂说话场景下的语音识别能力。

目前，北京爱数智慧为人工智能领域企业和科研机构提供海量数据集，拥有超过150000小时自有数据集，其中对话式数据集超过90000小时，朗读式数据集超过50000小时，自发式数据集超过10000小时。这些数据集可帮助厂商提升AI模型识别准确度，扩大人工智能的市场投放范围，推动人工智能产品的发展和普及。

要想了解更多类型和语种的数据集欢迎咨询客服：400-900-5251，或直接访问北京爱数智慧官网进行了解。

本文来自36氪企业号爱数智慧，该文观点仅代表作者本人，36氪系信息发布平台，仅提供信息存储空间服务，如若转载请联系原作者。

[免责声明]

资讯标题：北京爱数智慧新出德语、俄语、乌尔都语等对话数据集语种覆盖欧亚大陆大部地区

资讯来源： 36氪官网

上一篇【前沿科技公开氪 ② 】锤子科技VR项目负责人、经纬投资人都来了，你来不来？