社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

转载时间：2022.04.06（原文发布时间：2021.08.09）

169

转载作者：36氪企服点评小编

阅读次数：169次

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

MagicHub.io开源社区

数据是人工智能的燃料，为人工智能与人交流提供动力支撑。网络和硬件的普及带来数据量的飞速增长，但是结构化的数据才能用于监督学习，才是人工智能真正理解人的关键。当开发者开发出AI模型，将结构化的数据输入到模型中，进行大量的训练，不断提升模型的识别率和响应速度。这里涉及到语音识别（ASR）、语音合成（TTS）和自然语言理解（NLP）等技术。

近期，MagicHub.io开源社区继续开源数据，此次开源超过20小时不同数据集，包括语音识别（朗读和对话语音数据）以及自然语言理解数据，供AI开发者下载使用。

自然语言理解（NLP）文本语料

自然语言理解作为人工智能核心课题之一，以语言学为基础涵盖各个学科知识，人工智能模型训练更离不开NLP数据训练，MagicHub.io社区开源用于AI识别地标地址的数据。

自然语言理解（NLP）——中文地标地址数据

开源的数据集包含100条中文地标地址文本语料，数据采集了大部分四川和河北，以及江苏、浙江、广西、安徽、广东等地重点地标地址。

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

数据信息

对话式数据集

自然对话式数据是对话式AI的加速器，赋能当前最热门的对话式人工智能发展。对话式数据也是MagicHub.io开源社区主要的开源数据类型之一，此次社区分别开源上海口音中文普通话和韩语对话音频数据集。

上海口音中文普通话对话音频数据集

开源的数据包含3个小时的上海口音中文普通话对话音频和转写文本，内容为4名说话人之间的8组给定主题对话。为确保对话中使用了上海口音的中文普通话而不是上海话，其中一名说话人的中文普通话是相对标准的。

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

数据信息

韩语对话音频数据集

开源的数据包含了5.22个小时的韩语对话音频和转写文本，内容为7组说话人之间的22组给定主题对话。

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

数据信息

朗读式数据集

朗读式数据集是语音识别的基础数据，大量结构化的朗读式数据集在提升AI模型识别率上起到重要作用。MagicHub.io社区此次开源了总共超过10个小时、经过结构化的俄语和武汉话朗读数据。

俄语朗读音频数据集-日常用语

数据集总时长为6.57小时的俄语朗读音频和转写文本，内容为日常用语。共有3,842条语料，由10名说话人提供。

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

数据信息

武汉话朗读音频数据集-日常用语

此数据集包含了5.08小时的武汉话朗读音频和转写文本，内容为日常用语。共有5,082条语料，由4名说话人提供。

社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

数据信息

此次MagicHub.io开源社区共开源超过1.6GB用于AI模型训练或测试的语音数据，此外还整理了来自网络的海量数据集，包括来自清华大学、GigaSpeech、LibriSpeech、TED等数据。

目前，社区已开源了超过20种语言，涵盖各大应用场景的数据集。迄今为止，社区聚集超过3000名AI开发者，数据下载小时数超过7000小时。MagicHub.io开源社区将持续为开发者提供更多高质量数据集。

近期，Annotator®5.0标注平台的SaaS免费版将向开发者开放，并发布在MagicHub.io开源社区，更多开源数据和工具将汇聚于此，贡献于斯，欢迎大家持续围观。

本文来自36氪企业号爱数智慧，该文观点仅代表作者本人，36氪系信息发布平台，仅提供信息存储空间服务，如若转载请联系原作者。

[免责声明]

资讯标题：社区上新 | MagicHub.io开源这5个数据集涵盖对话式、朗读式和NLP数据

资讯来源： 36氪官网

新版Google搜索应该去掉“创可贴”

上一篇新版Google搜索应该去掉“创可贴”

ofo小黄车进入韩国釜山，开启全球第21国

下一篇 ofo小黄车进入韩国釜山，开启全球第21国

36氪企服点评

在线作图相关的软件

查看更多软件

行业专家共同推荐的软件

限时免费的在线作图软件

相关文章推荐

最新文章推荐

新锐产品推荐

案例推荐

相关资讯推荐

消息通知

咨询入驻

商务合作