MagicHub.io开源社区
数据是人工智能的燃料,为人工智能与人交流提供动力支撑。网络和硬件的普及带来数据量的飞速增长,但是结构化的数据才能用于监督学习,才是人工智能真正理解人的关键。当开发者开发出AI模型,将结构化的数据输入到模型中,进行大量的训练,不断提升模型的识别率和响应速度。这里涉及到语音识别(ASR)、语音合成(TTS)和自然语言理解(NLP)等技术。
近期,MagicHub.io开源社区继续开源数据,此次开源超过20小时不同数据集,包括语音识别(朗读和对话语音数据)以及自然语言理解数据,供AI开发者下载使用。
自然语言理解(NLP)文本语料
自然语言理解作为人工智能核心课题之一,以语言学为基础涵盖各个学科知识,人工智能模型训练更离不开NLP数据训练,MagicHub.io社区开源用于AI识别地标地址的数据。
自然语言理解(NLP)——中文地标地址数据
开源的数据集包含100条中文地标地址文本语料,数据采集了大部分四川和河北,以及江苏、浙江、广西、安徽、广东等地重点地标地址。
数据信息
对话式数据集
自然对话式数据是对话式AI的加速器,赋能当前最热门的对话式人工智能发展。对话式数据也是MagicHub.io开源社区主要的开源数据类型之一,此次社区分别开源上海口音中文普通话和韩语对话音频数据集。
上海口音中文普通话对话音频数据集
开源的数据包含3个小时的上海口音中文普通话对话音频和转写文本,内容为4名说话人之间的8组给定主题对话。为确保对话中使用了上海口音的中文普通话而不是上海话,其中一名说话人的中文普通话是相对标准的。
数据信息
韩语对话音频数据集
开源的数据包含了5.22个小时的韩语对话音频和转写文本,内容为7组说话人之间的22组给定主题对话。
数据信息
朗读式数据集
朗读式数据集是语音识别的基础数据,大量结构化的朗读式数据集在提升AI模型识别率上起到重要作用。MagicHub.io社区此次开源了总共超过10个小时、经过结构化的俄语和武汉话朗读数据。
俄语朗读音频数据集-日常用语
数据集总时长为6.57小时的俄语朗读音频和转写文本,内容为日常用语。共有3,842条语料,由10名说话人提供。
数据信息
武汉话朗读音频数据集-日常用语
此数据集包含了5.08小时的武汉话朗读音频和转写文本,内容为日常用语。共有5,082条语料,由4名说话人提供。
数据信息
此次MagicHub.io开源社区共开源超过1.6GB用于AI模型训练或测试的语音数据,此外还整理了来自网络的海量数据集,包括来自清华大学、GigaSpeech、LibriSpeech、TED等数据。
目前,社区已开源了超过20种语言,涵盖各大应用场景的数据集。迄今为止,社区聚集超过3000名AI开发者,数据下载小时数超过7000小时。MagicHub.io开源社区将持续为开发者提供更多高质量数据集。
近期,Annotator®5.0标注平台的SaaS免费版将向开发者开放,并发布在MagicHub.io开源社区,更多开源数据和工具将汇聚于此,贡献于斯,欢迎大家持续围观。