MagicHub.io开源社区
对话式AI的最高境界是兼顾响应的速度和应答质量,如果AI做到像人交流一样自然,响应速度间隔需要控制在200毫秒以内。那么,对话式AI需要将用户语音转换为文本,理解文本含义,搜索符合语境的最佳应答,最后使用文本转语音工具提供应答。每一步都需要运行多个 AI 模型,因此每个单独网络的可用执行时间约为 10 毫秒或更短。AI要想实现如此自然的应答,对话式训练数据必不可少。
近期,MagicHub.io开源社区开源几组对话式AI数据集,其中埃及阿拉伯语对话音频数据集和巴基斯坦英语朗读数据集为北京爱数智慧最新推出的数据集,并开源在社区供AI开发者用于模型训练或测试。
埃及阿拉伯语对话音频数据集
此开源数据集包含5.5小时的埃及阿拉伯语对话音频和转写文本,内容为2组说话人之间给定9组主题进行对话。
巴基斯坦英语朗读数据集—日常用语
此数据集包含了4个小时的巴基斯坦英语朗读音频和转写文本,内容为由7名说话人提供的2,191条日常用语语料。
中文普通话对话音频数据集—多通道
此数据集包含了10个小时的中文普通话对话音频和转写文本,内容为由3种录音设备(6通道)采集的30组说话人之间的360组给定主题对话。
南昌话对话音频数据集
此数据集包含4个小时的南昌话对话音频和转写文本,内容为2组说话人之间的6组给定主题对话。
长沙话对话音频数据集此数据集包含了4.1个小时的长沙话对话音频和转写文本,内容为2组说话人之间的6组给定主题对话。
本次开源5个数据集总共近30个小时。迄今为止,社区开源超过25种语言,聚集超过3000名AI开发者,数据下载累计超过7000小时。
开源社区在数据开源上力求内容丰富、类型多元、数据质量高,覆盖各类语言,让社区开源数据能够为更多AI开发者所用,为缺少资金和渠道获取可靠数据集的AI开发者或者学生们提供研发帮助。