社区上新 | 我们最近新开源了这5个数据集

转载时间：2021.10.23（原文发布时间：2021.08.23）

276

转载作者：36氪企服点评小编

阅读次数：276次

社区上新 | 我们最近新开源了这5个数据集

MagicHub.io开源社区

对话式AI的最高境界是兼顾响应的速度和应答质量，如果AI做到像人交流一样自然，响应速度间隔需要控制在200毫秒以内。那么，对话式AI需要将用户语音转换为文本，理解文本含义，搜索符合语境的最佳应答，最后使用文本转语音工具提供应答。每一步都需要运行多个 AI 模型，因此每个单独网络的可用执行时间约为 10 毫秒或更短。AI要想实现如此自然的应答，对话式训练数据必不可少。

近期，MagicHub.io开源社区开源几组对话式AI数据集，其中埃及阿拉伯语对话音频数据集和巴基斯坦英语朗读数据集为北京爱数智慧最新推出的数据集，并开源在社区供AI开发者用于模型训练或测试。

外语数据集

埃及阿拉伯语对话音频数据集

此开源数据集包含5.5小时的埃及阿拉伯语对话音频和转写文本，内容为2组说话人之间给定9组主题进行对话。

社区上新 | 我们最近新开源了这5个数据集

巴基斯坦英语朗读数据集—日常用语

此数据集包含了4个小时的巴基斯坦英语朗读音频和转写文本，内容为由7名说话人提供的2,191条日常用语语料。

中文数据集

中文普通话对话音频数据集—多通道

此数据集包含了10个小时的中文普通话对话音频和转写文本，内容为由3种录音设备（6通道）采集的30组说话人之间的360组给定主题对话。

社区上新 | 我们最近新开源了这5个数据集

方言数据集

南昌话对话音频数据集

此数据集包含4个小时的南昌话对话音频和转写文本，内容为2组说话人之间的6组给定主题对话。

社区上新 | 我们最近新开源了这5个数据集

长沙话对话音频数据集此数据集包含了4.1个小时的长沙话对话音频和转写文本，内容为2组说话人之间的6组给定主题对话。

本次开源5个数据集总共近30个小时。迄今为止，社区开源超过25种语言，聚集超过3000名AI开发者，数据下载累计超过7000小时。

开源社区在数据开源上力求内容丰富、类型多元、数据质量高，覆盖各类语言，让社区开源数据能够为更多AI开发者所用，为缺少资金和渠道获取可靠数据集的AI开发者或者学生们提供研发帮助。

本文来自36氪企业号爱数智慧，该文观点仅代表作者本人，36氪系信息发布平台，仅提供信息存储空间服务，如若转载请联系原作者。

[免责声明]

资讯标题：社区上新 | 我们最近新开源了这5个数据集

资讯来源： 36氪官网

B&N推出iPad版Nook应用

上一篇 B&N推出iPad版Nook应用

深度资讯 | 手机销量顶到天公司股价跌到底，小米如何“干翻华为”

下一篇深度资讯 | 手机销量顶到天公司股价跌到底，小米如何“干翻华为”

36氪企服点评

H5制作相关的软件

查看更多软件

大厂都在用的H5制作软件

限时免费的H5制作软件

相关文章推荐

最新文章推荐

新锐产品推荐

案例推荐

相关资讯推荐

消息通知

咨询入驻

商务合作