数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

数据堂
+ 关注
2024-03-08 15:59
692次阅读
7月2日,“2023全球数字经济大会人工智能高峰论坛”在京举办。本次论坛以“智能涌现,重塑未来”为主题,汇集10余位人工智能领域顶级专家学者和企业、机构代表围绕当下最具热度的大模型发展话题分享了深刻洞见和思考。

数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

本次论坛发布了首批“北京市人工智能大模型高质量数据集”,共有10家单位的18个高质量训练数据集入选,包括数据堂多语言多模态视频文本对齐数据集、中文高质量大模型预训练文本数据集,以及人民日报语料数据集、国家法律法规语料数据集,两会参政议政建言数据集、“科情头条”全球科技动态数据集,中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T,将为通用大模型和行业大模型训练提供有力保障。

 

全国首个政务服务需求应用场景、北京市首批人工智能大模型高质量数据集、近百个场景案例发布,十个合作项目集中签约,展现出在推动通用人工智能产业发展和大模型创新应用成果方面的“北京力量”。
此次人工智能高峰论坛作为“2023全球数字经济大会”同期举办的六大高峰论坛之一,超高的热度吸引了近千名观众现场参与,也得到了政府及行业相关部门的高度重视。北京市经济和信息化局党组书记、局长姜广智出席活动并致辞。

数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

数据堂大模型数据解决方案

数据堂通过丰富的项目实施和管理经验,人机结合的数据生产平台既可以提供无监督数据的获取、清洗,也可以为后续监督学习阶段提供定制化数据服务。

01

无监督学习数据

针对无监督学习需要的训练数据,数据堂可以提供文本、图像、语音、视频、点云等单一模态及跨模态融合的数据获取与清洗服务,数据质量更有保障。 
中文高质量无监督文本数据集,可应用于大模型预训练,数据规模约1亿篇,涵盖语文、数学、地理、历史、化学、物理、生物、政治、计算机等各类学科领域的高质量文本,所有文本均经过标签分类、内容清洗和质量评估。
方言高质量无监督视频数据集,avi格式,数据规模达10万小时,100TB。涵盖全国各地方言10万小时的说话视频,每段视频都标注了具体的方言种类。
多语言平行语料文本数据集,涵盖50多个语种的平行互译语料,覆盖各类书面语和口语。所有文本均经过人工校对,句对准确率达到90%以上。
多模态安防领域图像描述数据集,涵盖各种场景图片、车辆图片、人脸图片、手势图片、人体图片等常见安防场景图片,对每张图片都进行了详细的内容描述。图文对准确率达到97%以上。

 

手势多模态数据

多模态多语言自然对话语音数据集,数量为3万小时,涵盖普通话、方言和少数民族语及60多个语种的对话音频。每段音频都人工标注了话题类型、说话人角色和说话内容。准确率达到95%以上。
多模态多语言视频标注数据,20TB,可应用于视频字幕识别。涵盖普通话、方言和少数民族语及30多个语种的说话视频。每段视频都人工标注了话题类型、说话人角色和说话内容。准确率达到95%以上。
另外,领域数据质量参差不齐,需要清洗后才可以投入使用。数据堂可以根据客户领域数据类型及特点,针对性的提供数据清洗方案及人员服务。

02

监督学习数据

针对监督学习需要的人工标注的高质量训练数据,数据堂可以提供文本、图片、音频、视频、点云等单一模态及跨模态的数据定制标注服务,包括问答对编写(SFT)、基于强化学习的人类反馈(RLHF)等。
  • 监督微调(SFT)数据

数据堂可帮助客户通过对prompt编写/改写、output编写/改写等工序,生成高质量的SFT数据,用于模型微调。

 

  • 敏感性Prompt编写/改写:

我们可以根据客户要求编写/改写敏感性Prompt,如暴力、政治、脏话、色情及其他等敏感内容,及带有诱导类的敏感内容。
  • 常见output数据标注:

相关性:问题和答案之间要准确贴合,避免答非所问
真实性:输出准确无误的信息,不可以误导用户
连贯性:不可出现错别字、语法错误、语义不顺等。尽量口语化,避免使用过于书面或直接从网络摘抄下来的内容
有帮助的:遵循用户意图,并帮助用户解决他们的任务。答案简明扼要,避免冗长和信息重复

无害性:输出内容不应对人造成身体、心理或社会伤害;设备或财产的损坏或损失;对环境的破坏;或损害人类福祉所必需的机构或资源

  • 基于人类反馈的强化学习(RLHF)
在这一阶段,数据堂可以针对SFT训练后模型生成的多个结果按照客户给定的规则进行人工排名,或者提供多因素打分。通过培训标注员对齐价值观,以及多人拟合的方式提升反馈的质量,以此提升大模型输出结果的质量,使之更加贴近人类价值观并有益。
  • 常见RM数据人工排名标注:

对模型输出的内容从最好到最差进行人工排名,对于相同分数的输出内容进行排序。

 

  • 常见RM数据多因素评分标注规范:

对模型输出的内容从最好(5分)到最坏(1分)进行打分,包括平分,如果输出质量接近,则分数相同。

[免责声明]

原文标题: 数据堂入选首批“北京市人工智能大模型高质量数据集”合作企业

本文由作者原创发布于36氪企服点评;未经许可,禁止转载。

资深作者数据堂
数据堂
0
数据堂(北京)科技股份有限公司
实力厂商
实力厂商
优质服务
优质服务
及时响应
及时响应
立即询价
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作