品牌名称
科大讯飞
企业规模
1001-5000人

科大讯飞AI超大规模高性能存储集群

386次阅读

客户简介

科大讯飞在语音识别、自然语言理解、机器学习推理及自主学习等领域保持着国际前沿技术水平,是国内当之无愧的人工智能领头羊。科大讯飞的基础架构团队,需要为各个人工智能团队及业务部门提供稳定、高性能的训练存储平台,同时管理近千台高性能GPU服务器,训练使用的存储平台性能如何,直接影响业务部门的训练效率。

 

挑战

1.为了满足众多人工智能业务部门训练的需要,科大讯飞用于模型训练的数据平台必须具备以下特性:

2.保证高带宽、低延时的读写特性,从而为GPU服务器提供足够的数据输入,确保GPU的高效使用

3.支持十亿级别的小文件及部分大文件混合的读写场景,满足大量特征文件或聚合后的文件存储需求

4.支持数千台高性能计算节点的并发访问

5.为逐步容器化的训练任务提供无缝数据访问能力

 

收益

满足持续扩容需求

经历短短几个月时间,总数据规模已达到近10PB,存放近百亿用于训练的音频、视频、图片文件,单集群峰值带宽近十GB/s。

训练时间大幅缩短

相对于曾经使用的其它商业存储,YRCloudFile的高带宽、低延时特性,能够使GPU等计算服务器的计算效率达到饱和,从而将单次训练时间由一周缩短至两天

训练精度提升

由于单次训练时间的缩短,使算法工程师对模型进行更多的迭代成为可能。迭代次数越多,辅以算法的优化,使科大讯飞的训练精度得到不断提升。