作者:云科技时代 吴宁川
一份最新的全球《2021人工智能与机器学习现状》调研报告显示:2021年,53%的AI团队报告预算在50万美元到500万美元之间(而2020年约为三分之一),这个强烈的信号表明AI对于各行各业各种规模企业的成功变得越来越重要。这份由全球领先的AI数据服务平台公司澳鹏(Appen)连续第7年发布的AI现状年度报告还强调,在2020年由于新冠疫情,各规模的企业都加速推进了AI战略,并且在2021年还将继续保持这种势头。
在中国,AI技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展。由中国信通院与中国人工智能产业发展联盟推出的《2021人工智能核心产业白皮书》指出,工程技术正在引领AI产业——技术成本快速下降,同等算法水平所需计算量每8个月降低一倍、成本降低百倍,涌现了多样化的研发和技术服务平台,这些说明AI正从技术理论突破过渡到工程化落地应用的阶段。
深度神经网络是当前AI的主要模型,而监督学习则是构建(训练)深度神经网络的主要方法,监督学习所需要的大规模、高质量的人工标注数据集是AI产业发展的刚需,也是AI工业化的主要瓶颈之一。在中国,正在大量涌现AI数据标注产业基地,但当前的AI数据标注产业仍处于初级阶段。澳鹏公司产品研发总监张童皓表示,用户对于数据规模、质量和多样性等要求越来越高,专业化数据服务平台是AI工业化的突破口。
获得大规模、高质量的人工标注数据,这不仅是中国企业AI实践成功和AI工业化的关键,在全球也是类似的刚需。无论从全球还是中国市场来说,专业的数据标注服务商都是AI工业化领先一步的关键。澳鹏《2021人工智能与机器学习现状》调研报告指出,获取足够的优质训练数据来部署AI是各种规模企业成功的重大障碍,而全球绝大多数企业都在某种程度上采用了专业数据供应商——这反映了数据采集、准备和管理是AI面临的首要挑战。
(人工智能项目部署和投资回报 ,来源:《2021人工智能与机器学习现状》,澳鹏)
根据澳鹏的调研,使用专业数据供应商的企业表示他们在AI部署方面领先于其他企业的可能性要高1.5倍,而落后的可能性要低4倍,也就是说使用专业数据供应商的企业部署了更多的AI项目,而且实现了更大的投资回报率。特别是,澳鹏发现使用专业数据供应商的企业更有可能将AI部署到生产环境。
此外,AI部署是一个持续的过程,而不是一劳永逸。去年,80%的被调研企业至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受访者表示至少每月更新一次模型,高于 2020年的45%。而与较小的企业相比,大型企业更有可能更新AI模型,至少每季度更新一次的比例为91%。其中,使用专业数据供应商的企业最有可能每月更新其模型。
就中国市场来说,以数据标注为代表的专业数据服务行业才刚刚起步,相关技术发展程度低,属于劳动力密集型行业,而且该行业缺乏大型专业数据供应商和服务商,行业以中小企业为主,呈现高度的竞争状态。在另一方面,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。
当前,中国的AI行业和AI应用正在高速发展,相应带动了AI数据标注行业的快速成长。特别是AI用户对于AI数据标注质量的要求越来越高、越来越精细化和专业化,诸如自动驾驶、工业制造等智能应用场景越来越复杂,高质量、精细化的标注数据将直接影响算法模型的效果。
(文本数据标注示例)
张童皓在加入澳鹏之前供职于人工智能视觉公司,再之前在携程和e-Bay都从事过大数据和数据智能相关产品的研发工作。张童皓介绍,自2015年国内AI行业掀起新一轮热潮以来,用户对于AI训练数据的要求越来越高。以图像类项目为例,由于支持高清图像设备的大量出现、流媒体的普及等,相应对训练数据质量要求水涨船高,例如对图像分割任务就要求标注打点的位置与实际像素之间的偏离不超过1到3个像素,对语音的切分要在毫秒级且前后两段不能有重叠或空隙。
除了要求更高质量的训练数据外,由于深度神经网络的模型效果与训练数据的规模呈正相关性,当前很多客户不仅需要海量的高质量训练数据,而且还要覆盖更多的场景,也就是对同一个场景提出不同的数据标注要求。再加上很多AI场景都仍属于探索阶段、场景需求多变,例如智能驾驶从早期的目标跟踪到后来的遮挡、连续性等出现了不同的诉求,因此不同团队需要标注不同的数据属性,很容易出现一个图像数据集却有多种不同标注要求的情况。当然,在AI模型生命周期的不同研发阶段,也可能提出完全不同的数据标注要求。这是由于AI模型在迭代的过程中,需要用数据进行模型训练和效果验证,如果模型效果不理想就需要调整方向,这就意味着新一轮的数据标注处理。
此外,由于数据合规性和隐私保护的要求越来越高,纯云端的数据标注平台和服务就无法全部满足企业用户要求,这就要求私有化部署的数据标注平台和众包管理平台。不过,私有化部署固然能够更好的保障数据安全,但其部署和维护成本较高,这也带来了相应的挑战。
专业化的AI训练数据标注平台及众包管理平台是当前中国AI工业化瓶颈的重要突破口之一,这也是澳鹏(Appen)进入中国市场的重要原因。澳鹏迄今已经有25年的历史,拥有业内先进的人工智能辅助数据标注平台和一体化AI数据及资源管理平台,以及全球100多万名技能娴熟的众包资源——来自全球170多个国家和70,000个地区,支持235多种语言和方言。澳鹏中国团队从2019年就开始就重新构建面向中国市场的AI数据标注平台、相应的工具以及众包资源渠道和管理平台,2021年澳鹏大中华区正式成立并独立运作。
作为全球领先的AI训练数据服务提供商,澳鹏的拳头产品和服务就是数据标注平台和众包资源。针对中国市场,澳鹏中国研发中心借鉴公司在海外的实战经验,重新独立开发了中国版本的数据服务平台。张童皓强调,之所以选择重新开发中国市场的数据标注平台版本,这一方面是针对中国客户的用户习惯与特色需求,另一方面是切合中国市场的数据监管和法规遵从要求。例如,澳鹏中国数据标注平台的公有云版就部署在国内,完全符合中国企业用户对数据安全的要求。
(澳鹏中国数据标注平台支持混合云部署)
澳鹏中国数据标注平台共有三大功能:资源管理、项目管理和标注工具箱。其中,资源管理部分对接了澳鹏全渠道资源,包括签约供应商以及众包人员和澳鹏在无锡和大连的内部标注中心团队;项目管理部分,作为一家综合性数据服务公司,澳鹏平台提供了项目配置和管理、工作流配置、数据资源分配和质检等功能;标注工具箱方面,支持视频、图像和音频的标注和转录、文本标注与翻译,全覆盖文本、音频、2D和3D图像等,还提供了智能辅助标注工具。
数据标注是一个复杂的系统工程,由标注员和质检员一起协同工作。在这个协同的过程中,有数据的提交和打回等复杂操作。此外,澳鹏作为一家综合性专业数据服务公司,平台上往往存在多个并行任务,任务属性各不相同,有的要求流转非常快、有的单条数据工作时间很长,项目组规模从几十人到上万不等,因此澳鹏中国数据标注平台选择了开源的分布式消息队列Pulsar作为底层基础架构。Pulsar被视为下一代企业级分布式消息系统,是Kafka的替代型技术,其特点包括多租户、低延迟、读写分离、跨地域复制、快速扩容、灵活容错等特性。
张童皓强调,较前沿的技术架构给平台带来了吞吐性能方面的竞争优势,除此以外,澳鹏全球众包资源的对接也是其独有优势,而即使是在国内也有独到的众包资源——3000人规模的中文专业医学数据标注团队,都具有临床执业资格和丰富医学项目经验,可对医学影像和问答进行高效标注。
专业化数据标注平台是数据标注行业的核心竞争力,也是AI工业化的关键平台之一。在全球,具备专业化数据标注平台及其能力的数据服务商屈指可数,澳鹏就是其中之一。随着澳鹏进入中国市场,也将专业化数据标注平台的实践带入中国市场,由澳鹏中国研发中心全自研的澳鹏中国数据标注平台是一个国产化的数据标注平台,该平台定位于全流程一站式人机协同高质量数据平台,具备从数据需求提出到策略制定、数据收集、高精度标注/分类、数据分析和数据服务,直到数据全量交付的核心场景功能。
(大多数澳鹏标注工具都内置了AI辅助标注功能)
张童皓介绍,澳鹏中国数据标注平台具有多种独到的专业技术。其中的标注工具箱在多语言和复杂图像处理方面极具竞争力:图像语义分割技术,可以在保证像素级精度同时,实现10分钟处理一张图的高速处理;随着2D图像的视频全结构化趋势,澳鹏平台可以同时识别视频中的多类型目标,可进行点、线、框和多边型融合的复杂标注而且支持连续帧,而传统工具仅为单模式单帧;在3D图像处理方面,由于3D图像数据难于理解以及查看不便(即3D空间中的点状物密集聚集在一起形成的3D点云),澳鹏投入了大量研发资源,开发了拉框标注和语义分割等一整套的标注工具,其中拉框标注支持2D&3D融合标注、自动贴合、连续帧跟踪、可定义对象实例关系、高度集成质检和交付流程等,而最具特色的2D&3D融合标注可将3D物体映射到2D图像中进行关联。
澳鹏中国数据标注平台还提供了:数据有效性验证规则配置功能,例如一辆车消失了多长时间就被视为数据异常,可及时提醒标注员或质检员进行纠正;在数据验收方面,为客户提供了最低粒度验收或打回,即不是对一整张图进行验收或打回,而是对其中的一个框或一个点进行精准的验收和打回,这样标注员就可以直接对被打回的问题数据进行修正;澳鹏中国数据标注平台的标注工具可实现99.9%的准确率,可达到5分钟一张、1秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。
在澳鹏中国数据标注工具底层有一个通用的技术组件,这就是模板引擎。开发模板引擎的目的,在于澳鹏是一家综合数据服务提供商,支持多家客户并行并发多种标注任务,因此通过模板引擎让内部团队可以简单编写脚本代码后就能定制化不同标注工具,以支持不同客户的不同标注任务。
澳鹏中国数据标注平台也可以被私有化部署到企业内部,因此对于企业客户来说,该平台还提供了多种企业级能力,包括灵活的工作流配置、多资源组合管理、多种部署方式等。在灵活的工作流配置方面,企业的项目经理通过选项勾选,就可以灵活配置不同的工作流,实现不同的数据流转策略和流程。例如,有的文本标注项目,单条数据处理的速度非常快,就可以配置为让标注员一次领取多条数据;有的翻译标注项目,当标注时出现错别字时,就可以配置为质检员直接修改而无须打回,这样就避免了反复提交数据的时间浪费;而对于3D点云标注项目,一条图像数据可达300多帧,标注时间不仅非常长而且需要处理完成后马上提交质检以及及时修正问题。
在多资源组合管理方面,澳鹏中国数据标注平台可以让企业同时配置管理内部的标注团队和外部的供应商及众包资源。在多种部署方式方面,澳鹏中国数据标注平台支持SaaS、私有化部署、混合云方式等,可实现从标注员向客户提交数据文件全程不经由澳鹏中国的服务器,通过物理切割而最大限度保障企业数据的隐私与安全。澳鹏中国数据标注平台还支持白名单、后台日志审计等运营方式,从而在大幅缩减企业服务器运营成本的同时,加速项目上线时间,达到兼顾安全与效率的项目运营优化。
张童皓强调澳鹏中国数据标注平台作为国产自研的数据标注平台,还研发了很多独有的数据标注能力,包括3D点云车道线自动识别、专业的ASR智能语音识别引擎、AI辅助标注等,不仅克服了行业中的难点和挑战,还大幅提升了标注和审核的效率和生产力。作为一家服务于AI产业和项目的数据服务商,澳鹏在AI伦理道德、法规遵从等方面都有专门的策略、技术和管理机制,确保客户的项目在最大程度上避免这些方面的问题。
总结而言:以澳鹏为代表的专业数据标注服务商及其国产自研专业数据标注平台,是AI工业化的一大标志。这代表了AI数据标注服务正从简单的劳动力密集型向专业数据服务和工业化组织过渡,而高质量、大规模、多样化的标注数据及其工业化生产,将进一步推动AI工业化的早日到来。届时,AI技术无疑将更广泛和更深刻的影响社会与经济发展。