人工智能公司涌现,产生了海量采集标注需求,Tractica预测,2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用,优质的数据必不可少,美国国际数据集团的报告中显示,到2022年,所有数据中将有93%的数据是结构化数据,这些结构化数据都需要结构化标注。所以前端的数据采集、标注环节单拎出来成为了新的机会点。
目前这个赛道上,成立久的有“数据堂”,早期公司有获得明势资本 Pre-A 轮融资的“爱数智慧”,完成天使轮融资的“泛涵科技”,获得两轮融资的 BasicFinder,“丁火智能”也是赛道上一员。
丁火智能完成任务的流程是标注-复核-全检。标注任务众包,兼职方多为学生、家庭主妇、白领等,他们前期接受考核培训,根据准确率不同会获得相应权限。系统自动分发任务,准确率高的人被挑选出来作审核人员。数据交付前要复核和百分百全检,目前复核的准确率超过98%,全检的错误率能控制在5%之内。多以接图片为主。
丁火智能标注仍然以人力为主,并没有使用机器标注。在 CEO 晋明会看来,标注效果怎么样最终还需要人来审核,在人力成熟的条件下,机器只是降低成本的工具,在目前来看,还没到引入机器的地步。机器标准会越来越好,对一些创业公司来说也是机会,但这个机会是属于人工智能公司的机会,算法不断产生结果,人力判断反馈给算法,所以最终来看还是机器辅助人。
安全性方面,丁火智能会和企业签署保密协议、按照客户要求把数据部署在客户的服务器上,或者是自建标注平台。
收费模式上,丁火智能分任务类型收费,比如六分钱一个框、两毛钱一个轮廓等。抽佣比例在10%-20%,公司已经盈利,每月收入在10万元以内。服务客户包括创新工场人工智能工程院、YI+智能、捷尚视觉、睿视智觉、FACEGOOD、欢乐逛、上海交通大学和上海科技大学等。
做数据标注本身的门槛并不高,主要考察的是最后数据的标注质量。丁火智能在管理机制上建立了一套质控体系,通过这套体系将人员筛选出来,正确率高的就做更高级的任务,正确率低就直接被淘汰。
CEO 晋明会告诉36氪,丁火智能和同行的差异在于,同行的流程是平台-团队-个人,丁火智能是平台-个人,个人通过一套指控体系在内部分化成普通标注人员和审核人员,实际是线下行为在线化,比如整个考核-标注-质检都是线上完成。线上的好处就是沉淀数据,知道谁做的好,谁做的不好。从这点来看,丁火智能也可以说是从数据标注切入的线上人力平台,将来线上人力会有自己的评判标准和评判体系、以API的形式输出出去,而这些人力是已经被丁火证明过的优秀的人力,可以应用到更广的范围。
国外做数据标注的也分两类,一类是众包方式,比如 Mturk(Amazon旗下) 、Spare5在2017年1月获得了 Google 和 Intel 的$1400万投资,累计融资$2725万, CrowdFlower 在2017年6月获得了Microsoft 和 Salesforce 的$2000万投资,累计融资$5800万,这类厂商速度快价格低,但质量无保证;第二类是全职方式,比如 ScaleAPI 2017年5月获得了A轮投资$450万,质量高,但是速度慢价格高。
丁火智能团队目前有3个人。CEO 晋明会硕士学历,负责产品策划、 运营、iOS开发及商务拓展,六年产品经验,五年创业经历;CTO 徐武有十年开发经验,七年创业经历,精通PHP、Python和Java等语 ,负责后台架构、网页及安卓开发。;设计总监徐志诚有六年网页设计经验,五年App设计经验,主导设计过 一个网站、四个App和四套基于微信的商业化系统。
公司曾获得合力创投100万种子轮,目前正在寻求300-500万天使轮融资。