编者按:本文来自微信公众号“猎豹全球智库”(ID:CheetahGlobalLab),作者 小心心,36氪经授权发布。
分析师结论
计算机视觉不是一个新技术,它发轫于上世纪60年代,在深度学习的推动下走向大规模应用。2012年,图像识别准确率大幅提升后,计算机视觉商用的技术基础开始稳固。也就是从这个时间点开始,计算机视觉开始走向实用场景落地;
尽管发起于美国,但在实际落地应用中,中国已经成为面部识别技术最大的消费者和提供者,中国公司成为一股不容忽视的力量;
计算机视觉在中国的场景落地中,很大一块蛋糕就是安防(占比近70%)。得益于国家在平安城市、智慧交通和雪亮工程等计划的推动,安防市场在十几年保持着快速增长,到2018年已经达到7183亿元市场规模,而AI软硬件+安防目前的市场规模只有135亿元。计算机视觉和安防的结合,还有非常广泛的增长空间;
如果说安防是计算机视觉最大的落地场景,那么新零售则是最有潜力的场景之一。计算机视觉公司在安防等重要的市场面临着几乎红海化的竞争,零售场景尚未形成巨头。
除了安防、新零售,在金融、广告营销、医疗、教育等领域,计算机视觉技术都起到了提升效率,降低成本的作用。这也催生了深耕不同垂直领域的公司;
不同于互联网、移动互联网的全行业“二八法则”,计算机视觉公司的“二八法则”体现在垂直场景中,以安防场景为例,尽管有广泛的市场前景,但竞争也很激烈。因此,找准场景,打深井,是创业公司的破局之道。
1、概念:
作为人工智能的重要分支之一,计算机视觉是指通过计算机、摄像机或其他相关设备模拟生物视觉,通过电子化的方式感知和理解图像,以达到分析图像和得出结论的目的。
如果将智能分为通知、算知、感知、认知、预知、决知六个层面的能力,那么,计算机视觉的出现,则极大地提高了感知和认知力。
(机器视觉同样是人工智能快速发展的分支,机器视觉与计算机视觉在基础理论上、技术和应用上有很多重叠。相比之下,机器视觉更加侧重于工业领域的视觉研究,主要用于检测和测量。严格起见,本报告将计算机视觉与机器视觉区分开来。本章主要研究计算机视觉。)
2、主要技术介绍:
以人眼为类比,人的视觉系统主要解决物体识别、物体形状与方位确认以及物体运动判断三个问题。那么,代替人眼的计算机视觉技术,也主要包括以上三类。按照此类别,计算机视觉相关技术主要包括:图像分类、对象检测、目标追踪、语义分割、实例分割等技术,人脸识别、图像识别、无人驾驶中的路况识别等都是在基础技术上的重组与应用。
(上图可以简单解释计算机在识别过程中的技术)
图像分类:给出已经被标记为单一类别的图像,从而对一组新的测试图像的类别进行预测,并测量预测的准确性。
对象检测:识别图像中的对象,通常包括将各个对象输出边界框,并打上标签。
目标追踪:在特定场景跟踪一个或者多个特定对象的过程。
语义分割:计算机视觉中的分割是将整个图像分成一个个像素组,进行标记和分类,语义分割试图在语义上理解图像中每个像素的角色,包括人、道路、汽车、树木等。
实例分割:实例分割将不同类型的实例进行分类,不仅需要将不同的对象进行分类,还要确定对象的边界、差异以及彼此之间的关系。
1、计算机视觉发展历史:
计算机视觉最早归类于模式识别(PatternRecognition),1963年,MIT的博士LarryRobert发表论文——《MachinePerceptionofThree-DimensionalSolids》,该论文将计算机视觉从模式识别中独立出来,当时的计算机视觉研究主要是从图像中提取立方体等多面体的三维结构,并对物体形状及其空间关系进行描述。
20世纪70年代,一位青年学者DavidMarr提出Marr视觉计算理论,标志着计算机视觉理论框架初步形成。1982年,Marr的《视觉》一书面世,计算机视觉成为一门独立的学科,随后,包括主动视觉理论、分层重建理论框架等新理论不断出现。
(图为《视觉》封面)
2006年Hinton教授在《科学》发表了对于深层神经网络的训练方法,开启了深度学习的时代。2009年,用于视觉对象识别软件研究的大型可视化数据库ImageNet建立,2010年以来,ImageNet项目每年举办一次软件比赛,由软件程序来分类检测图像和物体。
(图为ImageNet发起人之一——李飞飞)
2012年以后,随着深度学习的爆发,ImageNet的识别率也在不断提升。
(图为ImageNet数据集)
以往,传统方法需要先手工设计特征,然后用分类器分类。其中,手工设计特征需要相关领域足够的经验和积累,对于提取的特征还需要进行大量调试工作,不同特征对应的算法也不同,组合起来,通用性差,进展缓慢且效果不佳,难以形成大规模商用。
而深度学习方法则是将特征学习和分类器学习集成到一个网络中,深度网络在大数据中自行学习特征并分类,可以增强通用性,极大提升效率。
深度学习出现后,计算机视觉的主要识别方式发生重大转变,自学习状态成为视觉识别主流。
到2017年,ImageNet图像识别的错误率已经降低至2.25%,人脸和物体识别的准确度都已经超过人类。计算机视觉已经具备商业化的技术基础。
2、计算机视觉现状与市场规模:
计算机视觉作为人工智能的重要分支,在人工智能市场一直占有较高的比重,根据中国信通院报告数据,2017年中国人工智能市场中计算机视觉占比37%。
国家虽然没有制定专门针对计算机视觉的政策,但在《新一代人工智能发展规划》中明确指出,将大力发展以计算机视觉为主要技术支撑的人类视觉能力感知获取、真实视觉感知以及智能城市的安全影像监控等。
在政策鼓励和技术基础支撑下,计算机视觉行业逐步实现了从基础层到应用层的打通,开始涉足安防、金融、医疗、教育等领域,提供安防及监控、无人零售、人车识别等技术解决方案。
根据前瞻产业研究院对CAICT(中国信息通信研究院)、Ganter、CBInsights等机构发布的数据汇总,2017年我国计算机视觉市场规模的增速都超过了110%。乐观估计2020年,我国计算机视觉市场规模有望突破1000亿;中性预测2020年我国计算机视觉市场规模在700亿元左右。
普通用户对于计算机视觉的感知,可能要归功于刷脸识别、换脸AppZAO等软件产品,对于广大公众而言,数据隐私问题一直备受关注。
从行业角度,由于极大提升了机器的图像感知与认知能力,同时为认知和决策提供了重要依据,计算机视觉的应用场景十分广阔。在智能安防、自动驾驶、广告营销、金融、医疗影像、消费电子等领域,都可以看到其应用价值。
1、智能安防:
说到智能安防,一个流传甚广的例子便是逃犯参加张学友演唱会被抓。在万人的明星演唱会期间,总有一些犯罪嫌疑人在安检过程中,难逃人脸识别系统的法眼,被精准识破。简言之,系统会事先存储在逃人员的图像信息,当逃犯出现在布控范围,被系统捕捉到后,系统则将其与后端数据库快速比对,比对成功后,就会发出警告。这就是人脸识别等计算机视觉技术在安防中的应用。
(图为逃犯在张学友嘉兴演唱会被抓,截至2018年底,张学友演唱会已抓捕80余逃犯)
在计算机视觉的行业应用中,安防占据了67.9%的市场份额。这离不开政府对公共安全领域安防工作的重视。2005年,国务院发布《关于深入开展平安建设的意见》,“平安城市”计划成为中国视频监控行业发展的主要推动力。在该计划下,中国的安防监控经历了十几年的快速增长。
计算机视觉在安防行业主要集中在人脸识别、车辆识别、行人识别、行为识别等方向。
传统安防存在着耗费人力物力、动态管理不足,缺乏关联分析等问题。计算机视觉的出现,解决了上述问题,它将以往人力查阅需要30天完成的监控,通过不到5秒的视频分析技术解决,带来了公安处理案件精度和效率的提升。安防系统也实现了从传统的被动防御到主动判断和预警的智能防御升级。
目前行业内主要有三类公司,第一类是以海康威视、大华股份为代表的,从后端设备和前端设备生产起家的传统安防企业;第二类是以AI算法为基础逐渐向软硬件和解决方案拓展的AI科创企业,代表公司有商汤科技、旷视科技、云从科技等;第三类是华为等大型互联网厂商。
根据权威市场研究机构IHSMarkit2018年7月发布的《2018全球视频监控信息服务报告》,2017年,海康威视市场份额以37.94%占据全球第一,大华股份排名第二,占比17.02%,宇视科技则以2.8%的市场份额占据全球第六。而在国内市场,海康、大华、宇视科技、苏州科达几家公司的市场份额总占比已经超过了60%。
2、智能驾驶:
在自动驾驶L4阶段(高级自动化阶段),高级辅助驾驶系统(ADAS)需要在实时的路况中回答以下四个基本问题:
(1)车在哪?
(2)车周围有什么?
(3)下面会发生什么?
(4)车该怎么做?
每个问题都离不开计算机视觉。换句话说,计算机视觉是智能驾驶技术中的一环。
无人驾驶技术链非常长,但基本可分为三个阶段:感知、决策和控制。计算机视觉技术主要应用在无人驾驶的感知阶段,主要通过高级辅助驾驶系统(ADAS)来实现,其基本原理大致如下:
使用双目视觉系统获取场景中的深度信息,用于进行后续的图像语义理解,并探索可行驶区域与目标障碍物;
(下图是根据上面两张图即双目系统中的左右眼得到的深度信息,图片来自雷锋网)
通过视频估计每一个像素的运动方向与速度;
(右图为根据左图一个人打网球做出的运动估计,图片来自雷锋网)
对各种车辆、行人等进行检测和追踪;
(上图和下图分别为2D检测和3D检测,图片来自雷锋网)
对整个场景的理解。包括道路线检测,并将场景中的像素打成标签;
(上图为不同的像素,图片来自雷锋网)
同步地图构建与定位技术,即SLAM(SimultaneousLocalizationandMapping)技术。
(上图为SLAM绘制的地图,图片来自雷锋网)
在国际上最大的ADAS企业为Mobileye,占据了75%的市场份额,国内提供解决方案服务(算法)的公司主要包括商汤科技、旷视科技、虹软科技等;在芯片方面,森国科、地平线、寒武纪等厂商等都发布了智能驾驶相关的芯片产品。
3、新零售:
想象一下,当你走进一家门店,从你进门的那一刻起,你的人脸就被识别出来,显示你是第几次光顾。在购买过程中,你的购买行为被实时记录下来,系统将通过你的行为建立你和商品的关联,而在刷脸结账的时候,你的人脸则显示着消费金额。未来,计算机视觉赋能的新零售将潜移默化地改变我们的消费习惯。
如果说安防是计算机视觉最大的落地场景,那么新零售则是最有潜力的场景之一。从供给端看,计算机视觉公司在安防等重要的市场面临着几乎红海化的竞争,零售场景尚未形成巨头。
从需求端看,线下零售市场规模庞大,存量改造需求突出。据国家统计局的数据,2018年全国线下消费品销售总额达到38.1万亿元,远高于线上的9.01万亿元。五年来,新开业的购物中心仍然呈现逐年上涨的趋势。极速发展的线下零售店对前来购物的消费者知之甚少。
基于计算机视觉的智能方案则可以帮助商场分析人流,了解用户购买习惯与购买行为,建立商场、货物和人的智慧连接,让线下零售拥有和线上一样的效率。
海外的亚马逊率做了尝试,在美国开了第一家无人零售店AmazonGo,在160平米的空间布置了上百个摄像头等,并配合红外感应器与重力感应器,全程通过机器完成对用户购物行为等的扣款。
在中国,计算机视觉在零售场景的落地主要有两大方向,一是商汤、旷视、依图、瑞为这类的视觉计算公司和商场、品牌方合作,另一类则是阿里巴巴、每日优鲜等基于此类技术打造的3D智能货柜。
4、广告营销:
当你正在观看综艺选秀节目中,一位肤白貌美的美女旁边突然闪现出雅诗兰黛美白保湿精华的购买链接,你有没有兴趣点开?
智能广告平台正在做这样的事儿,他们将计算机视觉技术同视频平台的内容进行结合,产生视频内的广告位,供广告主和代理商进行投放。
如今,广告营销是计算机视觉技术应用中仅次于安防的使用场景。在众多内容平台中,计算机视觉技术主要应用于视频广告中的广告营销,即用计算机视觉技术创新视频广告的生产模式,实现精准化的场景营销。
传统的贴片广告和植入式的广告通常需要在前期同综艺节目和影视剧沟通,广告效果的好坏取决于其收视率的高低,在广告制作环节,则需要耗费大量时间和人力,工序繁琐,最后呈现的效果也未必能够同当时节目中场景贴合,CTR(点击通过率)不高。
(图为综艺节目中嵌入的广告)
结合了计算机视觉技术的智能广告平台则可以在有空余广告位产生时供广告主投放,降低植入的门槛,与此同时,广告制作的工时也极大缩短。在广告效果上,由于和场景精准结合,创意性的广告通常不会影响用户的观看体验,广告的点击通过率也会极大提高。
从2013年至今,中国网络视频广告市场一直保持平稳快速的增长,从2013年的不到100亿元,增长到2017年的463亿元,年增长率达40%以上。
视频广告的高速发展,为计算机视觉的创意营销提供了广阔的发展空间。Video++极链科技、影谱科技、Viscovery、Yi+、视连通、周同科技等创业公司纷纷崛起,其中影谱科技已经完成了13.6亿元D轮融资。
5、金融领域:
计算机视觉在金融领域的应用对于广大民众并不陌生。在银行开卡等身份认证环节,越来越多的金融机构要求人脸认证,在一个摄像头里点头、摇头、张嘴、眨眼,你就能快速完成身份的认证。
计算机视觉在金融领域的应用主要体现在人脸识别上,伴随着识别准确率的上升,远程开户、人脸支付、刷脸取款等开始被银行和金融机构所采用。
传统金融机构使用人工肉眼判断、短信验证、绑定银行卡等手段进行识别认证,准确率不高,用户体验差,成本高。而基于人脸识别的实名认证则可以极大提升准确率,通过快速的认证速度和较少的操作保证了客户体验,同时相比于传统认证方式又有成本低的优点。
目前,人脸识别在银行等机构的应用包括1:1的身份核验以及1:N的刷脸取款、支付等。其产业链的环节包括:私有云部署、智慧网点改造、自助机具改造、网点VIP改造等。按照全国2000多个银行、信用社的数量和40万个网点的规模计算,金融领域人脸识别的市场规模将达到数千亿。商汤、旷视、云从、依图等人脸识别公司已经成为在金融行业应用较早且较成熟的企业。
6、消费电子:
当人脸被纳入到人机交互的范畴中后,我们用人脸实现手机的解锁开屏、App支付已经司空见惯。解锁、支付、美颜、增强现实、立体成像等手机功能,都是计算机视觉的重要应用场景。
计算机视觉厂商和手机产业链的合作主要体现在两个环节:
1、在芯片环节,由AI架构设计商独立或者和传统芯片厂商合作提供AI芯片;
2、在集成环节引入专业的AI算法提供商,提供美颜、人脸解锁等功能。
我们可以简单估算一下计算机视觉在手机市场的发展前景。
TSR数据显示,2018年全球智能手机摄像头的出货量41.47亿颗,按照14.049亿的全球手机出货量计算,则平均每个手机搭载2.95颗。假定手机出货量在2020年保持稳定,按照90%AI功能的渗透率和1.05元(数据来自红软科技)的摄像头价格,那么在2020年,该行业的国内市场规模约为48.85亿元。
目前国内和手机厂商合作的公司有商汤科技、旷视科技以及科创板公司虹软科技。
我们在接下来的章节中将逐一分析这几家企业。
国内公司:
根据国际调研机构GenMarketInsight发布的《2018年全球人脸识别设备市场研究报告》,2023年,中国将占全球面部识别市场份额的45%,成为面部识别技术领域最大消费者和提供商。
1、“CV四小龙”:
根据IDC中国的统计,2018年下半年,中国计算机视觉市场主要是由商汤、旷世、依图、云从加上其他小玩家构成。商汤科技占比最高,市场份额达23%。其次是旷视科技,市场份额为20.6%。
商汤、旷世、依图、云从,这四家从计算机视觉起步的公司,也被业内称为CV(ComputerVision)四小龙。其中,商汤科技成立于2014年,最早脱胎于香港中文大学人工智能实验室,成立5年,共完成9轮融资,融资金额达22亿美金;旷视科技成立于2011年,2019年在港交所上市,成为AI公司上市的第一股,估值45亿美金;
云从科技成立于2015年,它脱胎于中科院的人脸识别研究团队,2018年,云从科技完成了B+轮融资,其中包括中国国新、广州产业投资基金、上海联升资本等地方政府基金和国有资本。与此同时,云从科技也是唯一一家同时受邀制定人脸识别国家标准、公安部标准、行业标准的企业。这让其成为人工智能企业中不折不扣的国家队。
依图科技成立于2012年,截至2018年6月,依图完成2亿美元C+轮融资,估值突破150亿元。
(图为CV四小龙概况)
从上图盘点可以看到,四家公司在应用场景的落地上极其相似,都以目前比较成熟的市场——安防和金融为主,其合作伙伴上也有重叠的地方,可见四家企业竞争的激烈程度。
在收入上,除了商汤没有披露外,根据财报信息和媒体报道,可以看出其年收入位于十亿上下。
以旷视科技为例,旷视科技018年的营收为14.17亿,这同年营收近500亿的海康威视、79.17亿年营收的科大讯飞比还有很大差距,不过也远远高于虹软科技4.58亿的年营收(数据均为2018年)。
而在盈利能力上,旷视科技的毛利率则高于海康威视和科大讯飞,在成长性上,从2016年到2018年,旷视的营收分别为6778万、3.13亿、14.27亿,复合年增长率高达358.8%,远高于海康威视的增长速度。这也能解释为何资本市场愿意不断投资给以旷视为代表的计算机视觉公司。
面对同质化的市场竞争,四家公司都往产业的上下游延展、打通。比如,在最近的安博会上,依图就重点展示了云端AI芯片“求索”的落地,旷视则重点推出城市物联网操作系统,推动其在更多场景的落地,商汤也提出智能城市操作系统,希望打通业务需求与模型生产的闭环,并协同云、边、端全技术栈的能力,满足智慧城市全场景应用的技术需求。
2、“海大宇”:
从设备生产起家的传统安防企业也一直在积极拥抱深度学习和计算机视觉技术。典型代表就是海康威视、大华股份、宇视科技,三者被业界称为“海大宇”。
其中,海康威视成立于2001年,2010年在深圳中小企业板上市交易,总市值为3017亿元,大华股份成立于2001年,2008年在深圳中小企业板上市交易,总市值为479亿元,宇视科技成立于2011年,2017年以37亿人民币100%的股权被千方科技收购,与千方科技完成智能安防与智慧交通的整合。
根据2018年财报的年营收状况可以看出,三家公司在安防市场拥有行业领先的地位,其中,海康威视更是其中的龙头企业,在全球的视频监控市场占有22.6%的市场份额。前不久,美国商务部产业安全局(BIS)把8家中国科技企业加入“实体清单”,海康威视、大华股份赫然在列,一定程度上反应了其在海外市场的占有率。
不过,从营收的同比增长率来看,三家公司从2012年到2018年,都出现了增长率的下降。这跟商汤、旷视、华为等企业进驻市场,抢占份额不无关系。
在盈利能力上,从三家公司的毛利率来看,海康威视的盈利能力是最强的。
而我们将2018年海康威视的毛利率和同期的人工智能其他公司——科大讯飞、旷视科技、虹软科技相比,可以发现,海康威视的毛利率却是最低的,而提供智能手机AI解决方案的虹软科技则以94.29%的毛利率遥遥领先。这可能跟传统安防企业本身的硬件成本有关。
如今,海康威视正在打造人工智能生态圈——AICloud,希望吸引更多开发者和客户使用。
3、BAT:
在巨大的市场面前,自然少不了巨头的身影。利用数据优势和丰富的应用场景,BAT通过建立研究院、收购投资、推出相关业务等方式,进驻新赛道。
百度在2013年成立百度深度学习研究院,2014年将斯坦福大学人工智能实验室主任吴恩达招致麾下,展开了语音、计算机视觉、机器学习等多领域的研究。
2018年,百度将包括人脸识别、文字识别、图像审核、图像识别等五大类、58项基础能力全线开放。据媒体报道,共有20万的开发者在使用百度的计算机视觉能力。
作为补充,百度在2017年还全资收购了专注机器视觉软硬件解决方案的美国科技公司xPerception,将其核心团队纳入百度深度学习研究院,加强视觉定位与构图的研发。
在产业落地上,百度的一大重要落地应用就是自动驾驶汽车项目——Apollo,随着ApolloRobotaxi在长沙的落地,百度的自动驾驶从以往的封闭路段的测试,真正进入开放道路上的商业化载人应用阶段。
(图为长沙市民体验ApolloRobotaxi)
阿里巴巴在AI的布局则是以云计算为基础,从2015年开始,阿里云陆续推出AI产品,包括语音识别、图像识别、视觉识别等领域上百款细分产品,适用于数百个场景。
2017年10月,阿里巴巴宣布成立全球研究院——达摩院。其研究领域涵盖量子计算、机器学习、视觉计算、芯片技术等多个领域。
在资本布局上,“CV四小龙”中的商汤科技、旷视科技、依图科技背后都站着阿里巴巴的影子。在投资后,阿里巴巴旗下的业务也和独角兽们展开了合作。
腾讯的AI研究更多是和自身业务的结合。腾讯的AI研究部门有:技术工程事业群旗下的腾讯AI实验室、社交网络事业群旗下的腾讯优图实验室、还有微信事业部旗下微信模式识别中心以及微信和香港科技大学的联合实验室。
除了将技术研究和自身游戏、社交、内容等业务结合,腾讯的几大实验室还向微众银行、公安厅等零售、医疗、工业等领域输送AI能力。
国际公司
1、谷歌:
谷歌是人工智能最无法绕开的巨头。人工智能第一次为大众所熟知就得益于谷歌旗下Alphago与韩国围棋选手李世石的人机大战。谷歌于2015年开源的TensorFlow已经成为机器学习的主流工具,截至2018年已经被下载3000万次。
谷歌在人工智能的研究世界领先,计算机视觉领域同样如此。2018年谷歌发布了面向开发者的CloudAutoML,目前支持计算机视觉模型,开发者只需要上传一组图片,导入标签或者App创建,就能自动生成一个定制化的机器学习模型,在一天内训练完成。
谷歌还推出了计算机视觉模型——MobileNetV2和MorphNet,其广泛应用于学术界和工业界。后者提出了一种有效的方法来学习深层网络的结构,从而在计算资源有限的同时,改进图像和音频模型上的性能。
2、亚马逊:
提到亚马逊的人工智能,你的第一个反应可能是亚马逊旗下搭载Alexa语音助手的Echo智能音箱,该音箱以每年千万的销量牢牢占据美国智能音箱市场的第一名,市场占有率高达70%。但你可能不知道,亚马逊在计算机视觉领域同样布局良久。
最明显的一个例子是亚马逊在2016年推出的AmazonGo无人零售店,这家零售店用摄像头代替了店员,顾客用手机扫描后进店,摄像头则追踪顾客拿走的货物,并自动进行结算。AmazonGo目前在美国只有四家分店,三家在西雅图,另一家在芝加哥。亚马逊没有透露这种识别的准确率,不过亚马逊在无人零售的探索,开创了计算机视觉场景落地的新空间。
(图为AmazonGo线下无人零售店)
在后端物流市场,计算机视觉也被用来提升仓储物流效率。往常,物流人员将物品放到货架上,需要扫描下物品和货架,完成其定位,以便找到该物品的位置。现在,计算机视觉和机器学习引入后,工作人员只需将货品摆放到相应的位置,电脑记录下其位置,机器人将顺利找到它们。
除了在自身业务中用到计算机视觉技术,亚马逊还将AmazonGo、Alexa等人工智能和机器学习技术集合亚马逊云——AWS中。作为基于云计算的存储和服务器业务,AWS已经成为很多公司和开发者的标配。
3、微软:
微软的人脸识别技术为大众所熟知得益于2015年火爆社交群的应用——How-Old.net,用户通过上传自己的自拍照,就可以看到软件猜测出的年龄。该应用是微软Build2015开发者大会的衍生品,据说由两个工程师用两天的时间,基于微软Azure云内认知服务FaceAPI等API识别照片中的人脸和特征,实现了整个应用的功能。小小产品背后,体现了微软在计算机视觉领域的技术积累。
(图为How-Old.net官网)
微软在上个世纪90年代就成立了人工智能实验室,研发语音识别和计算机视觉技术,发表论文数百篇。2015年,微软亚洲研究院的研究员们基于残差学习,将深度提升到152层,凭借深度神经网络带来的准确识别能力,微软在ImageNet大规模视觉挑战赛中以绝对优势获得图像分类、图像定位以及图像检测三个主要项目的冠军。
How-Old.net流行之后,微软开始推出其他基于计算机视觉技术的应用,包括帮你找到和你长得相似的明星的应用CelebsLike、鉴别狗狗品种的应用Fetch、识别表情并用相应emoji表情代替的FaceHero等。2015年5月初,微软正式公布了牛津计划(如今已融入微软认知服务中),将基于云端的与计算机学习相关的智能API、SDK和相关的服务提供给开发者。
除了将技术产品化,微软还围绕超十万加的合作伙伴,将打造的AI基础设施、技术和应用赋能给他们,从而形成一个微软AI生态圈,并帮助合作伙伴实现AI的普及化。
4、Facebook:
在社交巨头Facebook上,每天都会产生百亿条信息,数十亿张新图片。这为计算机视觉研究提供了巨大的数据量和算法基础。
Facebook在2014年成立人工智能研究小组(FAIR),研究成果不仅获得多项计算机视觉顶尖会议的论文奖,也同样支持着无数Facebook的系统,例如帮助视障人士自动替代文字和检测劣质内容的工具;Facebook上的AR功能和Portal中的智能相机也起源于FAIR的研究,目前,这项研究仍在继续,但重点转移到了视频领域(https://github.com/facebookresearch/DensePose)将帮助系统理解视频内容和照片。Facebook还将众多模型进行开源,帮助众多开发者进行图像识别等的研究。
(图为Facebook收购的计算机视觉公司一览)
除了内部研究,Facebook还通过投资和收购的方式布局相关技术。据不完全统计,Facebook从2012年开始,以投资或收购了7家计算机视觉相关的公司,帮助其在视频、直播、电商、VR等业务的技术优化。
如前所述,在计算机视觉的商业具备了技术基础、领先公司将研究开源之后,中外各家公司在技术上的区别已经在缩小。当前所面临的大考,已经变成如何将技术在各个场景中进行落地,背后则是各个玩家对于垂直细分领域的理解与耕耘,这是一场考验综合实力和耐力的持久战。在接下来的报告里,我们将着重分析安防、零售、房地产等具体场景的智能化革命。