编者按:本文来自第一财经日报,作者:钱焜 胡军华 戴智盼,36氪经授权发布。
上海地铁的平面广告,一年四季都在变换,手机广告一直是主角之一。2017年的手机广告,逆光、夜景拍照成为诉求的焦点,像素的高低之争慢慢隐退。
手机配上摄像头后,在最近十几年的时间里,摄像头的像素从30万到100万、200万、500万到1000万,直至有超过2000万像素的摄像手机的出现;摄影功能日渐强悍的手机首先让傻瓜相机销声匿迹,而家用数码相机的市场也被日渐蚕食,岌岌可危。
像素越高,手机功能越强大,但是在手机像素越过2000万门槛之后,各大手机厂商比拼像素量级的游戏玩不下去了。
在美国工作多年的资深视频处理专家单记章告诉第一财经记者,单个像素的尺寸从2004年的5.6微米,越做越小,现在已经达到1微米的极限,在手机有限的物理空间里,靠扩充像素提高图像质量基本上走到了尽头。
摄像头在硬件上碰到天花板后,要让竞争持续下去,视频技术公司开始在软件和视频数据处理优化上为手机公司找到产品新的卖点。
摄像头的老故事
摄像头的运用最早是在电脑上。现任黑芝麻智能科技有限公司(下称“黑芝麻”)CEO的单记章经历了摄像头从电脑运用到手机的完整周期。
“当年,我们的产品上市了,从刚开始卖得不错到无人问津,不过短短几个月的时间。”回忆起17年前在硅谷的工作经历,单记章很是感慨。
彼时,单记章所在的Omnivision(豪威科技)正在尝试将摄像头放入电脑中,以供消费者拍照并分享。
电脑摄像头市场却没有预期的火热。单记章告诉第一财经记者,PC端摄像头遭到冷落,主要是因为当时的网速太慢,照片无法传出去、无法分享。“所以我们考虑转战移动端。虽然速度也不快,但至少(手机)是能传出去的。”
2000年9月,日本手机制造商夏普发布了世界上第一款带有摄像头的手机J—SH04。而Omnivision正是这款手机的供应商之一,虽然那时的摄像头仅有11万像素而已。
虽然Omnivision在2000年上市之后铁马轻骑,在行业中做得风生水起,连续多年排名全球第一。不过,对于单记章和他所在的手机摄像头团队而言,其实并不轻松。“那个时候并不确认这个市场,随时担心这个市场会死掉。”单记章透露。
就这样持续了几年之后,iPhone的兴起吹起了市场上的第一缕风。单记章向记者对比了当时的出货数据,“之前的市场上,我们的出货量只有1k+1k;后来就变成了一天3kk,一年相当于十亿颗。”(编者注:1k为一千,1k+1k是两千,1kk是一百万)据介绍,Omnivision曾在全球图像传感器市场占有高达40%的份额。
市场研究机构IDC最新预计,2017年,全球智能手机的出货量将达到15亿部,到2021年,预计将增长至17亿部。
每一部智能手机基本上都有几个摄像头,仅仅手机对摄像头数据处理的需求,就是一个无比庞大的市场,单记章选择离开Omnivision,而当年的中学同学刘卫红离开一家世界500强企业,选择与他一起创业,图像市场的巨大前景是至关重要的一个考虑因素。
入局掘金
摄像头背后的图像传感器与应用处理市场,并不仅仅是局限于手机领域。随着人工智能产业的发展,从图像的获取、传导到计算、理解、反馈,再到应用层面的仓储物流、智能驾驶,围绕在摄像头身前身后的生意模式正逐渐走来。
所谓的图像感知,是人工智能的一个重要细分领域,是计算机对图像进行处理、分析和理解,来感知并识别不同的目标。简而言之,就是让机器看到并读懂这个世界。摄像头的普及应用正是图像感知产业的前身。
单记章表示,人的眼睛接收了70%的信息,机器亦然。
和单记章一样,敏锐的企业家们小心翼翼地打量着这个庞大的市场,试图从各个垂直领域切入,寻找着更进一步的可能。
1682亿元成交额、8.12亿物流订单,刚刚结束的2017年天猫“双11”刷新了去年创造的6.57亿的物流订单量——在这巨额订单量的背后,正是由于物流行业普遍实现了智能分单替代人工,效率和准确性大幅提升,才使得整个仓配和分拣环节更加游刃有余。
图漾科技正是其中几家物流企业的供应商之一,他们提供的深度摄像头可以帮助企业将不同大小的包裹分门别类。“深度摄像头相当于机器的眼睛,可以测量出包裹的长宽高。再配合电子称重机,便可以按照它们各自的尺寸来归类。”图漾科技的副总经理徐韬在接受第一财经记者采访时表示。
除了在物流领域,图漾科技也在为安防、体感娱乐、工业智能等领域提供解决方案。与之类似的是,单记章和刘卫红也看到了同样的机会和痛点。据了解,黑芝麻已经与国内一些手机设计公司共同量产推出双目摄像头。
平安证券发布的《人工智能图像识别专题报告》(下称“报告”)显示,截至2016年初,在所有AI领域的企业中,聚焦于图像感知的公司数量总计有185家(包括通用层和应用层),仅次于最火的机器学习。而其截至2016年初的累计融资总额更是超过了11亿美元。
第一财经记者梳理发现,在前端捕捉深度信息,后端处理并理解复杂数据,最后反馈从而进行决策,成为图像感知产业活动中的一个循环。
正是在这样一个循环流程中,诞生了大量初创企业,它们以自己掌握的硬件或算法为核心,提供软件或软硬一体化的产品,以期撬动产业金矿。
比如,同图漾科技一样,海康威视也推出其工业级的相机产品;旷世科技、商汤科技则更加聚焦在人脸识别领域,提供各类解决方案;以色列企业Mobileye则在高级辅驾领域更加得心应手;黑芝麻也将结合他们在图像和机器学习方面的产业经验和技术实力,做出更优化的视觉感知方案,从而达到使移动智能应用、高级辅驾甚至自动驾驶等更易于被终端厂家接受的目的。
报告显示,2020年全球生物识别市场规模将达250亿美元,5年内年均增速约14%;而机器视觉也将在2018年达到50亿美元的市场规模。
从捕捉到理解
刷脸支付、机场自助通关、物流自动分拣、无人驾驶等都是图像感知技术快速普及的一个缩影。在这样场景的背后,是越加成熟的技术和越发准确的识别率。
据第一财经记者了解,在ImageNet比赛的图像识别中,对象分类项目的准确率已经从2010年的72%提升到了2016年的97%。那么,如此之高的准确率是如何实现的呢?
无论是深度摄像头、AI芯片,还是基础算法、神经网络,在图像感知产业链上,一切都是为了两个目的而服务的:更好地在前端捕捉深度信息,以及更准确地在后端处理并理解数据。
“如果前面获取的图像已经坏了,或者糊了,那后方如何针对图像进行分析呢?”单记章问道。
的确,在图像捕捉的过程中极容易受到外界的干扰与影响,较上述物流领域更为复杂的情况比比皆是,比如自动驾驶:需要应对山洞内外的不同光信号强度、车身抖动甚至极端的雾霾及雨雪天气。“晚上很暗,雨飞来飞去、雨刷刮来刮去,这个时候怎么看清楚;大太阳照在摄像头上,人眼都看不见,这个时候又如何判断。这些都是图像捕捉中的难点。”单记章表示。
此时,就需要加强数据的预处理,其目的就是加强有用的信息,改善图像质量,便于对图像进行后期的处理分析。单记章透露,悬挂的摄像头容易来回晃动,他们曾做过一个防抖的优化方案,不仅增强了画质,还提高了设备的使用寿命。
另一方面,相比前者捕捉图像需要应对各种突发因素,后者的处理分析看似更加简单。但往往这种情况下的计算更为复杂。
单记章告诉记者,刷脸技术用人工智能、神经网络来做,识别率都能达到99%以上,很难出错。但是很多技术无法抵御蓄意的攻击,比如让机器判断是真人、照片还是视频或者模型。这时候,如何实现生物特征的判断非常重要。
比如,当开车遇到前方有物体时,在判断该物体的车道、速度、方向等因素之外,还需要判断这是个路桩,还是辆车,或者是个人。“复杂环境下,需要对场景进行理解,是人是车结果一定是不一样的。”单记章称。
正因如此,这样的计算和处理需要争分夺秒。黑芝麻方面表示,由于大量数据是交给机器来计算处理的,尝试通过算法将数据量压缩到之前的1/10,保证实时上传的速度。
不过,传送到云端做出决策再反馈,不仅需要消耗大量的时间,发生意外情况的概率也俨然不小。所以,将大部分数据前置到端来进行处理计算成为图像感知产业中的突破点之一。徐韬告诉记者,大量的计算需要在获得图像信息之后在端上直接完成。
“今后的处理方式一定是云与端的结合。”英特尔中国研究院院长宋继强对第一财经表示。
超越硬件
手机摄像,这个2000年被夏普打开的市场需求,在技术的不断发展下一发而不可收:2002年,诺基亚7650搭载了30万摄像头;2005年,索尼爱立信K750i将像素提升至200万;2010年,iPhone面世,其后置摄像头拥有500万像素;随后,技术开始井喷,800万、1300万、2100万,短短几年内摄像头的精度越来越高。
但是好景不长,科学家们发现,要在有限的手机物理空间中再次提升画面质量,似乎有些困难。于是,双摄像头方案被发现。在这个方案中,软件算法为其最终成像效果提供了强有力的支持。
“比如,在夜晚的环境中需要多帧曝光,要把好多帧叠加起来,但是又不能简单叠加,因为你的位置是始终在移动的——这样的设计原因,硬件已经难以做到了,必须依赖算法去处理。”单记章说。
事实上,在图像感知领域,硬件的难以突破由来已久,即便是在整个人工智能的发展历程中,硬件的计算能力不足始终是制约其发展的瓶颈之一。可可资本合伙人李笙凯在接受第一财经记者采访时表示,虽然深度学习和GPU的利用对视觉硬件的处理计算能力有很大的提高,但怎么进一步提高到可用的程度,市场上还始终没有明确的解决方案。
“如何应对不断上涨的计算量是图像处理中最难的部分之一。”徐韬向记者透露,960P的深度摄像头如果想要更进一步做成1080P的话,换一个基础摄像头其实并不难,但精度的提高将导致计算量的大幅上涨,把握如此之高的计算量才是难点。
单记章对此表示认同,他认为这是一个系统工程,一方面要提高硬件的计算能力,提高算法的适应能力,同时也需要有创新的整体解决方案。他以不同时间开车为例,“在傍晚时太阳平射过来,摄像头需要减少光强和炫光,而晚上又需要尽可能接受最多的光,还要解决对面大灯的照射问题,这里就需要结合光学、摄像头和图像处理技术,在此基础上采用机器学习的方法,才能从系统的角度更有效地解决端的计算能力不足的问题”。
另一方面,单记章认为,现阶段的很多硬件在物理上已经达到极限,难以升级,比如图像传感器。“由于载体本身的大小限制,摄像头需要做得很小,这就导致传感器的感光点也越做越小。有人研发还在做0.9微米,但这个性能已经很差了。靠这些东西提高也会有一定的空间,但是真的非常难。”
“当然也有另外一条路,比如利用不同的技术原理。”单记章笑道。不过他认为,这样需要的时间太久,在企业层面需要大量的资金和时间投入,并不合适初创企业做这样的事情。
更为严峻的是,业内诟病已久的成本过高也一直难以找到解决方法。李笙凯告诉第一财经,“比如高精度摄像头和多线束激光雷达等传感器,其部件成本是近百万的。这也成为制约自动驾驶技术落地的因素之一。”
“图像感知技术正处于发展阶段,还有很长的路要走,比如软件算法也还需要5~10年甚至20年的积累突破。”李笙凯对记者表示。他认为,行业的技术壁垒和应用壁垒一直都存在,市场的完全爆发还需要两到三年的时间。
不过,也正是因为存在这样巨大的发展空间,潜力才得以凸显,可能才得以孕育。这些在行业中耕耘多年的从业者,他们拥有最专业的眼光和最敏锐的嗅觉,有心证明他们的坚持并非一场豪赌。
是不是豪赌无从得知,但正如李笙凯对当下的判断:优化已有的技术,以满足市场的刚性需求,是这个行业最困难的痛点,亦是最敞亮的通道。