首页 >热门资讯> 图像影音设计 > 【Pre-B】计算机视觉之后再无搜索 >

【Pre-B】计算机视觉之后再无搜索

转载时间:2022.07.10(原文发布时间:2014.12.24)
39
转载作者:36氪企服点评小编
阅读次数:39次

【Pre-B】计算机视觉之后再无搜索

站在风口上,做猪都可以,但下一个风口在哪呢?比尔·盖茨给出的答案是:计算机视觉(computer vision)与深度学习(deep learning) 的结合。2014年 6 月中旬他来北京,去的第一家创业公司就是做计算机视觉的。

这家公司叫格灵深瞳。今年 6 月刚刚获得来自红杉的3000万美元 A 轮融资。据说最近还有投资人想要以数亿美元投资B轮。

让计算机看懂世界

迄今为止,影像是容量最大的信息载体。几千年前,人类发明了文字,记录了语音;二百年前,人类制造了相机,保存了图片;直到最近几十年,人类才发明了动态图片,也就是影像、视频。

但是人类要想完全提取、“读懂” 影像中的信息,不是一件容易事。看电影时,你盯着男女主角谈情说爱,注意到背后的房子是什么颜色了吗?我们总是一心二用,看电视时玩手机又会错过多少信息呢?爆炸的信息以影像的形式被储存时,人类还有能力整理、检索这些信息么?

救世主是时候出场了。

计算机视觉要做的很简单,让设备拥有“眼睛”和“大脑”,像人一样看懂世界。眼睛好办,有摄像头,可是机器没有大脑,这就麻烦了。上世纪60年代,研究人员就开始尝试给机器装“大脑”。有了计算机越来越强大的运算能力做基础,也可以支撑各种先进的深度学习算法了。

计算机视觉一直是人工智能领域里最活跃的部分,指纹识别、掌纹识别、 人脸识别都属于其应用。

但它一直有两个流派。十几年前主流的观点是,凭借着原有的二维摄像头和强大的算法,就能完整还原真实世界。格灵深瞳联合创始人、CTO赵勇,和他当时在布朗大学的导师就不这么看,“现实世界是三维的,使用二维摄像头怎么可能展示真实的世界呢?”因此,二维摄像头基础上完成的视觉分析,也会大打折扣。

赵勇的离经叛道,让他在十年后成为格灵深瞳创始人。回国创业之前,赵勇在谷歌研究院担任过高级研究员(Google research Senior Scientist)。Google X是全球最酷的实验室,Google Glass、无人驾驶汽车、长生不老计划都在这里,赵勇曾是最早提出Google Glass计划的三人之一。

当科学家遇到企业家

格灵深瞳的CEO何搏飞和赵勇完全是两个世界的人。

2013年4月,blackhawk前总经理何搏飞离职,回中国寻找创业伙伴。同时,赵勇也在谷歌内部寻找合伙人,有两名工程师一度非常热情加入其中,但最终反悔。

两个失落的人在投资人徐小平的撮合下,在北京北四环破旧的一栋居民楼里见面了。科学家与企业家从下午聊到凌晨2点。科学家给出了80个计算机视觉可以应用的领域,企业家想在这里试试做第一个将计算机视觉商业化的公司。

最初他们想到了将线下的零售“电商化”,让传统零售像阿里、京东那样拥有用户行为数据。但这需要大量的训练数据完善算法,赵勇和何搏飞要寻找人最多、影像最多的领域。

天安门广场人最多,摄像头也最多,每天产生的监控视频数据,刻成光盘摞起来,比埃菲尔铁塔还高。这些数据被用于安防,全球 50% 的硬盘都用来存储监控视频了。而且安防领域好赚钱,何搏飞给出的数据是,去年中国智能手机的销售额是 3200 亿,而安防设备的销售额则达到了 4000 亿。

视频监控一直以来的两大难题是看不见、找不着。装有几百个摄像头的区域,最多只有几十个监控屏幕轮番播放,监控人员往往看不到异常画面;过后从海量视频中寻找到需要的画面又很难。

计算机视觉正好可以解决。格灵深瞳通过三维摄像头和视觉感知技术,可以跟踪人物运动轨迹、检测动作姿态,发现异常主动预警、报告,保障安保人员“看得到”。同时,可以把个人的行动轨迹作为时间线,进行监测、跟踪、搜索,真正做到“找得到”。

大市场加海量的数据库,似乎短期内格灵深瞳已经可以高枕无忧了。不过,天有不测风云。一项关键传感器是由PrimeSense生产的,2013年11月 PrimeSense被苹果收购,其对外授权的技术都会在 2015 年终止。

当晚,听到消息的赵、何二人都蒙了。“我们第一时间想到的是囤货,还得安抚员工”,何搏飞如是回忆,“那个时候,我和赵勇才真正理解了合伙人这个词的意义”。后来,他们找到了新的替代传感器。

左手开放、右手封闭

格灵深瞳找到了一个千亿级市场。今年 10 月,这套安防产品已经布局了,四大国有银行中的三大首批试点。

按何的说法,这么优质的计算机视觉技术局限于安防大材小用,所以他们要以安防产品为基础做开放平台。

其实,安防市场也不好做。传统的安防公司已经占据了大部分市场份额,格灵深瞳作为创业公司进入很难。安防市场又相对封闭,拿到了天安门广场的全部订单,其它广场还是得一个一个谈。另外,安防的产业链条长,从传感器、存储器的采购到元件的集成,都需要长期的积累。

格灵深瞳真正的强项是识别算法。最佳做法是把安防识别的方案整合出来,做成模块化方案,开放给厂商,做一个“封闭的系统,开放的产品”,既不用与安防厂商竞争,又能获得海量的数据。试想下,未来如果全国大部分的监控屏幕的背后,都有格灵深瞳的安防识别系统,即使人们都不知道格灵深瞳这个品牌,又有什么关系呢?

这是第一步。下一步格灵深瞳要做“封闭的系统,开放的平台 ”,进一步将计算机识别技术模块化,开放API接口。赵勇当时想到了80个可能应用的领域,但计算机视觉的应用很可能有八千甚至八万种,以众包的方式开放技术,就能孕育出来更多有趣、有意义的项目与产品。格灵深瞳要做的,就只有不断升级自己的技术,最终做成一个“开放的系统,开放的平台 ”

不过,要做开放平台,也没有那么容易。首先自己技术要够好,能够抽象出模块化的东西,才能开放API接口。 从成立至今,外界不少人质疑过格灵深瞳的技术。作为CEO,何搏飞也清楚这一点,坦言现在的技术还需要持续优化。

格灵深瞳已经实现的技术,从微观到宏观主要有四个层次:手表和人脸识别、肢体识别、个人和个体轨迹识别、人与人之间的关系与互动。现阶段个体轨迹识别已经做成了完整的产品,并被运用在了银行安防领域。手部、肢体识别,预计明年春节后也能成熟。在公共场所,人脸识别并不适用,1%的误识率也许意味着上万人被误认为坏人,现阶段还没有很好的解决方案,仍然在研究当中。人与人之间的关系与互动,则是格灵深瞳未来最想解决的问题,人在网上形成的数据都已经很有价值了,那人在世界上形成的关系数据的价值就难以想象了。

这四个方向都很热门。比如人脸识别,Face++就做得小有名气。BAT也在尝试,但没有对外披露细节。

开放平台,还得让开发者足够放心。在国内,BAT做,开发者自然信赖。但由一家才创办两年的公司来做,就难以服众。这也是格灵深瞳先从安防入手,做封闭系统的原因吧。毕竟,苹果每次发布新产品、新功能,也会提前找到靠谱的开发者,让消费者能第一时间体验这些新特性。

这些都还是围绕着人展开的。技术成熟了,格灵深瞳还可以做车。车是人行为的延展,举个简单的例子,司机的心情就会影响司机的开车行为。关于汽车识别,格灵深瞳内部已经酝酿了好长时间,现在有可能会去做,具体如何操作,还在探索。汽车是第一个真正意义上的机器人,汽车相关的市场也是一个大市场,当人的出行方式改变,人的行为就会发生很大改变。从人延展到车,这其中的想象意义就很难简单的衡量、评价了。

在中国,人工的成本越来越高,机器的成本越来越低。也许有一天,我们就会像日本一样,汽车廉价,但打车就要付较高的成本了。当这两条成本线相交时,即使不考虑商业模式,也能看到经济价值了。

下一个大脑?

第一次听到有投资人想要给他们数千亿美元B轮融资,我和我的小伙伴们都惊呆了。资本的寒冬即将到来,这样的声音不绝于耳。不少做技术的公司,鲜有投资人问津。成立不到两年的格灵深瞳,就有可能跨进10亿美元俱乐部了。这也难怪,计算机视觉是个技术活。利用资本的力量,聚拢最优秀的计算机视觉大牛,人就是最大的竞争壁垒,后入局者很难有超越的可能了。

不过,何搏飞告诉36氪,他们现在并不急着拿钱。创业就像是一场马拉松,节奏很关键。有人担心口渴,早期拼命喝水,最终可能也不会有好的成绩。资源也许同样重要。格灵深瞳已经在做物理世界人与人的关系了,未来如果能打通虚拟世界的关系,这其中的想象空间就很大了。而最终,格灵深瞳想做一家伟大的人工智能的公司。

要成为一家伟大的人工智能公司,就要在广度上影响到尽可能多的人,在深度上对单独的个体产生足够的影响与价值。Google、苹果、百度、阿里、腾讯都是这样的公司。只是现在的互联网已经很难再出现这样的公司了。互联网这一波的技术革命已经在要走完历程,新的技术革命即将开始了。

关于技术革命,Chris Dixon有这样一个观点,技术革命一般要经历两个主要阶段:安装阶段和部署阶段。每一次革命均发端于金融泡沫,从而(不合理地)推动了新技术的快速“安装”;然后泡沫破裂,紧接着是恢复期;之后,随着新技术更广泛地“部署”到其他行业及社会,进入到很长一段时间的生产力增长期。最终这轮革命走完历程,新的技术革命又开始了。

安装阶段是打基础,部署阶段则是在基数之上做各类实际应用。安装阶段向部署阶段转化的过程中,会涌现出大量的创业活动。比方说,在汽车革命的安装阶段,其中的活动是造车。而在部署阶段,活动则转移到了应用层:高速公路体系,运输、城镇化、大卖场等。我们最熟悉的信息技术领域,安装阶段大家做的是信息网络的核心技术设施,比如芯片、网关、TCP/IP协议,成就了思科、IBM、Intel、微软;部署阶段则是搜索(Google)、社交(Facebook)、电商(Amazon)。

如果下一次信息技术的革命是人工智能的话,那么现在格灵深瞳做的就是人工智能技术的核心技术设施。上一波的核心技术设施建设过程中,涌现出了一批像思科一样的大公司。现今,Google、Facebook、Amazon我们如数家珍,思科更多的是以一个大公司的形象存在我们的记忆力,但这并不能代表它不伟大,它也依然是一家数千亿美元市值的公司。我们今天互联网的一切,很大程度上就是得益于思科这样的公司。

格灵深瞳能否成为下一个思科,这还真不好说,风还没有起来,技术革命也只是刚刚兴起。一切都还是未知数。唯一能确定的也许只是计算机与人工智能的大潮了。如同当年信息爆炸,现在的视频领域也以指数速度增长。也许很快有一天,现有的技术就已经无法满足视频搜索的需求了。以传统方式处理视频的公司,也许会像当年的门户一样衰败,而以视频搜索见长的公司,会成为新的弄潮儿。

也许,在未来,我不用搜索视频,我所需要的一切,都能自动出现在我眼前的屏幕上。而格灵深瞳,就是背后的那个大脑。从此,世界再无搜索,但背后搜索无处不在。

该有的都有了,你想要看创业资讯,你想要分享,想看视频,想来活动现场,下载36氪iOS客户端,即氪触达。

[免责声明]

资讯标题: 【Pre-B】计算机视觉之后再无搜索

资讯来源: 36氪官网

36氪企服点评

图像影音设计相关的软件

大厂都在用的图像影音设计软件

限时免费的图像影音设计软件

新锐产品推荐

消息通知
咨询入驻
商务合作