这是一个人人都想成为今日头条的时代。
今年5月,第四范式上线了针对媒体提供的Feed流技术产品,四个月后仅这个垂类的客户量从1家增长到200家。
内容个性化推荐只是AI落地应用中的一个小切面。整个商业世界的运转链条正在迅速AI化,以搜索和推荐算法为主的AI科学家成了炙手可热的岗位。就在几年前,这批科学家还不好意思自称是做AI的,大多会对外说个“最优化原理”之类的模糊说法。
但如今,第四范式创始人戴文渊看到了以往被抑制的千奇百怪的需求释放出来:从地铁零部件检查、节约电力、广告营销、到金融反欺诈……
他认为三五年内AI落地会在各个行业全面爆发,不过他觉得这个速度太慢了,更重要的是,目前AI的落地场景只集中在少数能聘的起AI科学家的高精尖行业,比如无人驾驶。未来,听上去很晦涩的深度学习应该像今天的App开发一样普及。
“App爆发是因为有大量开发者,但在AI领域,如今有个说法,做AI要请个科学家,这说明AI的门槛太高了,太小众了。小场景有用技术提升效率的需求,但是养不起贵的人,没人做开发。”戴文渊希望那些做网站、App开发的人也能转向AI开发,但这一切的前提是降低AI技术门槛,以及提升AI的运作效率。
所以他在2015年成立了第四范式。
这家公司的定位,简单说是一家平台型的AI技术服务商,通过提供AI引擎、API接口等底层技术降低AI的使用门槛。按照戴文渊的设想,AI真正普及后的状态,是客户根本不需要知道什么叫深度学习。所以第四范式选取的路线并不是以深度定制和应用为主,而是做平台。第四范式的业务模式有两种,一类这对核心客户直接提供服务,另一类针对中长尾客户,提供引擎,由ISV这类合作伙伴来为落地端做应用。
这种商业路径的选择跟他在百度的工作经历相关。
2009年至2013 年,戴文渊曾是百度最年轻的百度高级科学家、T10级员工,担任百度凤巢(基于百度搜索引擎的营销系统)策略的技术负责人。当时作为科学家的戴文渊为了理解业务,花费很大精力把自己变成了广告业务专家,但他意识到对于AI在垂直行业的普及,深度定制是一种效率不高的生产方式。不如把整个平台技术产品化,集中效率,让一套东西服务不同的应用。让不懂深度学习的开发者也能做出个今日头条。
“这听上去有点天方夜谭,但其实是可以实现的。训练机器就像训练小狗那么简单,需要客户定义好目标,然后给机器设定好行为和反馈,收集数据,然后抽离出规律和算法,”戴文渊对36氪说。
至于门槛能降低到什么程度?迄今为止,第四范式接过最小体量的客户,只有两个人规模,是一对夫妻开的摄影工作室,用第四范式的API结构做了个AI客服。戴文渊告诉36氪,通常而言,经过两至三周的学习周期后,用户就可以进入做应用的阶段,实现相对快速的接入。
据第四范式方面称,目前公司的客户集中在金融、能源、安防、医疗、媒体、制造、零售、互联网等垂直领域,总数超过2000家。
36氪:用机器去写规则、推演出规则和算法的逻辑,跟人类自己去写规则有什么不同?
戴文渊:其实没有什么不一样的,人写规则的方式也是发现规律。比方说在百度上搜索干洗的人,95%以上会选择干洗店,而不是去买一台干洗机回家,于是程序员就可以去编写一条规则叫“搜干洗的人只准给他看干洗店,不准给他看干洗机”。甚至我们还可以做得更加精细,比方说去看搜干洗之前搜了什么?搜干洗之前,如果搜的是吃饭、看电影,应该给他出干洗店,如果搜的是店铺租赁,很多人最后的诉求是搜干洗机。这就是生成规则的过程。
而机器写规则的做法,也是从数据中发现规律,把它提炼出来,变成规则,区别只是更加精细。因为人会受到精力的局限性,写一万条规则已经非常辛苦了,而当我们开始千人千面的提供服务,即要从每个人身上提取出不同的规则,这个规模是以亿为计了,只能交给机器去做了。
36氪:相对于人工写规则,机器写规则在效率上、譬如同等工作量下时间周期的提升能到什么程度?
戴文渊:首先还不是时间周期的问题,是规则的数量。人工写规则通常在几条到几千条不等,我见过最多的是上万条规则,而机器可以很轻松的去写上千万条以上的规则,我们做过的最大规模的能达到几千亿条规则。
36氪:能编写的规则量级的大幅度增加,对于商业落地场景意味着什么?
戴文渊:提升的是准确度。就比方刚才说干洗那个例子,如果用户搜索干洗只能呈现洗衣店的结果,那么有一批先前搜索过店铺租金其实想搜索洗衣机的人就没有人满足。如果你能做得更细,你就可以去服务的更好。
36氪:无论今日头条推荐文章,或者电商个性化推荐,今年千人千面在各个行业的落地趋势非常明显,作为第三方服务商,你如何用技术定义垂直行业中那些复杂的、关于人性的,难以量化的部分,专业地把它们转化成规则和算法?
戴文渊:这些不同场景的需求叫做深度定制,我自己从2009年开始(在百度)干深度定制的事情,技术人员需要和业务需要结合的非常紧密,我甚至花了很长时间把自己变成了一个广告专家,但有一个很大的问题,生产效率是提不上去,因为既能做好AI科学家,又能做好业务甚至工程的人非常非常少。要大面积推广AI,需要减少AI在垂直领域落地的前提条件。我们想建立一个平台,让垂直领域的业务人员,甚至没有学过计算机的,也能做出一个“今日头条”,而不需要理解什么是深度学习。这是可行的,把计算机当成小狗一样教,关注“行动”和“反馈”两个要素。比如推荐文章是个行为,用户看了就是反馈,金融反欺诈交易,通过了就是反馈。我们发现绝大多数的普通开发人员、业务人员,都是可以理解并掌握这个交互过程,然后去各行各业去产出新的解决方案出来。
36氪:这种训练机器的反馈需要一个标准,第四范式的团队跟客户是什么样的协作模式?
戴文渊:很重要的一点是客户一定要知道他想要干什么。比方说他想要去降低风险,降低坏账率,使得营销的效率提升,让医疗诊断更加精准,这个需要客户定义好,这个目标定义完了以后,他要能够非常清楚的知道行动和反馈是什么,然后把数据给到计算机。
第四范式的任务是让客户不需要感知到深度学习,我们做AutoML,就是深度学习上面所有需要人去定义或者调优的参数,各种设置和网络结构,让客户感受到机器不断的反馈。
36氪:在第四范式,做技术研发和产品化的人是这样的比例?
戴文渊:第四范式现在有600多人,我们保持超过半数的人是做产品化的,其实做应用就是背离了我们的初衷,如果我们做应用,其实不需要创立第四范式这个公司,我可以跳槽去各个公司去做各种各样应用,但效率就是这一个团队只做一个事情。只有把整个平台技术产品化,才是集中效率,用一套东西服务不同场景的应用。
36氪:一份招聘网站的数据显示,今年对搜素和推荐算法的需求量很旺盛,很多做内容化和社区化的公司都在招聘做AI算法的人,你怎么看待这种需求的爆发?
戴文渊:用信息流做内容能够兴起的原因是手机里空间太小,屏幕太小,但内容太多,要更好的利用空间,放尽量多的内容,用Feed呈现是一个必然的趋势。我们有将近200家媒体客户,他们的诉求就是把自己的网站、App、小程序改造成今日头条的样子,个性化推荐。
36氪:这种需求的爆发是从什么时候开始明显出现的?
戴文渊:其实早就有这个需求,只是早年间被压抑的需求,在头条起来之后,媒体都意识到了,背后的逻辑原理大家都想得明白,问题是怎么去实现。当我们提供了这种服务以后,其实媒体客户数量是涨得非常快的,我们大概是今年5月份开始推出,5月份之前只有少量的实验客户,您可以理解大概5月1号之前,我们可能有那么一个两个客户,到现在已经有将近两百个客户。
36氪:除了内容推送和金融反欺诈,在哪些领域会落地得比较快?
戴文渊:AI的应用大体来说遵循了一个趋势,首先会在获取数据代价比较低的行业,比如广告,只要用户看一条广告就获取了一条数据。第二会在犯错误代价低的场景,比如新闻客户端。只不过在2013年之前(这一年今日头条上线)大家没有理解到新闻客户端分发的商业价值。再之后爆发的是金融,医疗,随之犯错的代价也更高了,甚至无法衡量。
但今天要解决的问题是AI落地太慢了,很多场景没有覆盖到,有种说法当你要做AI需要请一个科学家,但你做个App就不用,这说明AI的门槛太高,科学家意味着一定是小众的。只有当AI被广泛的开发者在开发的时候,AI才能够像今天的APP那样爆发。其实我们经常会看到一些千奇百怪的需求,绝对不是今天我们在讨论的无人车,人脸识别,语音识别这些。
36氪:千奇百怪的需求,比如呢?
戴文渊:高铁晚上是会12点以后就不运营了,因为需要巡检去发现是否有零部件坏了,如果有坏掉的,就会输入型号让总部调过来,但你知道型号填错的错误率是多少吗?50%。所以我们通过AI帮他们解决问题,比如让巡检人员拍个照,人工智能去识别型号然后发给总部,做个这样应用。又比如在金融机构填写汇票的票据,其实是需要人工录入电脑的,工农中建每家银行大概3000-4000人干这个无聊的事情,也可以让AI做。有很多这样的需求,但是为什么今天科学家都在做无人车?因为大场景才养的起贵的人,但同样需要技术去提升效率的小场景没有人做。所以我们希望帮助原来做App开发、网站开发的人,也能去做AI开发。
36氪:根据第四范式的发展节奏,哪些目标是今年一定要实现的?
戴文渊:我们今年有一个非常重要的一个目标,是为业界培养一千个AI的开发者,现在应该差不多完成了。但是其实一千个是远远不够的,这个行业我觉得至少得要一百万个以上。
36氪:今年有一种说法,AI公司之间的算法在商业竞争中已经够不成门槛了。你怎么看这种观点?
戴文渊:其实永远都会有门槛的,因为AI是一个利润中心,而不是成本中心的生意。什么叫成本中心?就是原来我们做一个网站,如果我投入一百万,能把这个网站做下来,并且它稳定运行,那么我第二年想的事情就是怎么把它节省到50万,第三年想怎么节省到25万。而AI是另外一个逻辑,就是今天我投入100万,可以给这个公司创造一个亿的利润,然后明年如果我投入200万呢。所以即便说今天有说AI算法门槛已经不高、代价不大的说法,但我们还是会愿意去研究一个更一流的,代价更高的算法,只要它能赚得回来。AI是一种武器,打仗没有哪家军火商说我的武器造成这样就够了。