编者按:10月11日,美国著名创业企业孵化器 Y Combinator 在其博客上发表了《超级APP 今日头条背后隐藏的力量》一文,系统地梳理和回顾了今日头条五年内成长为中国热门应用的历程,并分析其在产品和技术方面的成功之道。
Y Combinator 成立于2005年,目前为硅谷最具影响力的创业企业孵化器,其每年举办两次的创业孵化营培养出大量的独角兽公司,入选孵化营的创业项目将受到大量媒体关注和资金追捧。截至2017年初,Y Combinator 已经投资了1470家初创企业,所投企业总估值超过1000亿美元,其中的明星企业包括Airbnb, Reddit, Dropbox, Quora 等。
文章作者 Anu Hariharan 是 Y Combinator 一名合伙人,也是今日头条的一名个人投资者。她认为,今日头条的迅猛增长归功于其产品推出伊始制定的众多战术和战略决策之间的交互作用,她称之为“ 头条背后的五大隐形力量”。 全文如下:
爆款APP《今日头条》背后看不见的力量
作者:阿奴·哈里哈兰(AnuHariharan)
卢克·普赖尔(Luke Pryor)和布拉德·莱特凯普(Brad Lightcap)对此文也有特别贡献。
通过机器和深度学习创建并服务于内容,今日头条打造了一款有着社交网络互动属性却没有社交关系图谱痕迹的产品。
《今日头条》可能是你从未听过的最流行的一款app,这是一款类似将新闻推送,YouTube以及TechMeme三合一的产品。在中国,每天有超过1.2亿的用户使用今日头条。然而,关于今日头条最有意思的并不是用户在同一平台上消费如此丰富的内容,而是它提供内容的方式。不依赖用户任何明确的指令、社交关系图谱或产品购买历史,今日头条通过机器学习和深度学习算法,为用户提供个性化、高质量的内容推送。
不仅仅局限于为用户呈上内容,今日头条还通过算法创造内容。在2016年奥运会期间,今日头条机器人撰写了原创新闻报道,在重大赛事报道方面较之传统媒体更为迅速。平均来看,机器人撰写的文章所获得了与速度更慢、成本更高的人工撰写的文章相仿的阅读率(阅读数量和用户印象)。
平均每个用户每天在今日头条上花费的时间超过76分钟——超过了Facebook的平均用户时长[1],是Snapchat平均用户时长的两倍以上[2]。其中一半以上的时间用于观看短视频;加之每天超过100亿次的视频观看量,让今日头条成为了中国的YouTube(当然,今日头条提供的其他一切服务也是如此)。
那么今日头条是如何做到这一切的呢?尤其是在没有像阿里巴巴、百度和腾讯这样的中国互联网巨头打造的大规模消费者平台的基础上?笔者将通过本文探究今日头条如何获得1.2亿日活跃用户。今日头条没有将其增长归结于任何单一因素,而是归功于在其产品推出伊始制定的众多战术和战略决策之间的交互作用。具体而言就是笔者在下面列出的五大优势。尽管“爆款APP”在美国并不常见,但笔者相信,通过分析今日投条这一案例得到的收获和启发,可以为其他人在打造他们自身的产品和平台的过程中提供思路。
背景信息——今日头条是谁?
2012年推出的今日头条使用机器和深度学习算法筛选出用户最感兴趣的内容并将之呈现。今日头条的底层算法通过用户的使用习惯比如点击、滑动、在每篇文章上花费的时间、用户阅读新闻的时段、停留时间、评论、与内容的交互以及地理位置等等来了解用户,但同时并不需要用户的明确指令,并且也不依赖于用户的社交图谱。今天,今日头条通过数以百万计的维度对每个用户进行分析,从而在每个用户每次打开程序的时候生成和推送个性化、丰富的高质量内容。
对于一家初创企业,虽然时机就是一切,但要打造一款高粘性的应用程序,还需要不懈的努力。今日头条的推出时机是偶然的,但对这一独特机遇的挖掘确是有备而来。今日头条发布之时正值中国智能手机使用起飞之际:移动互联网普及率从2010年的几近空白陡增到2014年的65%[3]。
此外,许多大型内容提供商尚未开发移动应用程序或方便移动终端访问的网站,这意味着真正面向移动用户的优化信息和娱乐内容是稀缺的。到2012年中期,中国安卓平台上只有六款主要的新闻应用程序。其中四款是现有新闻门户的直接扩展,移动优化方面乏善可陈,另外两款是完全依靠速度缓慢、毫无个性化的编辑器输入来确定显示内容的聚合软件。此外,微信和微博等中国社交媒体软件难以满足中国受众对内容(文章和视频)的需求。微信是一款信息通讯工具,到目前为止,形成了一个封闭的社交网络(即只能向好友进行内容分享和发布朋友圈)。
今日头条通过打造一款易于使用、个性化、内容丰富且具有高度粘性的针对移动用户优先的应用程序填补了这一需求空白。从一开始,今日头条的操作就非常简单——用户需要做的仅仅是下载一次软件而已,他们不需要创建账户,设置密码,也不需要将其与社交媒体关联(除非用户自愿)或者提供个人兴趣或偏好。该应用程序的简约设计令其操作非常直观,用户不需要任何预先的知识或教程。对于任何应用程序,推进初步的用户交互——从下载到成为日活跃用户(DAU)——都是异常艰难的一步。在这过程中的每一步都有可能因为用户遇到的沮丧、困惑或恼怒而失去他们,着在业界都是稀松平常的事情。
今日头条的名字(中文意思是当日重大新闻)及其应用程序的图标对用户而言非常具有吸引力,从而推动用户数量迅速增长。这也是首款将各类新闻文章聚合在一处的APP。从发布初期开始,今日头条就开始跟踪每个用户的信息——他们的点击、滑动、在每篇文章上花费的时间和地理位置等等,从而为推荐引擎提供支持,这点笔者将在本文后面进行讨论。在推出一个月后,头条已成为不少用户个性化的新闻聚合软件。该产品是当时同类中唯一一款精心设计的产品,此后发展迅速。仅用了四个月便突破了100万 DAU。今日头条在互联网用户的移动时间还尚未被挤满的情况下提供了一些可以“打发时间”的事情。在其发布的第一年,通过对其功能和算法持续创新、迭代和改进,头条几乎每周发布一次更新,从而随着时间的推移,其用户留存率不断提升。
在随后的几年中,对于移动用户关注度的竞争急剧上升——从2012年至2015年[4],中国的移动APP用户数量在三年间增长超过三倍。而头条的早期领先优势意味着,当竞争者涌入之时,它已占据了重要且非常有价值的领地。
下图显示了两个不同用户的个性化推送:
你可以拥有全世界所有的算法,但倘若没有一款高粘性的产品,你就得不到数据,而没有数据,任何算法都不可能让系统进化。马特·特克(Matt Turck)撰写了一篇有关数据网络强大力量的文章。简言之,用户对你的产品使用地越多,他们贡献的数据就越多。他们贡献的数据越多,你的产品就会变得更加智能。你的产品越智能(例如,更好的个性化和推荐),它就能更好地为你的用户提供服务,于是用户更有可能经常回过头来使用你的产品,并贡献更多的数据——从而创造一个良性循环。
通过打造一个高粘性的产品,今日头条从用户处生成交互数据。这些数据被输入到今日头条的算法中,从而进一步优化产品的质量。最终,该公司计划利用这一良性循环来优化他们所称之的“内容生命周期”的每个阶段:内容生成、内容管理、推荐和互动。
创作:
自从书面语言诞生以来,内容创作一直是人类的独家领域,而今日头条似乎正在改变这一事实。今日头条推出了一款名为小明机器人(Xiaomingbot)的人工智能程序,迄今为止已在平台上发布了8000多则报道。小明于2016年奥运会期间首次亮相,其在发布重大赛事报道方面较传统媒体速度更快(大约在赛事结束后的2秒)。事实上,平均来看,机器人撰写的文章的阅读率(阅读数量和推荐数量)与速度更慢、成本更高的人工撰写文章相仿。
下图是由小明机器人撰写的文章截图,报道了2016年奥运会期间安迪·穆雷(Andy Murray)与胡安·马丁·德尔波特罗(Juan Martin Del Potro)之间的网球男单决赛结果。
为了实现这一功能,今日头条必须克服两大重大技术挑战:
首先,撰写奥运会赛事结果的故事需要数据,今日头条从三个来源中抽取:1)奥委会组织的实时赛事比分更新;2)从最近收购的一家图片收集公司获得的图片中获得相关视觉介质;3)监控有关赛事的实时文本评论。公司对四项运动赛事进行了机器人报道——乒乓球、网球、羽毛球和女子足球——从技术角度而言,这些比赛更容易发布赛况报道(乒乓球、网球和羽毛球是“回合制”的比赛,规则较其他运动更为简单,此外,对于女子足球拥有高质量的独家数据来源使其成为第四项报道赛事。)
第二,今日头条必须确定这三个来源的数据如何组合,以确保内部的一致性和故事的相关性。这比第一步访问和诠释数据的挑战更大。任何选定的图像需要与赛事的结果相关,并且还要适合于从评论中提取信息。这反过来要求今日头条的AI团队将自然语言处理能力与上下文图像识别相结合。他们最终将基于语法表达生成的报道模板——从实时文本评论中选择相关句子的排序算法,与图像文本匹配算法整合在一起。该系统还通过卷积神经网络来分析候选图像中的内容。通过使用历史数据进行训练,该模型能够为报道挑选出最相关和最具视觉吸引力的图片。他们还使用序列到序列深度学习算法将现有报道总结成每日新闻精要,并为文章提供更好的标题建议。系统采用递归神经网络来计算句子的向量表示,并将这些句子向量进一步反馈到一个排序模型中,从而为每篇文章提取简明摘要。
通过这些努力,今日头条在里约热内卢奥运会期间发布了450条500-1,000字的机器人报道,这些内容取得了巨大的成功。这些文章的阅率(阅读数量除以用户印象数)与速度更慢、成本更高的人工撰写文章相当。今日头条将这一内容制作能力拓展至体育赛事报道之外,迄今为止,已累计发布了8,000多条报道,并且还在积极投入研究,解决剩下的技术问题,让其作品与人类写手相媲美。
内容审核:
在其早期,“软新闻”是今日头条主要的交互驱动力之一——如名人八卦、流行文化和生活方式等领域的文章。这并非偶然。与通过知名的政府控制的新闻机构发布的官方新闻所不同,软性内容在互联网上通过数量众多的网站发布。总之,没有一个集中的地方可以获得这些内容:搜寻这些消息的用户需要投入大量时间访问不同的站点,并且也不能保证就可以获得他们最感兴趣的信息。今日头条改变了这一局面。通过获取、集中和优化信息发布渠道,它将用户在内容查找上所需要投入的时间降到几乎为零,并且提升了用户发现他们最关心的内容的信心。这一点为用户带来了真正的价值。
内容管理核心需要解决双重问题:除了为用户提供内容外,内容管理人必须找到内容。内容管理人首先需要访问网站,找到信息,并收集相关元数据。其次需要不断更新中央信息库,并创建尽可能多的个性化版本。两者都是过程密集型任务,此时算法比人类拥有明显的优势。在其刚刚诞生的时候,今日头条在这一领域面临的唯一重大竞争来自于由人工编辑处理此项工作的门户网站,而今日头条利用算法,令其在与人类编辑的竞争中取得了重大优势。
该系统以更快的速度处理了人类编辑的工作,这一速度直接转化为今日头条用户的价值。今日头条能够更快,成本更低的收集更多的内容,在一个客户价值与内容质量、相关性和刷新率直接相关的行业中,形成一项巨大的优势。 算法的使用也意味着每个用户都可以基于持续更新的个人信息拥有个性化的兴趣——这是任何人类编辑都没有功夫去完成的事情。
今日头条还使用算法来识别和过滤低质量的内容。一个内容分发平台所分发的内容质量决定了该平台的质量。大规模分发基于cookie偏好裁断的内容(cookie-cutter content)(例如报纸和杂志)时代已成为过去时。在今日头条的世界里,该平台只向用户推送他们感兴趣的内容。虚假报道和垃圾信息是媒体行业的主要问题。今日头条的底层算法使用文本分类算法来确定一篇文章是否为虚假消息,是否是标题党,或不符合今日头条的质量标准。在这方面,今日头条还通过用户版主来标记虚假文章,并聘请人工版主对有争议的报道进行仲裁。
推荐:
内容推荐是今日头条最为人称道的功能,这也是成就今日头条的成功与声誉的大功臣。在内容生命周期这一阶段,今日头条所使用的机器和深度学习算法拉开了其与同行之间的距离,是推动其用户持续增长和留存的关键。
推荐引擎需要解决的问题很简单:什么是平台可以向每个用户推荐的最有可能导致持续交互的100篇文章?这是一个具有重大影响的问题——AI团队已经认识到,100个标题是留住用户的“门槛”(长期内会流失的用户通常在滑过100个左右的标题后活跃度会显著下降,类似于Facebook的“10个好友”规则)。这也是人类并不适合回答的问题:没有哪个人类编辑可以定期、快速地为该应用程序的新用户确定最佳的标题集合。
问题可能很简单,但解决方案却颇为复杂。对于每一个新用户,今日头条要将来自三个关键领域的信号综合起来创建推送内容,以期与用户互动并推动用户越过100条内容的门槛:
用户个人资料:最初基于该应用程序对用户在人口特征方面的了解(年龄、地理位置、性别和社会经济状况)
内容:为理解文章的内容,今日头条通过自然语言处理确定文章是否热门,无论篇幅长短,以及文章的及时性(有些文章有很持久的生命力,有些文章则不然)
情境场景:与位置相关数据有联系的信息(地理位置、天气、地方新闻等)
接着,底层算法必须在用户的个人资料、其个人的内容信息和背景信息之间识别出最强的统计匹配,并且必须持续进行这一操作。这一匹配旨在优化用户阅读(点击次数)的百分比和用户完成阅读的文章百分比(按页面上花费的时间衡量)。当用户首次打开应用程序时,系统会使用个人资料中的基本数据进行匹配:例如,位于硅谷的用户可能更有可能点击有关技术的文章。该系统还确保展示丰富的文章来评估用户的兴趣好恶,这样可以帮助用户发现以前未知的内容并测试他们的潜在兴趣。随着时间的推移,随着该应用程序不断收集用户信息,这些建议进一步得到完善。推荐引擎快速进行学习——对大多数用户来说,不到一天就可以充分了解他们的兴趣(以80%的阅读率为指标)。最终实现的是很高的用户留存率(> 45%),这一数据类似于社交网络,是全球单个用户使用时间最长的应用程序之一。
互动:
随着今日头条的发展,平台上的互动已越发成为其用户价值主张的核心。今日头条并没有让用户自己寻找相关内容,而是使用底层算法来帮助实现有意义的连接。这一点尤其显现在其最新开发的问答功能上。在这一过程中,AI团队的任务是开发一个匹配引擎,将问题提问者与可以回答问题的用户联系起来。今日头条近期在ACL(计算语言学协会)大会上发表了一篇论文,展示了其开发成果。该团队提出的“基于大规模知识库的条件聚焦神经问答法(Conditional Focused Neural Question Answering with Large-Scale Knowledge Bases approach)”在一个由10.8万个问题组成的数据集中取得了75.7%的准确率,较当前最先进的技术(优于记忆网络和LTG-CNN法)提高了11.8%。
今日头条的底层算法不仅创造了更好的用户体验,而且还有助于加强公司的竞争力护城河。更有吸引力的内容和更多的交互意味着用户将在平台上花费更多的时间,而在平台上花费的时间越多,其算法将更为先进。系统越发智能,其分发内容就会越好,从而吸引更多的内容创作者。这反过来又会使更多用户进入平台,由此形成巨大的数据网络效应——系统的功能随着系统规模而呈指数级增长。从其诞生起今日头条一直不乏竞争对手(特别在目睹了今日头条的成功之后),但今日头条推荐引擎的准确性和有效性令对手难以匹及,保证了今日头条持续快速增长。
各类应用程序努力从内容聚合向内容目的地转型的例子并不罕见。然而,从品牌和创意战略来说,这是非常具有挑战性的。下面是今日头条的做法。该公司向平台的内容贡献者输送两大重要利益。
1)通过收入分享机制提供强有力的激励,让作者能够从一开始就获得经济收益
2014年,今日头条推出激励计划,吸引更多内容创作者加入其平台。这些激励包括从提供办公空间、工具、每月最低保障收入等等,前提是他们达到了特定的关键里程碑(例如,发文数量、阅读率等),此外还有货币化的收入共享。今日头条从2014年开始通过广告获利,并让内容贡献者获得收益分享机会。
这是今日头条推出时所基于的功能,但随着公司的成长,今日头条已转型成为更深入的内容生成、消费和连接平台。今天,入驻该平台的头条号账户超过80万个——包括专业媒体机构、博客博主和意见领袖,他们利用该平台与今日头条用户分享文章、图片和视频。通过微头条为更多的用户分享短文帖子提供服务。其结果是,如今的今日头条拥有从新闻到股票,从科技到社交等十分广泛的内容。前20大类账户仅占内容提供的60%,没有任何一项单一内容类别的贡献率超过10%。
以下是用户可以选择的各种内容的示例(屏幕截图仅显示用户可以选择的50多个频道中的40个):
2)与其他平台相比,规模更大更相关的受众为内容贡献者品牌形象的提升带来了立竿见影的效果。几乎所有的内容贡献者都在各个平台上创建和分发内容。但是对于许多内容创作者来说,由于今日头条强大的推荐引擎,他们能够从该平台吸引更多的流量。“欢子tv”是其中一个例子,该创作者在中国乡村制作了有关民间生活和习俗的短视频。他的每条视频平均有70万观看人次,而在他的微信公号中,观看人次不到今日头条的1/40,较之中国其他的平台,今日头条使内容贡献者的长尾更能够无缝地到达最相关的受众。
今日头条并没有呆板地恪守其核心格式(如列表式文章、长文和新闻),当数据建议该平台应拓展其他内容格式时,今日头条迅速采取行动。2015年,中国大多数视频平台都在关注长视频,今日头条增加了视频功能,并开始在其平台上支持PGC(专业生产内容)短视频(通常为1-5分钟)。今日头条注意到,随着互联和基础设施的大幅改善,视频内容的供应在2014年出现了显著增长。此外,今日头条还推出了若干奖励方案,在其平台上推广视频内容创作。这一从文本到图片再到视频的转换与大多数美国平台所看到的转型类似。
此后,2016年3月,今日头条推出了头条视频(现更名为西瓜视频),一个由与今日头条相同算法引擎支持的独立PGC短视频应用程序。与文本内容类似,底层算法根据用户兴趣图谱向用户推荐最相关的视频。今日头条目前已成为 PGC短视频内容的首选平台。今日头条用户在平台上平均每天花费的76分钟中,有一半以上用于观看短视频,每天视频观看次数已接近超过100亿次。
今日头条在短时间内实现了前所未有的收入规模(推出5年, 3年后开始盈利),不可思议的是,该公司是在没有凭借任何社交图谱或产品购买历史的情况下实现这一切的。今日头条目标是在今年实现收入超150亿人民币(> 22亿美元)——这是互联网历史上收入增长最快的APP之一。
在今日头条所作所为中,其中有一个要素是其模式最为核心的部分:善于识别用户想要看到的内容。其商业模式也完美地采用了这样的实力。通过使用在内容定位方面的专有技术,今日头条将相关广告与用户相匹配来产生收入。此举有三个重要的好处:
首先,它减少了创造营收时对用户体验的影响——并且实际上可能还改善了用户体验!通常,用户会将广告视为侵扰和降低其体验的元素,而与用户偏好相符的广告非常少。在提供与用户兴趣高度相关的广告中,今日头条在许多方面担当了产品的发现机制。
二是增加了今日头条可以向广告客户收取的费率。推送广告的核心问题之一是确定如何有选择地将广告置于最具潜力客户的面前,广告客户花费大量时间和资金力求有效地的触及目标群体。今日头条的技术很自然的解决了这一定位问题,代表了一种解决方案,可以为广告客户节省很多费用。
第三,由于今日头条的主要用例是阅读和查阅内容,因此用户更容易看到相关的有针对性的广告,因此广告客户可以使用更多的广告资源。
以上这三个因素的综合结合导致今日头条拥有较竞争对手更高的点击率(CTR)。根据第三方调查数据的估算,今日头条的CTR较同行高出200%。
今日头条正在逐步接近其最终目标,即在本质上消除搜索的概念,成为直接提供超相关聚合内容的提供商。我们在美国看到了很多昙花一现的“内容聚合者”,但是很有可能这是当时时机尚未成熟的商业构想,而更先进的算法将成为其成功的催化剂。Facebook和Twitter都是美国当今新闻消费的主要源头。谷歌是这一领域的另一个巨人。今年7月,谷歌宣布,将在其移动应用中的内容推送增加对机器学习的使用,从而更好地向用户展示跟他们最相关和他们最感兴趣的信息——一种包含所有类型信息的内容推送。
特别感谢今日头条团队,以及沙朗·蒲伯(Sharon Pope),克雷格·坎农(Craig Cannon),索娜尔·乔克斯(SonalChokshi),凯特·马纳拉克(Kat Manalac)和丹尼尔·格罗斯等等几番审阅初稿和提出的建议。
信息披露:作者为今日头条的个人投资者
[1] 资料来源:Facebook2016年第一季度财报电话会议。
[2] 资料来源:Source: http://time.com/4272935/snapchat-users-usage-time-app-advertising/
[3] http://www.businessinsider.com/china-has-more-smartphone-users-than-us-brazil-and-indonesia-combined-2015-7
[4] (https://www.statista.com/statistics/315485/china-number-of-mobile-apps-available/