关于大数据算法,有一个经典案例是这样的:明尼苏达州一家塔吉特门店被客户投诉,原因一是位男子指控它将婴儿产品优惠券寄给他的女儿 —— 一个高中生。但没多久他却来电道歉,因为经他逼问后女儿坦承自己真的怀孕了。塔吉特百货通过分析用户所有的购物数据推断出了事情的真实状况。
上面这个故事的要义在于:大数据比你更了解自己。这也正是 Nerd —— 一款 “绝对让你惊喜的” 读物推荐应用 —— 的理论基础。首次注册 Nerd,你可以选择用 SNS 账号登陆,并被邀请回答几个看上去有些 “不着边际” 的选择题,比如:你使用的手机品牌是什么?你每天工作几个小时?你电脑的操作系统是什么?接下来,Nerd 会基于对你性格模型的分析,推荐适合你阅读的书目和文章,每下拉刷新一次即可获得一个新条目。点开具体书目,可以看到哪些名家推荐了这本书,还可以选择“想读”、“读过”、或 “询价”,并跳转到电商网站下单。
“大数据挖掘”,“个性化推荐” 的概念已经被炒了很多年,并且在电商、音乐(如虾米)、新闻(如今日头条)等领域都有了相当成熟的应用。仅就图书领域来说,豆瓣读书的 “喜欢XXX的人也喜欢” 功能就是个性化推荐最广为人知的例子之一。同样是做读物推荐,Nerd 的推荐机制究竟是怎样的,和其他网站有什么区别?Nerd 创始人韩杉给我详细解释了其中的逻辑。
Nerd 要做的事情是个性化连接人与书,在你甚至不知道自己对某本书可能感兴趣的时候,biu 一下把它推到你眼前,使用户产生 “惊喜感”,进而更容易产生阅读、购买等行为。这件事说神婆一些,叫“预测人的喜好和行为”,科学一些,叫“基于大数据挖掘的精准推荐”。要做好这件事,就需要理清几个问题:人和书的数据分别是什么?两者的匹配模型是什么?
韩杉告诉我,Nerd 算法机制中 “人的数据”主要有三个来源:一是上面提到的邀请用户回答的几个精心设计的问题;二是绑定社交网络账号后,对其个人资料、评论转发、好友关系等信息的抓取;三是用户在使用过程中点击、标记、试读(和当当合作,功能即将上线)等行为。“书的数据” 则来自对互联网信息的广泛抓取,值得一提的是,这些数据指的不单是书名、简介、分类这种表面信息,更是书的内容(比如描述方法、难度等级)、推荐人、书评这样的深层信息。
匹配模型方面,Nerd 使用的也是目前主流的“基于模型的协同过滤”,即不断用数据为每个实体塑造出一个尽可能准确的 “多维向量模型”,并将 “人的模型” 和 “书的模型” 根据相似度进行匹配。在主流框架之内,Nerd 的推荐模型也有自己的特点:在初始数据的获取中,豆瓣的做法是让新用户选一些感兴趣的话题,然后生成一系列初始值;今日头条则是通过绑定微博账号,获取用户在社交网络中沉淀的信息;Nerd 则是先在整个互联网中抓取外围数据,预先生成几百个人物模型,并在用户注册时抛出那几个精心设计的问题,根据答案 “激活” 相应的人物模型,力求让没有产生使用数据的新用户也获得不错的 “惊喜度”。
对 “引入外围数据可以在多大程度上提升推荐准确度” 这个问题,技术界目前仍有争议,不过可以确定的是,对校准模型最有效的数据,仍是用户在站内产生的使用数据:是否产生点击、页面停留时间多久、是否进行了试读、试读之后的操作...... 每次的点击对完善模型来说都是最直接的数据,因此和其他个性化推荐应用一样,用户使用越频繁,Nerd 的推荐就越精准。
抛开推荐算法这样的技术性问题不说,在产品形态上,Nerd 作为一款小而美的应用,还需要做很多改进,才能做到让用户 “爱不释手”:
今日头条张一鸣曾表示,希望从个性化推荐文章发展到基于共同兴趣的社交,再发展到连接个性化服务。在一个信息过载的时代,这种个性化“入口” 渐渐变成一种强需求。而 Nerd 以图书为中心,未来也可以将推荐拓展到音乐、电影、甚至商品的范畴,不过这个因为 “爱看书” 而走到一起的小团队,在打造 “入口” 这件事上注定会有自己的风格。
Nerd 上线不到一个月,注册量过万。团队此前获得了 100 万元种子轮融资,正在寻求天使或 pre-A。
感谢我司计算机大牛李立和 Retric 对本文的贡献
重要的PS. ^_^ Nerd是36氪创业课堂KrLass第一期的学员,KrLass——Kr Lesson As Startup Service,不只是一堂创业课,更多详情请关注微信号:krlass