文|孙然
编辑|石海威
孙达云几乎从不骂人。他长得白瘦斯文,架着副黑框眼镜,一脸的书生气。哪怕跟人争执到脸红脖子粗,嘴里也蹦不出半个脏字儿。
但技术层面上,他可能是研究网络谩骂造诣最深的人。作为知乎第一个社区管理员,孙达云就是那个戴着“认真、专业、友善”的红袖箍,每天浏览着各种嬉笑怒骂的人。几年前他根据知乎站内帖整理出一张表:骂人的方式有上千种,光“SB”一个词就有几百个变体。都是字音字形的变化,再加上方言、小语种,不胜枚举。
从2011年灌水文化的“认真你就输了”,到“丧”,再到如今的“佛系”和“扛精”,孙达云一路看着网络主流文化的演变。
与之对应的,答非所问、评论区水化、回复者阴阳怪气、找到志同道合的人越来越难的情况像病毒一样蔓延开,使一批知乎大V逐渐变成潜水兽,甚至淡出社区。这些负面情绪正在威胁着内容社区赖以为生的根本——那些优秀答主们生产内容的热情。
知乎心理学话题优秀答主曾旻,最近两年已经不太看评论了。
“早期粉丝在1万以下的时候,还常回复,现在14万了,回复不过来了。”另一层原因,评论质量不如当初高了。最近他发了条热帖,评论被折叠了十几条。被机器自动折叠的,通常是非理性又缺乏营养的发泄情绪帖,这不是对知乎社区有价值的内容,同时这种处理也是对曾旻的保护。
2018年,知乎的用户量大幅攀升,从去年底的1.2亿,到今年11月底变成了2.2亿。大量新增用户来自知乎开拓中的三四线城市。跟“小而美”的果壳不同,知乎并不想做乌托邦。更大的用户量,也是它寻求更多广告变现的基础。
新居民和旧居民、专业答主和不专业的调侃者、不同兴趣和表达方式的人,在这座虚拟城市中交汇。多元化丰富了知乎,但也带来了更多潜在的冲突。
社区氛围管理的难度提高了,它要满足的差异化口味也更多了。知乎决定用机器算法解决这个问题:基于算法,志趣相投的人之间被“架起桥梁”,可能爆发恶性冲突的人则会像永不交织的平行线。
习得你兴趣后的机器将决定你会收到什么推送、看到多大的世界,机器也将作为舆论警察,消除城市中的负面情绪和暴力。当每个人都能从获取信息中收获满足感,这座城市才是稳定和繁荣的。
至于算法要如何拯救你于“呵呵”或者“撕逼微笑脸”?又如何实现这座城市的用户和内容分层?以下要呈现的就是这么个故事。
跟其他网络社区相比,如果说知乎上的负面情绪帖有什么特点,那就是骂人不吐脏字儿,以及爱抬杠。
“春江水暖鸭先知,”一位知乎用户发了条文艺帖。不久后,他收到一条评论:“为什么是鸭先知?驴就不知吗?鹅就不知吗?虾呢?蟹呢?跟你说了吗?”
知乎正为此忧虑。杠精引发的憋屈和愤怒,无形中在社区里蔓延。
36氪获得了知乎上被投诉最多的“阴阳怪气”们:
1). 呵呵,就你厉害。
2). 你高兴就好。
3). 你站在道德的高地上就不冷么?
4). 就你懂,可真把你牛逼坏了。
5). 脑子是个好东西,不建议智商太低、听风就是雨的人拥有。
6). 你的答案很有水平!你博士快毕业了吧?
7). 替我向你的体育老师问好,你的语文是他启蒙的吧?
“一个人突然骂你,你顶多呵呵,拉黑就好了,但他一直嘲讽你,你又很不爽。”
孙达云是最早感知到变化的人。过去7年,骂人文化在知乎已经消弭,但今年管理员团队的信箱里躺着大量投诉阴阳怪气的邮件,这让他们很头疼。“我们把底线问题解决的差不多了,不过大家对互联网生态的要求也变高了。”
梁源是知乎书法话题优秀回答者,自称专业杠精,但有趣的是,他也是“阴阳怪气”展的核心策展人之一。
这是个颇为“以暴制暴”的艺术展,展示着各种书法字体写出来的知乎站内的“阴阳怪气”们。
逛到展区末端,一个糖果色的小房间,四角放着音箱,滚动播放着几百种方言录制阴阳怪气。大部分人几分钟就坐不住了,被“杠”了出来。
“梁源们”是知乎一直以来感到自豪的原因——这是一群对社区氛围敏感的人,且参与度很高。
无论看到不好的,还是让他们不爽的,或是不希望出现在知乎的内容,都会点举报。可以说这群用户很不好“伺候”,但他们更乐于生产内容,更重要的是,他们的行为相当于人工标注,为后期知乎算法去学习场景提供了训练样本。
早期的知乎,就是靠用户举报和人工运营,去逐条处理帖子里的情绪毒瘤。
但随着知乎社区的扩大,一二十个管理员运转的人工作业模式很快遇到了瓶颈。如今,平均每天知乎上会产生10万条回答,它们会衍生出50万至60万条评论,这些内容中又有成千上万条会被用户标注为举报。
这意味着,无论处理量,还是处理的时效性,都已经超出人工干预能承受的负荷。
2016年,知乎上线了机器人瓦力。瓦力的任务,是识别并处理那些不友善、辱骂、阴阳怪气、答非所问、色情内容以及知乎不鼓励的用户爆照。
起初,教瓦力识别“不友善”的方式并不复杂。负责瓦力的算法工程师,会根据不同场景,人工构建包含一些嘲讽特征的关键词汇包,输入算法作为一种衡量维度。当检测到不友善关键词,瓦力就会自动折叠答案。
但随着瓦力试图识别反讽评论,也就是所谓骂人不吐脏字的阴阳怪气,关键词法则失效了。讽刺对负面情绪的表达,隐蔽又多变。如果不看上下文语境,人类也未必听得出来。
“比如上文说你数学考了100分,我说你太牛了,那就是赞扬。但如果上文是你数学考了20分,那这就是讽刺。”瓦力的算法负责人刘兆来告诉36氪。
另一个问题是,数学考20分是高是低?对于人类,生活常识会积累起感性的判断。但对于机器,这种价值判断却无从着手。当算法试图识别讽刺,摆在它面前的就是各式各样的场景,和各式各样的价值判断。
知乎现阶段的解决方式,是以超过70%的人都点踩的语句,作为不友善的训练样本。相对于大部分论坛,知乎用户的特征是参与度高,无论内容生产还是评论。类似训练样本需要的人工标注的举报,知乎平均每天会收到上万条。
知乎识别反讽的算法模型
除此之外,机器也有自己的观察维度,数据会揭示一些隐性的秘密。比如相对于好好说话,人们在出言讽刺时总会下意识地更多断句,以及更爱使用问号、叹号。反讽的句子普遍比前者短50%,平均49.642 字构成一句。
又譬如,在正常评论中,平均每个句子包含0.398个问号,但在反讽的评论中,平均每个句子含有 0.773 个问号。
根据知乎提供的数据,6月份瓦力的“阴阳怪气”识别能力上线后,在召回率 25% 的情况下,准确率达到了95%,有效折叠阴阳怪气评论数量25995条。
知乎给了算法一个尺子,去选择折叠什么评论。
这把尺子,最早源于周源等创始人在2011年立下的规矩:认真、专业、友善——好的讨论需要有讨论意愿,认真的态度,要求交流者有一定知识水平和专业能力,而不是泛泛的消遣,且交流过程要友善。
在宣泄和高效获取知识上,知乎选择了后者。这意味着一个职场新人去讲职场成长可能并没有老牌HR专业,没有足够知识储备的音乐人去跨界强答科技话题,可能会被科技圈的人Diss:“不懂可以看,不要乱说”。
相对应的,算法基于这个原则折叠评论,但折叠也意味着未被平台认可的表达与宣泄被堵住了,伴随着治理的可能是情绪和质疑。
孙达云的艰难时刻在2011年至2013年。百度贴吧如日中天,网络主流文化是灌水和屌丝,知乎天天被嘲讽,(你们管理员)做这些东西没用。
“大家都觉得我们太较真了。说生活已经很艰难了,上网就是为了来喷人和发泄的。在知乎禁止的谩骂,然后用户就去其他平台喷我们。直到最近两年大家都不认为发泄是天然正确的,各家的底线都抬高了。”
在言论自由和社区价值观中寻找平衡点,是社区的挑战,但更难的问题是,如何平衡言论自由与社会伦理的价值判断,人们喜欢在知乎上讨论热点,因此这种选择几乎每天都随着热榜出现在管理员的讨论中。
在人工给出原则前,这是算法解决不了的超纲题。
知乎内部曾爆发过一次激烈的争论。一名用户在社区提问:娶媳妇是不是该娶处女?最热的答帖称,谈恋爱一定要跟非处女,结婚找处女。这成了当时争议最大的帖子。
究竟该不该封帖,知乎的全部核心成员挤在三层的会议室里,谁也说服不了谁。正在外地的周源,通过一通电话把决定权给了给孙达云。后者站在知乎的阳台上闷头转悠了很久,转身回办公室写了篇公告——因为涉嫌对非处女人群的歧视,用户被封禁了。
到今天,人工会去定义具体的特征:比如性别、种族、身体特征、肤色可能涉及的歧视,以及定义封建迷信的边界,然后算法依据这套标准来甄别执行,提高社区的运营效率。
2017年,李大任被挖来知乎担任技术副总裁,负责搜索、内容推荐和AI模型。彼时知乎的用户量还没过亿,但处于快速扩张期,传统的社区管理手段已经失效。
各种新的问题出现了,比如提出一个问题应该找谁来回答?相对于只包括200名互联网大V的封闭阶段,人和人之间是陌生和低粘性的;又比如,当用户量扩大,敏感和低俗的内容不可避免的流入社区,知乎需要对每天新增的十几万条信息做识别;再比如,新用户进入社区,会带来新的兴趣,当新老用户话不投机,或老用户发现志同道合者越来越困难,对社区的依赖性就会被削弱。
知乎迫切需要用AI去提升运营效率。这不仅包含社区氛围治理,还需要更加个性化地分发信息,更准确的用户分层,建立一个智能社区。
而如何根据兴趣让用户分层、建立人与人之间的联系,在知乎是个有趣的话题。
李大任曾经问周源,为什么知乎网友愿意把自己的知识无偿的拿出来分享,毕竟分享的成本不低。周源用一个例子回答了他:一个饭桌上有10个人,互相之间不认识,在这样的饭局里,让其他人识别你的往往是你的专业,当有人聊起你的专业话题,你可能就会想介入多聊两句。
按照周源的这种说法,根据不同的兴趣划分,知乎上如今有27万个话题,从互联网网科技、到财经商业、心理学、娱乐、体育、旅游等。但仅根据兴趣领域来给用户分层,并基于此分发信息,还远远不够。
“事实上对不同知识结构的用户,也需要有合理的区分。比如你是业余天文爱好者,我给你推荐一篇非常专业的文章,你会看不下去。但如果你很专业,我给你推送科普文,你会觉得平台推送太水了。又或者有的人不是很专业,在一个很懂行的人的文章下面评论,作者可能觉得前者不懂装懂,那么两边都会受到伤害。”李大任对36氪解释称。
在你看不见的后台,机器用一套权重体系定义着你在各个领域的专业程度。不过用户的认识水平和知识结构可能随着时间变化、升级,因此知乎的算法也需要实时追踪用户的水平。
一套专业的兴趣探测模型会承担这个任务。比如当机器给用户推荐了一次专业性很强的文章,你点击、收藏或评论就属于体现了兴趣的正向反馈,如果反馈,可能就会过一段时间再做类似推送尝试。
同时,在知乎这座虚拟城市中,每两个居民之间会基于兴趣偏好、个人在知乎的行为以及社交关系的向量,被计算出一个亲密值。亲密值的范围在负一到正一之间。知乎算法会计算两个陌生人之间产生连接的概率,然后通过推荐等手法让他们相遇。但当用户之间爆发过谩骂冲突,亲密值偏向于负一一极,算法就会尽量降低他们相遇的概率。
而当两个亲密值高的用户之间出现讽刺和调侃,未必会被机器定义为阴阳怪气做处理,这就像日常生活中真正亲密的好友,会出现善意的互损。
孙达云至今还记得成都场“阴阳怪气”一进门那股火锅底料味儿。它来自门口一副用密密麻麻的辣椒铺成的巨大的 “能杠”二字,字形粗旷。
制作它的艺术家,事先跑去菜市场买了两麻袋辣椒,混和着火锅底料,用胶水粘在写好的字形上。热辣辣的辣椒糊在手上生疼,就像平时发帖被怼的火气从心里移到了手上。
这幅字挂了半个月,辣椒逐渐噼里啪啦往下掉,最后只留下描着字形的淡淡的影子。
这是个隐喻。但愿知乎里那些“杠”和“怼”也是这样。