编者按:本文来自微信公众号“全媒派”(ID:quanmeipai),36氪经授权发布。
7月22日早晨九点,程序员小肥羊起床后开始刷微博,发现手机屏幕被疫苗二字占领了。
数十万支不合格疫苗,这一数量直击小肥羊的内心。它们都销往了哪些省份?能追踪这些疫苗的流向吗?小肥羊尝试用百度搜索疫苗完整的流向,却发现只能得到零星的信息。
出于程序员的职业敏感,小肥羊觉得自己“对于数据的完整性有一种天然的追求”。
亲自动手整理了2017-2018年31个省份第二类疫苗(第二类疫苗是公民自费并且自愿受种的疫苗,比如甲肝疫苗,流感疫苗和狂犬病疫苗)的完整采购情况,他写成了广泛传播的《我花了14个小时找了一下长春长生们究竟卖到了哪里去》。
全媒派采访了这名代号为小肥羊的程序员,听他讲述自己运用数据收集分析的技巧,在疫苗事件中担任“调查性记者”的体验。
盛夏,广州,周末的早晨。
微博的页面上,一条条尽是关于疫苗的愤怒和恐慌。
不合格疫苗都流向了全国哪些地方?小肥羊想看看长春长生的官网上有没有政府采购记录,但映入眼帘的却是官网被黑的页面。
居然拿不到完整的采购数据,他想到各地政府会公示每年疫苗采购的情况,如果把各个省份依次下载整理,也可以汇总出一份不错的数据集,而且疫苗来源还可以拓展到长春长生之外的厂商。
窗外下着雨,“没有什么地方可以去,又找不到人可以聊天”,小肥羊决定待在家里开始收集数据——这是他的习惯,遇到重大社会事件时,小肥羊会尝试收集相关的数据,一方面为了满足自己好奇心,另一方面他也借此锻炼自己提取信息的能力。比如,他曾编写了程序,用来梳理全国的莆田系医院分布情况,最后做成可视化图表。
小肥羊当时把莆田系医院分布的文章发在了自己的公众号上,两年过去了,阅读量刚刚破百,他只将其当作自己的练手。
抱着这种佛系心态,小肥羊一个人坐在电脑前,开始逐个翻阅各政府的采购记录,试图整理出完整的疫苗流向表。
从家乡广东省开始,他非常顺利找到了政府的疫苗采购记录,编好了第一部分的数据。接下来的情况却出乎意料——
明明是公示的数据,有的省份却需要登录认证后才能查看;
有的省份的公示网站上,有搜索框,却无法按搜索键;
有的省份声称建立疫苗追溯信息系统,但小肥羊却发现计算机专业的自己都不知道具体怎么追;
还有的省份怎么也找不到免费开源的数据,最终,小肥羊在百度文库找到疫苗采购表,花了19.9元下载。
7小时过去,小肥羊搞定了大部分省份的疫苗采购表,但山东、青海和西藏的数据怎么也找不到。
接下来的时间,小肥羊开始数据清洗,将下载的数据转换格式,便于后续统计整理。
整理好,大致把各省采购疫苗最多地方厂商进行了排序,再打到地图上,小肥羊做了这张可视化图表。
看到眼前的成果,小肥羊终于松了一口气。他把数据整理的过程和结果大致描述,和之前那篇莆田系医院分布的文章一样发在个人公众号里。
天色已暗,小肥羊看了一下时间,从早上9点到晚上11点,一共14个小时。“整天下来,什么东西都没吃,很饿,写完之后好难受。”
气愤而疲倦的小肥羊决定向读者们强调一下漫长的工作时间,想出了《我花了14个小时找了一下长春长生们究竟卖到了哪里去》的标题。
照理说应该一键获取的完整数据,花费了一整天的时间,发完公众号的的小肥羊还是觉得不解气,决定把这件事发在程序员的代码分享平台Github上。
“整完之后觉得花这么长时间有点夸张,就把这个过程记录一下,想呼吁大家一起看看还能怎么做。”
很快就有程序员在Github上回应,帮小肥羊完善了数据。接着,这些数据出现在了微博,小肥羊看着自己的成果被一个接一个的大V转发,兴奋不已。发在公众号的文章被大号转载,小肥羊创造了人生第一篇10万+。
这也算是小肥羊实现了自己的心愿。今年二月,小肥羊写下《1600和10W+的区别》:相同的主题、相似的内容,自己写的文章阅读量1600,而大号发的文章分分钟阅读量破10万,小肥羊记录了当时的心理落差感。难以料想的是,不足半年之后,他竟也体验了一把站在10万+之巅、欣赏微博里“技术就是战斗力”“要嫁给程序员”这种评论的感受。
随着阅读量飙升,微博和大号的评论区都出现了质疑的声音。有的质疑信息来源,有的将内容误读为“程序员追踪问题疫苗”,小肥羊感到心累,他在正文前解释自己没有用爬虫来获取数据,而是手工搜索,还列出了搜索关键词清单。在展示数据前,小肥羊把重要的事情黑体加粗说三遍:
他再三强调自己采集的是各省采购涉事企业所有的疫苗的信息,而非仅仅是问题疫苗。
网上断章取义的解读让小肥羊很慌,甚至一度“觉得自己要被抓起来了”。一夜成名让小肥羊激动,但随之而来的烦恼也让他感到:这篇文章如果仅限于程序员内部的交流,麻烦会少很多。“大多数的公众看不懂这篇文章,因为我本身也不是写给公众看的。我是写给程序员、做数据分析的人看的。”
疫苗事件最热的几天一过,新的话题又占据了公众的注意力。关于疫苗的讨论不再那么热火朝天,但小肥羊没有停止他的疫苗数据收集工作。
第一个14小时里,他只统计了涉事药企疫苗被采购的情况,而小肥羊的计划是把各省的第二类疫苗采购情况完整地统计出来,让人们能够轻松查阅。
接下来的四天里,小肥羊每天下班后的时间都献给了搜集和整理疫苗数据,直到他把 31个省份共计3197条采购第二类疫苗公示数据统计完,完成《我又花了28个小时分析了一下各省二类疫苗采购公示数据》,才感到轻松了些。
不过,这并非故事的全部。
手里拿着数千条数据的小肥羊不想让这些成果被闲置,就开始动手制作一个疫苗查询的小程序——让用户能输入疫苗名和所在地,一键查询疫苗批次。不过,还未等完工,小肥羊就看到支付宝推出相似的疫苗查询工具,止步了尝试。
小肥羊制作的疫苗查询小程序测试版
那段时间,与疫苗事件同步升温的还有对调查性记者的讨论,微博、公号文章里,人们怜悯调查性记者遭遇不公,哀叹调查性报道走向寒冬。
小肥羊不认为自己是个怀揣所谓新闻理想的人,“对媒体的兴趣我没有,因为这个已经属于梦想的阶段,但我现在还在为生活奔波,还没到那个层次”,但他发现,如果利用好自己的技能,完全可以有所为。“很多东西可以在网上拿到数据,通过关联和对比是可以知道一些情况的,不需要记者再那么深入地去卧底做这种危险的事情,也可以拿到一个结论。”
这个观点指向了调查记者的外包团队——随着媒体环境愈发严苛、大型事件愈发复杂、读者对新闻呈现方式的多元化要求变高,调查报道已经不仅仅意味着记者的调查、采访和写作了。很多获得国际大奖的调查性新闻报道将数据采集、处理、可视化呈现等工作交给外包团队,通过更为专业的处理使新闻报道拥有更好的说服力和呈现形式。
从爆发至今,疫苗事件已过去了一个月。被转发、热议一度给小肥羊带来了不少兴奋与紧张,但之后的生活平静如初。他继续以小肥羊为名在公众号写文章,接受采访。和记者讨论起调查记者和外包团队的合作时,他深深意识到程序员很多时候并不属于重大场合,而他愿意通过数据关联、可视化一类的工作,参与到重大事件的调查之中,在愤怒和焦虑之外,为进步作出一丝贡献。