编者按:本文来自微信公众号“伯凡时间”(ID:bofanstime),作者吴伯凡;36氪经授权发布。
如今,我们时刻都暴露在互联网的“第三只眼”之下:购物网站监视着我们的购物习惯,搜索引擎监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅偷听到人们心中的声音,还能发现人们的社交关系网。
进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大刺激了这些数据“矿工”进一步采集、存储、循环利用我们个人数据的野心。随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式增长。
随着越来越多事物被数据化,决策者和商人所做的第一件事就是得到更多数据。“我们相信上帝,除了上帝,其他任何人都必须在用数据说话”,这是现代经理人的信仰,也回响在硅谷的办公室、工厂和市政厅的门廊里,但是利用数据在进行决策时其实有着极大的局限性。
这正是大数据时代除隐私被侵害之外最令人担忧之处,如果数据真的成为一种判断的主宰,拿来做这样那样的倾向性判定,那么这实际上是数据的一种滥用,它忽略了公平公正和自由意志,也轻视了决策过程的深思熟虑的重要性。
大数据如果应用得当,它是我们合理决策过程中的有力武器,若运用不当,它就可能会带来误导。目前美国有30多个州的假释委员会正在使用数据分析来决定能否保释,越来越多美国城市都采用了“预测警务”也就是大数据分析来决定哪些街道、群体还有个人需要更严密的监控。
这让人联想到《少数派报告》电影中的场景,在那部电影描述的未来中,三个超自然人可以预测人们的动向,罪犯在犯罪实施前就会被逮捕,他们为还没有实际发生的罪行而负责,而少数派报告指的是三个超自然人中的一个做出了跟其他人不一样,但实际上却是正确的预测,这部科幻电影深刻的质疑了数据独裁的合理性。
当大数据成为集体选择的工具时,我们也放弃了作为人的自由意志。大数据的不利影响并不是大数据本身的缺陷,而是滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的,而不是因果性。让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把人的罪责判定建立在大数据预测的基础上是不合理的。
对数据的痴迷不是在大数据时代才有的。美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。
数据不是万能的,数据可以反映趋势和潮流,但它抓不住什么才是“大问题”,也催生不了杰作。卓越的洞察力并不依赖于数据,史蒂夫·乔布斯推出iPod、iPhone和iPad这次产品靠的不是数据,而是直觉----他依赖于他的第六感。当记者问乔布斯苹果在推出iPad之前做了多少市场调查,他那个著名的回答是:“没做,消费者没义务去了解自己想要什么。”
数据也不懂背景。詹姆斯·斯科特教授是耶鲁大学政治学和人类学教授,他在《国家的视角》一书记录了美国政府如何因为对量化和数据的盲目崇尚而让人们陷入困境。比如,政府使用地图来确定社区重建,却完全不知道其中民众的生活状态,政府使用大量的农收数据来决定采取集体农庄的方式,但是完全不懂农业……
政府把所有人们一直以为用之交流的不建全和系统的方式按照自己的需求改造,只是为了满足可量化规则的需要。在斯科特看来,大数据使用成了权力的武器。这是数据独裁放大了的写照,同样,这是这种自大导致美国基于死亡人数而不是更理智的标准来扩大越南战争的规模。
数据还会制造出更大的“干草垛”。这一观点是由《黑天鹅:如何应对不可知的未来》等书作者纳西姆·塔勒布提出来的,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多,这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根“针”被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。
更尖锐的观点是,数据掩盖了价值观念。《“原始数据”只是一种修辞》提出数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。
能源、气象、医疗、购物、旅行、学术、舆情直至宏观政治经济治理,几乎每一个领域都从大数据中受益。而大数据也带来从国家安全风险、意识形态操控,到网络欺诈犯罪、个人隐私侵犯的困扰。尤其是对普通民众而言,人类前所未有地“透明”。
根据相关方面统计,早在2011年,全球网络犯罪在个人隐私方面造成的损失,就能够达到全球经济总量的0.008%-0.02%。而“棱镜门”和斯诺登事件,又提醒我们信息世界的“老大哥”在制造对全球公民进行监视的“数字圆形监狱”。
在这种情况下,我们应该做些什么呢?
数十年来,全球范围内的隐私规范都开始让人们自主决定是否、如何以及由谁来处理他们的信息,把这种控制权交给人们自己手中,这也是隐私规范的核心准则。而在互联网时代,这个伟大的理想往往会演变成“告知与许可”的公式化系统。
在大数据时代,因为数据的价值很大一部分体现在二级用途上了,而收集数据时并示作这种考虑,所以“告知与许可”就不能再起到好的作用了。在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。
未来的隐私法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者如何评估风险、如何规避或者减轻潜在伤害。这将激发创新再利用,同时也确保个人免受无妄之灾。
将责任从民众转移到数据使用者很有意义,理由也很充分,因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估(或者由他们所雇用的专家制定的评估)避免了商业机密的泄露,也许更为重要的是,数据使用者是数据二级使用的最大受益者,所以理所当然应该让他们对自己的行为负责。
此外,与目前大多数隐私保护法所要求的不一样,数据使用者达到了最初的目的之后,法律上不再规定必须删除个人信息。相反,数据使用者被允许较长时间地保存数据,虽然不能永远。这是一个意义重大的变革,因为,就像我们所知道的,只有开发数据的潜在价值,对数据价值进行最大程度的挖掘,近代“网络海军”们才能发展繁荣,并促进自身和社会的同步进步。总之,社会必须平衡二次运用的优势与过度披露所带来的风险。
为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风除和社会价值观的不同。通过这种方式消除个人信息“永久记忆”的恐慌----永不磨灭的数字记录让人无法告别过去,时间限制也激励数据使用者在有权限的时间内尽力挖掘出数据的价值。这就是我们认为更适用于大数据时代的平衡:公司可利用数据的时间更长,但相应地必须为其行为承担责任,以及负有特定时间之后删除个人数据的义务。
除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果,这就使得挖出特定个人与特定数据点的联系变得难以实现并且耗费巨大。
身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来,就像目前我们为程序公司所做的努力一样。如若不然,公正的信念就可能被完全破坏。
通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到我们的未来行为,如果他们单纯依据大数据预测作出这些决策,特定的防护措施就必须到位。
第一,公开原则。因为这将直接影响到个人,所以必须公开来进行预测分析的数据和算法系统;
第二,公正原则。具备由第三方专家公证的可靠、有效的算法系统;
第三,可反驳原则。明确提出个人可以对其预测进行反驳的具体方式(这类似于科学研究中披露任何可能影响研究结果的因素的传统);
第四,最重要的是,要确保个人动因能防范“数据独裁”的危害----我们赋予数据本不具备的意义和价值。
保护个人责任也很重要。假设大数据强烈诱使我们隔离那些预言将会犯罪的人们,以减少风险的名义对其进行不断的审查,如果国家根据“预测警务”算法鉴定某个青少年在未来五年内很可能犯重罪,而派遣一名社会工作者每月定期拜访核查该少年动态,其亲属、朋友、教师和雇主将此拜访视为一种耻辱,那么这就起到了惩罚的作用,对未发生行为的惩罚。
然而,社会越是干预、降低风险的方式取代为自己的行为负责,就越会导致个人责任意识的贬值。主张预测的国家是保姆式的国家,而且远不止如此,否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人的选择了,也不用提自主行为的权利。无罪,无清白。如此一来,世界不止不会进步,反而在倒退。
大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才把其当作人来对待----当作有行为选择自由和自主行为被评判的人。这就是从大数据推论到今天的无罪推定原则。
大数据的动作是在一个超出普通大众正常理解范围之上的。在这样的背景下,我们能看到大数据预测、运算法则和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪,因而我们对其全无信心。
为了防止这些情况出现,大数据将需要被监测并保持透明度,当然还有使之两项得以实现的新型专业技术和机构。它们将为许多领域提供支持,在这些领域里社会需要检测预测结果,并能够为被其错误引导的人群提供弥补方法。
社会发展出现过很多这种情况,当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。在一个多世纪以前,法律、医学、会计以及工程学领域都经历过这种转型。不久前,计算机安全和隐私顾问的突然兴起,证实了公司都在遵循由一些组织确立的行业最佳做法,如国际标准化组织,它是为满足这个领域对准则的需要而自发形成的。
大数据将要求一个新的人群来扮演这种角色,也许他们会被称作为“算法师”。这种人有两种形式:在机构外部工作的独立实体和机构内部的工作人员----正如公司有内部会计人员和进行鉴证的外部审计师。
这些新的专业人员会是计算机科学、数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的结果是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。
数据之于信息社会就如同燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。
刚刚提到的三个变革如果完成,相信会让大数据的不利影响得到控制。然而,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的大数据市场。我们必须防止21世纪数据大亨的崛起,它相当于19世纪的强盗大亨的现代翻版,那些强盗大亨曾经垄断了美国的铁路、钢铁生产和电报网络。
当时为了管理这些新兴行业,美国制定了适应性极强的反垄断条例。反垄断法遏制了权力的滥用。然而令人惊奇的是,这些条例能从一个领域完全转移到另外一个领域,并且适用于不同类型的网络产业。这种不带任何偏袒的规章非常实用,因为它提供了一个平等的竞争平台,一开始便没有任何优劣之分。
因此,为了促进大数据平台上的良性竞争,政府必须运用反垄断条例。就像世界上一些大型的数据拥有者那样,政府也应该公布其数据。好在这些变化已经在发生,伴随着核技术到生物工程学其他领域的发展,人类总是创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制,在这方面,大数据也和其他领域的新技术一样,先提出问题,才会有答案。
正如印刷机的发明引发了社会自我管理的变革,大数据也是如此。它迫使我们借助新方式来应对长期存在的挑战,并且通过借鉴基本原理对新的隐患进行应对。不过,推进科学技术进步的同时,应确保人类自身的安全。因此,我们不能让大数据的发展超出我们可以控制的范围。
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。
大数据是一种资源,也是一种工具。大数据让我们试验的速度更快,发现的线索更多,这理应能够产生更多的创新成果,但发明的火花却往往存在于数据未曾彰显的信息之中,因为它并非真实存在,是多大量的数据都永远无法确定或证实的。
在没有汽车的年代,如果亨利·福特问大数据他的顾客想要的是什么,大数据将回答:“一匹更快的马”。在大数据的世界中,包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要,因为进步正是源于我们的独创性。正如莎士比亚所言:“凡是过去,皆为序曲”。