编者按:本文来自微信公众号“腾云”(ID:tenyun700),作者朱悦,美国圣路易斯华盛顿大学法律博士(J.D.);36氪经授权发布。
新冠疫情的全球感染人数已经突破二百万。
世界各国已经意识到,要想战胜病毒,在研发疫苗、提升核酸检测数量之外,还必须让“追踪病毒”的速度超过“病毒传播”的速度。
于是,基于接触者追踪等技术,世界各国开发出了不同模式的“健康码”,希望在第一时间获取感染者与接触者信息。
对隐私问题等伦理问题的担忧也随之而来,政府、媒体和公众纷纷展开讨论。新冠疫情或重塑数字时代下人们的隐私观念。
对健康码的讨论具有建设性,它可能会影响未来的制度建设。问题是,我们该从何处谈起?
健康码已在全国铺开。一手绿码,通行爽利;一屏红码,隔离走起。
随着疫情的全球性流行,世界各国也纷纷研发自己的“健康码”,各方也频繁的就伦理隐忧发声。
在算法治理“远帆将来”的时刻,对健康码的研究,还可能成为未来制度建设的先声。在这期间,伦理问题尤其重要。
当我们讨论健康码的伦理问题的时候,我们究竟在讨论什么?如果将健康码的原理拆成三步去理解,或许可以全面展示该议题的关键所在——
第一步,健康码需要收集许多个人信息,这些信息需要得到充分的保护;
第二步,算法处理这些信息,将个体分类为“红”、“黄”、“绿”等类别,过程中的算法伦理不容忽视;
第三步,根据分类,卫生部门、交通关口、企业和学校等单位对个体施以“区别对待”,这些措施也需要合理而正当。
总之,无论是健康码还是其它算法治理措施,都需要迈过以上三道坎。
疫情时分,健康码与个体如影随形,与个人身份绑定,反映个体活动情况。这一过程不可避免地涉及了许多个人信息,其中有些信息又相当敏感。
由于健康码生成方式不同,“集中式”和“分布式”下的健康码,收集的范围也有相当不同,此处简要分别讨论。
“集中式”健康码运用后台打通的数据库和个体填报信息,直接判断颜色。根据各地情形不同,纳入信息也有些许不同。
一般而言,之前是否属于“确诊”或“疑似”、近期活动轨迹和地区、近期搭乘航班或车次等,都会成为分析对象。部分地区还会采集居住地、是否曾购买发热药物等。根据疫情的变动和后台的建设,这一范围可能还在不断扩大。
“分布式”健康码的原理稍有不同。简而言之,就是个体各自在手机上安装应用,应用再以蓝牙定位或者超声波的方式,测量附近有无其它安装同款应用的个体经过,有则记录下来。
如此,可以形成细致的运动轨迹和接触者网络。一旦有个体出现状况,接触个体都会收到信息。此类健康码收集的信息类型相对简洁,但至少也会涉及个体相当全面的社交网络。
无论采取何种形式,健康码都会涉及个人信息的处理。
遵从现有涉及个人信息的法律法规国家标准,切实以保护个人信息在生命周期各环节的安全为底线。这一点又体现为防止过度收集,注意最小化原则,做好信息安全,禁止分享公开,可行范围内匿名化,可查可用不可导出,等等,都已体现在各地的健康码实践中。
不过,还有三点值得注意。
其一,有关信息应视为个人敏感信息。
一方面,无论是病史、行踪轨迹,还是药物记录、社交网络,单独均足以达到“影响个体人身或财产安全,或导致身心健康受损,或导致歧视性待遇”的“敏感”标准;另一方面,对这些信息的处理方式,足以影响个体能否获得迁徙、劳动或受教育的权利,因此可能达致“敏感”标准。这一点会影响合宜的信息保护水平。
其二,“集中式”下的隐私风险较为凸显,“分布式”下的风险则容易被忽视。
“分布式”健康码程序通常采取匿名标识符,无法直接识别至个体。然而,从现有安全领域研究看,通过轨迹或社交关系识别个体,既不困难,准确率也不低。因此,个人信息保护工作仍不能轻忽。
其三,在具体落实保护工作时,一头一尾两个环节,需要进一步分析。
在寻求个人信息处理合法性的头部环节,尽管重大公共利益足以构成合法性基础,但从维护个体隐私权、进一步消除隐私风险的角度出发,获取明示同意并展示隐私协议,是更加合适的做法。
实际上,这也是算法伦理领域的共识。在抗疫接近尾声、个人信息处理完毕时,如何处理相关信息?是简单封存,还是采取加总等匿名化措施后用于研究等用途,又或者是删除,此处需要因情势制宜的讨论。
一般而言,信息匿名化可能是此处底限。
健康码的机理,是在各类个人信息的基础上,根据感染风险对不同个体分类。这一工作涉及算法,自然也涉及近年来热度骤升的算法伦理。
何为算法伦理的核心内容?各国暂时各执一词,但也有一些共识。在健康码语境下,除开已经提到的隐私,“算法可解释”,“算法可问责”,和“算法公平”,三者共同构成眼下最需要注意的算法伦理。
“算法可解释”原则的精神很朴素:如果一则算法的运行足以影响个体迁徙、劳动或受教育的权利,那么,个体有理由知道这个算法究竟在干什么。
对很多具体的场景,“算法可解释”很可能是法律中“正当程序”原则蕴涵的要求。因此,需要对健康码作出一定的解释。算法运作的具体原理不同,需要的解释相应不同,不妨分两种情形讨论。
当前而言,大部分地区的健康码原理相对简单:首先,设定一些判断条件,“个体近期是否曾前往疫情严重区域”,“个体轨迹是否与其他确诊或疑似个体重合”,“个体是否曾购买发热药物”,等等;其次,将数据与条件结合,触发特定条件的生成“红”或“黄”码,其余生成“绿”码。
对这样相对简单的算法,除非存在作弊风险,直接公开逻辑,便是最好的解释。
当然,随着时间的推移、数据资源的丰富和研究人员的攻关,健康码原理可能日趋复杂。比如,研究人员可以根据健康码的既往防控效果,尝试更为复杂的分类算法,以提升分类的准确率。如果是线性或决策树模型,解释依然可能;不过,模型有可能在技术层面即难以解释,构成字面意义上的“黑箱”。此时,具备可解释性,应当成为选择模型时的考虑之一。
如果确实需要采取难以解释的模型,应该一并对原理作出准确易懂的说明。
可解释指向可问责。
健康码不可能完全不出错,重要的是在出错时及时纠正、在造成损害时明确责任。这又进一步指向两点:第一,在制度层面建立报错和复核机制方便;第二,在技术层面,为个体定位错误行方便。这样,报错、复核和寻求其它救济都会更容易。
算法公平,是另外一项堪称共识的伦理原则。
“数字鸿沟”的广泛存在,意味着并不是所有人都有知识、有条件充分利用健康码。借助人工验证等渠道,尽量将鸿沟“填平”,为无法利用健康码的个体提供等效的验证方式,是公平的第一项要求。实际上,保障个体合理的、免于算法的决策,也是《统一数据保护条例(GDPR)》等立法进展所体现的趋势。
公平的第二项要求,是避免基于敏感特征的歧视。
在健康码语境下,歧视集中在地域特征上。这里要求健康码系统即时跟进最新的各地风险层级通报,在判断条件中及时移除疫情风险已然不高的地区。之外,在任何情形下,都不应该在判断条件中使用性别、种族、国籍等敏感特征。
这些特征和感染风险的关联十分有限,对实际防控未必有太多帮助;反之,一旦此类歧视引起国内或国际范围的舆论风潮,代价或将十分惨重。
除去第一节已经提到的隐私,和第二节讨论的三种价值,算法伦理上还有一些颇为重要的原则。比如历史悠久的“不作恶”或“向善”,以及欧盟正在大力倡导的“可信赖”,等等。这些原则和之上的内容有许多重叠。
如果健康码制度充分保障隐私、原理容易解释、责任易于定位、善待弱势群体,这一制度也就在很大程度上值得信赖、可为“科技向善”的标杆。
健康码之所以牵动人心,关键还是对现实生活有实实在在的影响。
要不要隔离十四天,涉及到对人身自由的限制;能不能在不同地区间流动,能不能复工复学,在工作场所和学校的活动是否受限,都涉及对个体基本权益的限制。以对健康状况的评估(这里是感染风险)为依据,区别对待不同的个体,这类做法有个概括性的名称:“健康主义(Healthism)”。
当前疫情中的健康主义立场显然有其合理性。不过,这不能逾越所有的基本权利。承认这两点后,健康码中的政策抉择,就又转化为包罗众多因素的平衡问题。由于篇幅所限,短文无法尽数展开。不过,对此类平衡,一般需要注意至少三类要点。
首先,在社会层面,“健康”、“卫生”甚或“洁净”,常常不是均一的概念。在健康码这一场景中,定义相对明确:感染特定类型病毒的概率。
然而,随时间推移,如果社会观念发生变动,将“感染”与“不洁”、“危险”甚至“敌对”相关联,甚至因此排斥有关群体,这将会增加健康码逾越正当尺度的风险。同时,如果这一算法治理模式得到推广,并得以应用于其它因健康状况而差别待遇的场景,这些推陈出新的“xx码”同样需要越过三道坎,我们并不能默认其正当性。
其次,在考量健康码的运用是否过度时,角度务求全面。
如果只考虑单一限制,比如说不能复工是基于健康码的限制,似乎总是合理的。但如果用更完整的视角看待,将个体各方面权益可能因健康码受到的限制综合考虑,相关公共利益与人身自由、受教育权、劳动权等众多因素,可能也会相应改变。这一思路也可以预防健康码应用的过度泛化。
最后,随着时势日日而新、科研时时而前,人类对病魔的了解程度也在不断深入。
先前施加的一些限制,或许已显不足:例如,倘若存在新的传播途径,可能需要更新相应隔离措施;反之,限制牵涉的范围,可能因对病毒的深入了解而缩小:例如,对各地区风险评估的颗粒度越精细,限制涉及的地域范围相应也会更精确。
总之,既然公共利益和基本权益间的最优平衡频繁变动,在保障安全的前提下相应迭代调适健康码设计,可谓应时之需。
疫情面前无小事,健康主义领域没有简单的问题。在如此情形下决断,总需要非凡的勇气、智慧和技艺。除非确实存在抗疫效果上没有差异、对个体权益限制又显然更少的方案,对健康码的采用,通常合理而正当。
当然,这并不意味着要放弃审视和反思,对各种权利的综合考虑,结合科学进展思考限制更少的方案,都应该始终“在路上”。同时,在脱离紧急状态以后,这些思路不仅不会过时,还会为防止万“码”奔腾的滥用筑起坚强的堤防。
本文以高度简化的方式介绍了健康码的原理,并探讨了如何以比较系统的方式反思健康码的应用。
为了成为“范本”、纾解在法律和舆论层面的担忧,健康码需要越过三道坎:
一是已经比较完备的个人信息保护,难点主要在于细部的合规;
二是方兴未艾、正形成共识的算法伦理,健康码可能,也应该合乎这些伦理,实现“科技向善”而可以信赖的愿景;
三是从利益平衡角度出发,对“健康主义”的省思,这里可能蕴涵着实现算法善政的根本性问题。
“三道坎”的思维方式可以推广到更一般的算法治理场景。无论是持续热议的征信算法,还是日益升温的智能司法,又或者是正在涌现议论的智慧城市,都可以从“三步走”的思路出发,系统地评估、平衡、评判得失。
首先,这些算法需求什么样的个人(敏感)信息?其次,这些算法的运作机制,是否切合目前公认的伦理原则?最后,因算法的输出而在现实中区别对待,是否合理且正当?笔者相信,这是一种相对全面、而又便于应用的思考出发点。