拆解全球性“健康码”伦理难题：算法治理的“三道坎”

转载时间：2021.10.29（原文发布时间：2020.04.23）

231

转载作者：36氪企服点评小编

阅读次数：231次

编者按：本文来自微信公众号“腾云”（ID：tenyun700），作者朱悦，美国圣路易斯华盛顿大学法律博士（J.D.）；36氪经授权发布。

新冠疫情的全球感染人数已经突破二百万。

世界各国已经意识到，要想战胜病毒，在研发疫苗、提升核酸检测数量之外，还必须让“追踪病毒”的速度超过“病毒传播”的速度。

于是，基于接触者追踪等技术，世界各国开发出了不同模式的“健康码”，希望在第一时间获取感染者与接触者信息。

对隐私问题等伦理问题的担忧也随之而来，政府、媒体和公众纷纷展开讨论。新冠疫情或重塑数字时代下人们的隐私观念。

对健康码的讨论具有建设性，它可能会影响未来的制度建设。问题是，我们该从何处谈起？

健康码已在全国铺开。一手绿码，通行爽利；一屏红码，隔离走起。

随着疫情的全球性流行，世界各国也纷纷研发自己的“健康码”，各方也频繁的就伦理隐忧发声。

在算法治理“远帆将来”的时刻，对健康码的研究，还可能成为未来制度建设的先声。在这期间，伦理问题尤其重要。

当我们讨论健康码的伦理问题的时候，我们究竟在讨论什么？如果将健康码的原理拆成三步去理解，或许可以全面展示该议题的关键所在——

第一步，健康码需要收集许多个人信息，这些信息需要得到充分的保护；

第二步，算法处理这些信息，将个体分类为“红”、“黄”、“绿”等类别，过程中的算法伦理不容忽视；

第三步，根据分类，卫生部门、交通关口、企业和学校等单位对个体施以“区别对待”，这些措施也需要合理而正当。

总之，无论是健康码还是其它算法治理措施，都需要迈过以上三道坎。

01 第一道坎：个人信息保护

疫情时分，健康码与个体如影随形，与个人身份绑定，反映个体活动情况。这一过程不可避免地涉及了许多个人信息，其中有些信息又相当敏感。

由于健康码生成方式不同，“集中式”和“分布式”下的健康码，收集的范围也有相当不同，此处简要分别讨论。

“集中式”健康码运用后台打通的数据库和个体填报信息，直接判断颜色。根据各地情形不同，纳入信息也有些许不同。

一般而言，之前是否属于“确诊”或“疑似”、近期活动轨迹和地区、近期搭乘航班或车次等，都会成为分析对象。部分地区还会采集居住地、是否曾购买发热药物等。根据疫情的变动和后台的建设，这一范围可能还在不断扩大。

“分布式”健康码的原理稍有不同。简而言之，就是个体各自在手机上安装应用，应用再以蓝牙定位或者超声波的方式，测量附近有无其它安装同款应用的个体经过，有则记录下来。

如此，可以形成细致的运动轨迹和接触者网络。一旦有个体出现状况，接触个体都会收到信息。此类健康码收集的信息类型相对简洁，但至少也会涉及个体相当全面的社交网络。

无论采取何种形式，健康码都会涉及个人信息的处理。

遵从现有涉及个人信息的法律法规国家标准，切实以保护个人信息在生命周期各环节的安全为底线。这一点又体现为防止过度收集，注意最小化原则，做好信息安全，禁止分享公开，可行范围内匿名化，可查可用不可导出，等等，都已体现在各地的健康码实践中。

不过，还有三点值得注意。

其一，有关信息应视为个人敏感信息。

一方面，无论是病史、行踪轨迹，还是药物记录、社交网络，单独均足以达到“影响个体人身或财产安全，或导致身心健康受损，或导致歧视性待遇”的“敏感”标准；另一方面，对这些信息的处理方式，足以影响个体能否获得迁徙、劳动或受教育的权利，因此可能达致“敏感”标准。这一点会影响合宜的信息保护水平。

其二，“集中式”下的隐私风险较为凸显，“分布式”下的风险则容易被忽视。

“分布式”健康码程序通常采取匿名标识符，无法直接识别至个体。然而，从现有安全领域研究看，通过轨迹或社交关系识别个体，既不困难，准确率也不低。因此，个人信息保护工作仍不能轻忽。

其三，在具体落实保护工作时，一头一尾两个环节，需要进一步分析。

在寻求个人信息处理合法性的头部环节，尽管重大公共利益足以构成合法性基础，但从维护个体隐私权、进一步消除隐私风险的角度出发，获取明示同意并展示隐私协议，是更加合适的做法。

实际上，这也是算法伦理领域的共识。在抗疫接近尾声、个人信息处理完毕时，如何处理相关信息？是简单封存，还是采取加总等匿名化措施后用于研究等用途，又或者是删除，此处需要因情势制宜的讨论。

一般而言，信息匿名化可能是此处底限。

02 第二道坎：算法伦理

健康码的机理，是在各类个人信息的基础上，根据感染风险对不同个体分类。这一工作涉及算法，自然也涉及近年来热度骤升的算法伦理。

何为算法伦理的核心内容？各国暂时各执一词，但也有一些共识。在健康码语境下，除开已经提到的隐私，“算法可解释”，“算法可问责”，和“算法公平”，三者共同构成眼下最需要注意的算法伦理。

“算法可解释”原则的精神很朴素：如果一则算法的运行足以影响个体迁徙、劳动或受教育的权利，那么，个体有理由知道这个算法究竟在干什么。

对很多具体的场景，“算法可解释”很可能是法律中“正当程序”原则蕴涵的要求。因此，需要对健康码作出一定的解释。算法运作的具体原理不同，需要的解释相应不同，不妨分两种情形讨论。

当前而言，大部分地区的健康码原理相对简单：首先，设定一些判断条件，“个体近期是否曾前往疫情严重区域”，“个体轨迹是否与其他确诊或疑似个体重合”，“个体是否曾购买发热药物”，等等；其次，将数据与条件结合，触发特定条件的生成“红”或“黄”码，其余生成“绿”码。

对这样相对简单的算法，除非存在作弊风险，直接公开逻辑，便是最好的解释。

当然，随着时间的推移、数据资源的丰富和研究人员的攻关，健康码原理可能日趋复杂。比如，研究人员可以根据健康码的既往防控效果，尝试更为复杂的分类算法，以提升分类的准确率。如果是线性或决策树模型，解释依然可能；不过，模型有可能在技术层面即难以解释，构成字面意义上的“黑箱”。此时，具备可解释性，应当成为选择模型时的考虑之一。

如果确实需要采取难以解释的模型，应该一并对原理作出准确易懂的说明。

可解释指向可问责。

健康码不可能完全不出错，重要的是在出错时及时纠正、在造成损害时明确责任。这又进一步指向两点：第一，在制度层面建立报错和复核机制方便；第二，在技术层面，为个体定位错误行方便。这样，报错、复核和寻求其它救济都会更容易。

根据个人信息保护的相关内容，个体有权知晓自己的哪些信息参与了健康码的生成，也可以知道这些信息的内容。如果算法具备可解释性，个体能够知道个人信息如何与健康码内置的逻辑交互。既知输入，又知算法，个体就能容易地定位错误的具体内容。此外，如果个体在利用复核或类似渠道时能够把问题表述得更加清楚，行政机关的负担也会相应下降。

算法公平，是另外一项堪称共识的伦理原则。

“数字鸿沟”的广泛存在，意味着并不是所有人都有知识、有条件充分利用健康码。借助人工验证等渠道，尽量将鸿沟“填平”，为无法利用健康码的个体提供等效的验证方式，是公平的第一项要求。实际上，保障个体合理的、免于算法的决策，也是《统一数据保护条例（GDPR）》等立法进展所体现的趋势。

公平的第二项要求，是避免基于敏感特征的歧视。

在健康码语境下，歧视集中在地域特征上。这里要求健康码系统即时跟进最新的各地风险层级通报，在判断条件中及时移除疫情风险已然不高的地区。之外，在任何情形下，都不应该在判断条件中使用性别、种族、国籍等敏感特征。

这些特征和感染风险的关联十分有限，对实际防控未必有太多帮助；反之，一旦此类歧视引起国内或国际范围的舆论风潮，代价或将十分惨重。

除去第一节已经提到的隐私，和第二节讨论的三种价值，算法伦理上还有一些颇为重要的原则。比如历史悠久的“不作恶”或“向善”，以及欧盟正在大力倡导的“可信赖”，等等。这些原则和之上的内容有许多重叠。

如果健康码制度充分保障隐私、原理容易解释、责任易于定位、善待弱势群体，这一制度也就在很大程度上值得信赖、可为“科技向善”的标杆。