数据密态时代还有多远?专访蚂蚁集团韦韬
告别“明文”,迈进“数据密态”时代。
随着互联网的不断发展,数据在今天已然成为重要的生产要素。海量的数据以空前的规模产生、传播乃至商业化。大数据在为人们生活提供便利的同时,也让原本处于灰色地带的数据泄露、越权使用等数据安全问题暴露无遗。
数字化时代,数据究竟如何使用?
随着一年前《数据安全法》和《个人信息保护法》的相继落地,让数据在授权墙下实现无差别采集的难度激增。这给国内过去数据要素市场的粗放式发展画上了句号。今年6月,中央深改委审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》进一步明确:“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,健全数据要素权益保护制度”。数字经济建设离不开数据支撑,数字产业化和产业数字化的进程正在加速。如何在保障数据安全的前提下发展数据要素市场?
《数据安全法》、《个人信息保护法》等实施一年之际,蚂蚁集团副总裁兼首席技术安全官韦韬博士接受了甲子光年采访,韦韬博士告诉「甲子光年」 “只要数据流通是处于明文状态,那么往往因为明文分发易失控导致数据泄露,加剧数据滥用,甚至引发数据要素的价值崩塌。迈进‘数据密态’时代,对数据要素的跨域流转实现全程安全可控,已经成为建设数字要素市场、发展数据要素经济的必然一步。”
何为数据密态?简单来说,“在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态不出现明文,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控”。这种数据加密流转的状态被称为数据密态。
过去,数据加密在互联网20多年的发展过程中被广泛应用。但伴随数字经济建设的加快,东数西算、大数据交易中心等数据产业落地,数据的生产要素价值需要被进一步释放,数据持有者和数据需求者两端都对数据安全提出了更高要求。这些客观因素都加速着数据密态时代的到来。
目前,可信隐私计算是实现数据密态呼声最高的技术路径之一,可以实现在不丧失数据持有权的前提下,有效实现数据使用权的跨域管控。隐私计算本身也在近几年开始获得市场与资本方的认可。Gartner更曾预计到2025年,全球将有50%的企业采用隐私计算,并将其列入2021年需要深挖的九项战略科技趋势。
不过,数据密态的到来并非旦夕之间,还面临着诸多挑战。如何实现满足场景保障需求、低成本、高效率的数据安全,推动数据密态时代早日到来,正是蚂蚁集团与合作伙伴们共同探索的目标。
好在,这些先行者已经开始看到曙光。
甲子光年:能否用一句话给“数据密态”下一个简洁的定义?
韦韬:在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态不出现明文,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。
甲子光年:如何理解“数据密态”?
韦韬: “数据密态”是蚂蚁集团洞察出行业数字化发展的一个新趋势。在技术上看,数据密态其实是密码学界一直希望达到的境界。在行业上看,数据密态也契合了未来数据持有权和使用权分离的发展趋势。
在技术角度,数据加密本身并不新鲜。伴随20多年的互联网发展,数据加密已经在金融支付、电子商务等场景下广泛应用。但这些数据加密大多停留在存储和传输阶段。一旦涉及“计算”,数据往往需要回到安全性弱、容易失控的明文状态。而“数据密态”的核心任务,就是要把加密延展到计算环节,意味着即使在运算期间,也不会出现明文数据。这样在技术上通过远程验证的可信链条以及密码学密钥机制来实现对数据要素跨域流转的全程安全控制。
在行业发展角度,2022年6月中央深改委审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》明确:“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,健全数据要素权益保护制度”。我们注意到,数据密态也恰恰和数据的三权密切相关。只要数据传播是处于明文状态,那么往往因为数据的明文分发易失控导致数据泄露,即造成数据持有权失控;进而加剧数据滥用,导致数据使用权失控;数据明文的泄露也会引发数据要素的价值崩塌,给数据价值经营带来严重阻碍。
数据的持有权主要是持有明文数据(或者明文数据等价物)的权利。有了明文数据后,在技术层面往往就获得了数据的全部使用价值。传统上,基于明文的数据流转,难以将数据的持有权与使用权分离。数据密态技术第一次实现了数据的持有权与使用权分离,可以在保障数据持有权不丧失的前提下,对数据在跨域流转的全程对其使用权实现管控。这种数据流转全链路的使用权跨域管控能力,对于数据要素价值实现市场定价来说是至关重要的。数据的使用权流通,而非持有权流通,是数据要素行业发展的关键。
甲子光年:蚂蚁集团提出,2022年,无论从法规要求还是技术成熟度来说,数据流通领域都将告别数据明文时代,进入数据密态时代。这种判断的依据是什么?
韦韬:因为在明文状态下,企业或个人都很难控制数据泄露的风险。并且数据的二次分发更会使这种风险呈指数增长。现在,数据已成为实质意义上的社会生产要素,它所能创造的价值是巨大的。中国众多产业已经进入数字化转型阶段,这其中有大量数据流通、数据价值挖掘的需求。但明文数据可复制、低成本的特性却与其价值形成反差。如果我们不告别明文,就永远无法避免数据安全问题。最典型的例子就是明文数据泄露导致电信诈骗、网络诈骗愈演愈烈。
与此同时,保障数据安全也是国家和社会经济层面的强烈诉求,在行业自身发展需求之外,相关法规、政策的出台更是进一步强化了打造数据密态基础设施的行业需求。国家一直强调:安全和发展是一体之两翼、驱动之双轮。近两年,《数据安全法》、《个人信息保护法》以及《密码法》、《民法典》等法律法规的落地,都证明着国家对数据安全的重视。如果数据安全相关问题不能得到妥善治理,那将会对数字经济建设,甚至社会安全稳定造成巨大风险。
另外在技术层面,隐私计算技术经过几年来的探索,多个行业已经在一些小规模领域做了验证。在实践过程中碰到的困难、挑战和受益,也逐渐明确。
所以我们认为,整个数据安全行业已经走到了迈入数据密态时代的节点。蚂蚁集团提出“数据密态”,希望呼吁整个行业一起往新时代迈进。
甲子光年:过去企业不重视数据安全吗?
韦韬:现代数字化企业是一种不断演变进化的数字生命体。它的架构复杂性会爆炸性增长,不断引入的外部数字化产品服务和行业技术体系演化,会推动其形成内部数字化基因的代差积累,就像碳基生命基因的演化,但更快更剧烈。
过去企业也重视数据安全。但总体而言,数据安全行业发展依然远落后于互联网和整个社会数字化的发展。尽管近几年全行业都开始加强数据安全的投入力度,但差距依然显著。比如今天依然有不少企业没有专职数据安全团队,现有的安全技术体系也往往难以跟上企业数字化基因代差的快速演变。
为了应对严峻的网络安全攻击威胁,符合严格的数据安全合规要求,保障企业数字生命体的健康发展,必须加快发展能够适应这样的数字生命体的安全技术、服务与行业引导机制。这对很多企业、行业来说都是巨大挑战,也需要政府、行业、企业和社会更紧密的协同合作,共同进行安全建设和保障。
甲子光年:数据密态时代的到来,是否意味着数据安全问题将不复存在?
韦韬:数据安全的程度需要结合实现成本来看,没有人能够承受实现绝对安全的成本。如果把数据安全比喻成交通治理,不难发现,“平衡”是这个问题的关键:高速公路需要限速来控制风险,但也不能单纯因为安全而过分限速。数据安全需要寻求效率和风险的平衡。这一点在数据密态时代下依旧有效。
特别的,数据密态相关技术主要开始逐步应用于跨主体间的数据流转管控领域,这将显著的提升这些领域的数据安全保障水位。但主体内部的数据流转,以及没有使用数据密态技术的跨主体数据流转,依然需要其他技术和机制来提升其安全保障能力。
事实上数据安全是一个非常复杂的体系。达成数据安全是这个安全体系的整体效果,而实现路径和方案现在都处于摸索阶段,目前数据安全行业还需要更多相关方共同参与实践。
2.技术:“寻求安全与效率的平衡”
甲子光年:数据密态和隐私计算、密码学之间的技术关系是什么?隐私计算的技术路线已经基本确定了么?
韦韬:“数据密态”是蚂蚁对数据安全行业发展阶段的描述,而密码学、隐私计算等技术是实现数据密态的技术手段。传统密码学技术主要应用于数据的传输和储存;而隐私计算更聚焦于数据共享、计算、流转阶段的加密,在支持数据价值传播的同时防止数据明文泄露。
实现隐私计算的技术路径也很多,包括多方安全计算、联邦学习、全同态、可信执行环境等等,但还有很多的实际需求没有得到满足,依然有很大的创新空间。其实隐私计算本身也有两个概念定义。一个是李凤华老师提出的隐私计算(Privacy Computing),是面向隐私信息全生命周期保护的计算理论和方法。另外一个是目前行业里讨论的比较多的隐私计算,或者更准确的叫做隐私保护计算(Privacy-preserving Computation),是保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通与融合过程中的“可用不可见”。我们平时谈论较多的概念是后者。
目前隐私计算技术领域也逐步形成了向可信隐私计算升级的共识。可信隐私计算将会在隐私保护计算概念(Privacy-preserving Computation)的基础上,更好的融合前者概念(Privacy Computing)对于隐私保护的诉求:可信隐私计算是指在应用过程中,安全性、可用性和隐私保护符合设计申明预期的隐私计算,以满足数据需求方、数据提供方、和监管方等各方的需求。可信隐私计算的特征包括安全可验证,过程可审计,开放普适,满足数据要素流转场景的隐私保护,可靠性,性能等要求。可信隐私计算行业共识的形成明确了下一步技术演进的方向和要求,有助于行业更好的协同发力形成突破。
比如,为解决传统隐私计算技术在计算效率和保护数据安全之间的平衡问题,蚂蚁集团于2021年起推动发展新一代可信隐私计算技术“可信密态计算”(Trusted-Environment-based Cryptographic Computing,TECC),这项技术创新性地将密码技术(MPC、FL)和全栈可信计算技术(TEE、TPM)融合在一起,将数据以全密态形式在高速互联的可信节点集群中进行计算、存储、流转,可实现数据持有权有效保障、使用权出域可控,支撑任意多方大规模数据安全、可靠、高效地进行全密态的融合与流转。TECC突破了使用单一技术的局限,获得了更高的综合能力,能在1小时内完成亿级样本密态分析和建模,在安全性、适用性、性能等维度上形成跨越式提升,是数据密态时代的有力支撑。2022年7月,可信密态计算(TECC)还因为技术的突破性入选了数字中国建设峰会“十大硬核科技”奖。目前TECC也正在主管部门指导下进行开源。
甲子光年:过去,数据的合规使用一直是个难题。开放授权数据获取的业务场景就可能引发数据泄露,但授权严监管下获取的数据价值又比较有限。如何解决这个矛盾?
韦韬:其实现在监管部门对数据授权已经有了非常严格的管控,面对企业违规获取授权或者霸王条款,消费者和企业都可以通过各种渠道去申诉,这是一个非常大的变化。大约从2018年开始,许多互联网公司已经把授权协议从概括授权更改到了单一场景授权。也就是说,现在的数据获取已经实现了“一个授权只对应一个场景需求”,而不是把所有场景需求都绑定在一个授权上。
另外,《个人信息保护法》更明确了授权数据面向的场景、主体,以及应用范围,关键词“同意”在其中高频出现了27次,意在强调企业获取和使用信息,必须经过用户的同意,授权程序必须规范。
同时我们也需要看到,今天的人工智能体系是依靠数据驱动的。在授权严监管下,如果采集不到足够量级的无偏差的数据,智能体系则很难发挥作用,这对数据行业来说的确不是个好消息。
现在我们要努力达到的平衡是,既要保护公众的隐私权益,又要实现“十四五”规划中的数字要素市场化发展。至于如何在保护数据安全和发挥数据价值之间平衡,其实就是我们所提出的“可算不可识”。“可算不可识”是实现个人隐私保护的关键技术模式,在模型训练、数据分析等场景下确保个人身份不会被重识别,满足法律法规的匿名化要求。可信隐私计算可以有效的通过在可信环境中的受控匿名化实现可算不可识,同时让数据的使用和流通实现可审计可举证。
甲子光年:数据密态时代下的数据使用和流通需要可审计可举证,如何通过技术手段真正实现?加密货币的区块链技术、分布式记账方法值得借鉴吗?
韦韬:数据使用和流通的审计与举证,的确是一个比较困难的技术挑战。2021年,蚂蚁集团提出把隐私计算与区块链深度融合,确保数据密态流转过程中能有清晰的可审计的授权、确权、鉴权环节,这是数据要素产业化的关键。在数据密态状态下,所有的数据都以密态形式呈现,溯源取证的难度比明文时期显著增加,所以需要建立新的技术模式来解决这些问题。
在这个新的技术体系中,我们认为区块链是非常合适的。因为区块链的本质就是分布式账本,它能够以去中心化的方式实现审计固证。但值得注意的是,如果数据密态时代真的到来,审计一定会成为数据密态基础设施的关键组件,后期人们也会面对更大的数据量级,很多细节还需要行业共同探索推进。
甲子光年:隐私计算是否会面临算力、电力等其他基础设施的掣肘?
韦韬:实现隐私计算的不同技术路径都面临着各自的性能挑战。传统的多方安全计算和联邦学习需要依靠网络来完成计算,计算量的上升量级非常高,跨公网/专线的带宽和时延是限制其性能、可靠性、普适性、成本的关键瓶颈之一,目前硬件加速的方式也难以缓解这个难题。而全同态技术通过完全密态的方式做计算,虽然不要求高频率的交互,但是非常依赖硬件加速。另外,全同态导致数据急剧膨胀也会额外增加计算压力,导致传输和存储成本急剧升高,往往高达千倍以上。各个隐私计算技术路线在未来的商业化层面还要解决诸多难题,也给了行业更多技术创新突破的需求空间。前面提到的可信密态计算(TECC)也正是在这样的场景之下诞生,对算力成本的需求增加可以控制在明文分布式计算一个数量级之内,从而有效的支持各种大规模密态应用需求。
甲子光年:隐私计算路线众多,各条路线如何将数据安全保护落到实处?是否有通用的标准?
韦韬:隐私计算技术路线五花八门,针对隐私计算实现的安全性,当前的安全分级标准是针对单个技术路线来制定的,但在应用场景它们相互之间很难交叉比较,也无法对新兴的隐私计算技术进行安全评估。
实际应用中,在不同的场景下,在应用隐私计算上付出不同数量级的成本时,在各个维度上都应该有相应的收益。在安全侧则应该有一个相对通的尺子来衡量收益,即如何比较完全不同的隐私计算技术的安全性。如何来做通用的衡量,对隐私计算实现的“数据密态”进行安全分级。这件事情挑战非常大,我们也是首次尝试,这对于全球来说都是一个新兴的挑战。
我们发现在本质上,隐私计算产品安全性度量的本质在于需要付出多大的成本、克服多大的不确定性来攻破给定的安全防护保障,造成信息泄露的后果或风险。在这个认知的基础上,我们目前正在尝试将隐私计算产品安全从实战角度划分为如下五级:
第一是基线防护级,基本的安全基线要求,不能有已知中高危安全漏洞。
第二是审计追溯级,能对隐私计算协议交互中已知无法阻断的攻击和泄露进行审计;对于允许信息熵泄露的技术应该有泄露度量能力。特别的,对于密码学半诚实模型的隐私计算技术,应该能对“不诚实”的行为有审计能力,否则无法感知和审计的攻击在实际应用中会引发不可控的数据泄露风险。有信息熵泄露的技术也应用类似的要求。
第三是广度防护级,对于已知的可以造成实际信息泄露的攻击方法均应有相应的防护方案;不应该包括漏洞频发的高危组件。
第四是深度检验级,能够通过2个安全攻防专业团队背对背1个月或以上的深度安全评估,且不被发现中高危漏洞。这样的安全强度能够在实战中对抗变异攻击,对数据安全提供高等级防护能力。
第五是安全证明级,对于关键复杂性隐患,有代码级形式化证明保障。包括像内存安全验证这样的复杂性证明,也包括像算法和代码实现的一致性证明。
将隐私计算系统对数据安全的保护能力做技术中立的安全分级,这样有助于隐私计算技术更好的在实际场景中应用推广,同样也需要行业共同的努力。
甲子光年:隐私计算的价值空间有多大?在诸如“东数西算”类的国家重大工程中,隐私计算如何发挥作用?
韦韬:东数西算最明显的特征是“原始数据在东部,大规模计算在西部”,让西部的能源、空间发挥优势。但这个过程如何平衡效率和风险是一个全新的挑战。
如果把原始明文数据直接搬到西部,那么不但源数据会直接明文暴露,而且分析建模过程中产生的大量中间数据也以明文方式暴露,这会显著的增加了数据泄露的风险暴露面;而且这种方法使得西部数据中心汇聚大量高价值数据,与东部相比又缺乏专业安全人员,整体安全风险压力急剧增加。如果把原始明文数据保留在东部,那么像传统模式的隐私计算技术,如多方安全计算和联邦学习,其发起方和计算方都需要在数据源方,西部的算力难以发挥作用。所以在东数西算中,为了平衡效率和风险,最佳的解决方案是数据以密态方式在西部数据中心存储、分析、融合,既有效保障安全,又能充分发挥出西部算力、能源方面的优势。
从上面的分析可以看出,在东数西算场景下,可信密态计算TECC可以妥善地解决效率与风险的平衡,因为可信密态计算TECC并不强烈依赖跨网络交互,东部的数据只需要以密态方式传输到西部,在西部数据中心的存储、计算、应用中数据都是以密态方式存在的。数据持有方可以安全有效的进行跨域数据管控、计算和融合,在这种模式下既节省了通信成本又能充分利用西部算力资源。
3.商业:“数据要素商业化困境”
根据甲子智库数据显示,预计到2025年,国内隐私计算的整体市场规模将超过200亿元,2021~2025年均复合增长率达133.4%
甲子光年:隐私计算(以及数据要素)商业落地的难点是什么?
韦韬:首先是需要政策的明确指导,行业主管单位关于合法合规的标准、测评和试点支撑。比如今年中央深改会第二十六次会议上审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,明确了要建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,这对于数据合规使用、数据要素市场化来说是个非常积极的信号。
在技术上,与明文计算相比,隐私计算商业化的最大难点还是在性能与普适性瓶颈。目前行业应用最多的隐私计算技术是PSI(Private Set Intersection,隐私集合求交),性能相对可控,所以应用广泛。稍微复杂一点的是逻辑回归(Logistics Regression),由于一般数据量级有限(不超过100万),性能也能接受。但复杂度再上升,到了现在最广泛使用的GBDT树模型,即使是30万的样本,在专线条件下联邦学习完成训练也往往需要8个小时以上。对比一下,同样的样本与训练量如果在明文状态下,可以做到在分钟级就能完成,可以看出相差甚大。复杂度再往上是深度学习,这方面传统隐私计算和明文分布式计算的性能差距更加显著。这也是我们需要去研究像可信密态计算TECC技术等新兴高性能可信隐私计算模式的原因。
另外,随着隐私计算涉及的数据方从二方升级到三方、四方等,所适用的算法也截然不同,而且随着数据的划分方式还有很大差异。复杂程度、通信成本、安全成本都会显著上升。这是现阶段隐私计算应用的场景还相对受限的原因。
在成本上,在过去很长一段时间里,数据安全是个奢侈品,企业很难,也很少有意愿花资源投入数据安全。不过近几年这种现象开始有了改观。随着数字化浪潮的推进,数据安全保障已经成为企业发展所必须的一环。《数据安全法》《个人信息保护法》等法律法规的落地,也在极大程度上提高了合规底线,同时将各相关方的积极性调动起来。当数据安全的市场足够大,规模效应就会帮助整个行业摊薄成本,降到企业都能接受的程度。
甲子光年:在隐私计算方面,蚂蚁目前有哪些已经商业化的产品和应用场景?
韦韬:蚂蚁集团一直坚持尝试多种技术路径。在商业方面,我们已经开始给有需求的客户提供商业化支持。比如自主研发的蚂蚁链摩斯多方安全计算平台(MORSE),目前应用于金融、科研、政务等十多个行业,服务了上百家机构。
去年我们发布了数据隐私协作平台(FAIR),将隐私计算和区块链技术深度融合,构建了自主安全计算硬件并获得CFCA安全认证,并联合达摩院计算技术实验室和阿里安全双子座实验室等团队设计全同态硬件加速,实现了百倍以上的性能提升。
在应用场景方面,目前联合风控、联合营销、政务业务是我们主要布局的应用场景。
今年年初, IDC发布了《金融行业隐私保护计算探索与实践》,蚂蚁隐私计算应用案例“网商银行农村金融在可信执行环境技术下的实践”被列入行业优秀实践之一。在可信隐私计算的保障下,银行与合作方可以通过可信执行环境同时融合各数据源的数据并保障数据隐私安全,为涉农用户提供融资金融服务,解决了农村金融服务匮乏、农业经营者融资难融资贵的难题。
从去年开始,蚂蚁隐私计算还探索了医疗场景的应用,已经与医院、卫健机构、药械厂商展开了合作。在近两年医保支付改革的背景下,2021年可信隐私计算开源框架“隐语”和阿里云数字医疗团队合作,为浙江某三级医院搭建了面向医院运营管理的数据融合平台,病理质控和医保DRG(Diagnosis Related Group,疾病诊断相关分组)管理效能得到显著提升,2021年三个月时间内,帮助医院累计优化数十万医保结算,并通过编码入组,将医保反馈分析工作量显著降低,甲级病案例病理质控也提升了10~20%。
同时,随着工业互联网时代的到来,我们在工业和制造业领域也看到了大量场景对数据安全的需求。比如,我们常常可以看到,一些地区正在试点的自动驾驶车辆,它的传感器就是把周围的人、环境等数据,与工业互联网数据进行耦合。如果这些传感器数据缺乏相关安全管控,很有可能引发大量安全相关问题。我们相信可信隐私计算技术将是工业制造业在数据密态时代的解决方案。如果有需要,蚂蚁隐私计算愿意参与到工业及制造业隐私计算技术的生态建设当中。
甲子光年:未来数据密态的市场空间将有多大?
韦韬:Gartner预测,到2025年会有50%的大型企业机构采用隐私计算,渗透率会超过50%。因为数据一定会经历跨主体的计算、传输与融合,其技术会分几个层级,比如数据加密、身份保障等。对于企业内部来说,数据加密可能成本过高,而隐私计算的“可算不可识”是企业更强的诉求,所以身份保障也是企业对隐私计算的刚需诉求。
我能够看到的是,未来这种数据的融合流动可能会超过50%。对于在企业内部的整个用户身份的“去标识化技术”,现在有很多企业都在研发和改进。传统企业可能系统改造难度更高一点,新的数字化企业可以直接上新的体系,但是这取决于整个社会对于隐私计算的诉求以及商业化支持的能力,但当下我认为肯定会超过 50% 。
而数据密态是一个更大的市场,隐私计算只是其中的一部分,具体来说,数据密态包括了数据安全、隐私保护和隐私计算。值得注意的是,隐私计算并不等价于隐私保护。隐私保护的要求非常多,现在我们把它扩展到可信隐私、数据密态的时候,也是希望能更好地承接隐私保护的要求。数据是一个非常复杂的东西,因为它本身是业务的血液,它跟具体的业务形态密切相关,不同的业务模式,不同的场景,使用的数据会完全不一样。
我们认为未来数据密态市场,可能所有的数据要素,都会建立在数据密态这样的基础设施之上,基本上和全社会的数字化转型的市场成正比,是一个万亿级市场。它有一套技术和基础设施涉及到大量的转型改造以及重构,这件事情的体量非常大,但是它需要投入的资源也非常大,是需要社会广泛协同来做的一件事情。
4.行业:“我能看到做这件事情的意义”
甲子光年:中国的数据安全保护,商业、技术、法律三方应如何配合?还有哪些不完善的地方?
韦韬:首先我们必须要承认一个事实,没有什么东西是完善的,但我们能做的是在动态过程中不断尝试和演进。在数据安全与隐私保护这件事情上也是同样的道理,商业、技术、法律领域的专家们需要紧密协同寻找平衡。目前欧盟和美国对隐私保护的态度是两个极端,一个过严,一个过松,都不是好的范例。法律和行业发展需要在摸索与实践中前行。
值得肯定的是,在数据安全与隐私保护大方向上行业已经基本形成了共识,必须得重视数据安全,用高水平安全保障高质量发展。我们了解到,很多相关部门领导和安全相关负责人对保护隐私的重要性也有了非常清晰的判断。一方面要做到保护消费者和企业的权益,另一方面要防止矫枉过正,不把数据市场锁死。
甲子光年:如何看待近两年全球隐私计算专利榜Top10中开始出现中国企业的这一变化?
韦韬:数据安全和隐私保护领域是个非常新的学科。过去微软、 IBM 的领先优势非常大,但近几年蚂蚁集团做了大量的工作并实现反超。蚂蚁集团对隐私计算涉及的所有技术路径都进行了深入研究,相关专利数达1152件,在2022年全球隐私计算技术发明专利榜中排名第一。因为我们认识到,在如今复杂的应用场景之下,单一技术路径无法解决所有问题,数据密态的实现一定会基于多种技术的融合。
其实微软和IBM非常重视隐私计算,但我们投入了更多的资源和更高的热情。我们看到欧洲对隐私保护有过强的要求,这其实对于企业的技术发展不利。美国这边又比较松,企业更没动力去推动。中国处于比较均衡状态,行业会更加有热情去做这项技术。
专利是个双刃剑,一方面推动技术的发展,另一方面方面其实又会造成技术垄断。我们在蚂蚁一直都持一种态度:我们的专利是为了更好地推动社会发展,防止被卡脖子,不会用于垄断。在国内,我们需要有很多的同行者,更好的能够支撑国家在这个领域的发展。对于业内竞争,我觉得这并不是一个值得担心的事情,因为这个领域太复杂,技术挑战太大,现在大家看起来已经做了这么多专利,但是离我们真正要解决的问题还有很远的距离。我们希望能看到更多的厂家进入这个领域,已经进入这个领域的厂家能投入更多资源。
其实,我很高兴看到国内同行们在隐私计算领域也申请了大量专利 。前些年中国在很多领域里都面临着“专利卡脖子”问题。比如说大家很关注的 4G、5G ,当重要专利都控制在国际巨头手上的时候,中国是非常吃亏的。我很高兴蚂蚁集团不是在孤军奋战,当越来越多的中国企业共同推进数据安全,未来我们就不会在这个领域受制于人。
甲子光年:数据密态时代多久能真的到来?
韦韬:数据密态时代会经过计算密态化、大数据密态化、数据要素密态化等三个阶段。
“计算密态化”阶段,指的是各个机构出于业务发展的最急迫需求,在最核心的几个场景开始尝试密态计算,通过联邦学习、MPC等隐私保护技术,开展最基础的计算、分析、建模等工作,相对固定且复杂度有限。主要目的是在保护自身数据的前提下,获得更有价值的计算结果。一般直接从多方的明文数据源直接获得结果,实现数据“可用不可见”的基本要求。
在“大数据密态化”阶段,各个机构开始全面使用密态计算获得收益,无论是要处理的数据规模还是复杂程度将远高于第一阶段。在这一阶段,数据密态处理将越来越多地呈现出大数据处理的特点,包括留存大量的中间结果以供后续的环节使用。传统的大数据平台也将向密态大数据平台演进,支持密态计算、密态存储等密态能力在大规模、高性能的复杂场景中应用。这一阶段的核心在于实现数据持有权和使用权的分离,保障数据使用权的跨域管控。
在“数据要素密态化”阶段,数据将会在全行业、全社会进行广泛和深入的流动,一次密态计算可能包含同行业、跨行业的大量机构的数据,一份数据也可能会流经多家机构并且在流动的过程中不断演进。在这一阶段,要在数据持有权和使用权分离的基础上,实现多方、异构互联。同一份数据持有权仅由最初的机构拥有,其他机构仅能获得使用权,避免数据被到处复制、留存。除此之外,还需要解决数据的定价、平台的公信力等问题。
目前,密态时代仍处于第一阶段,未来有着极其广阔的发展前景。同时,密态时代发展所面临的技术挑战既涉及的维度多,又有非常大的难度。因此,密态时代需要一个兼顾高安全、高性能、高稳定性、高适用性、低成本等多方面能力的技术方案,为数据价值的充分挖掘提供坚实底座。在技术要求方面,数据密态时代到来的标志性事件有五个衡量标准:一是性能强大,要达到每小时处理亿级样本数据建模;二是可靠稳定,在关键应用领域要够达到99.99%的标准;三是成本足够低,要让企业普遍负担得起;四是适用性广,要做到覆盖全场及和支持不同处理逻辑;五是安全性足够高,能够有效抵抗实战威胁,为行业发展提供有效保障。
其实我们已经在逐渐接近这些技术门槛,近期就能看到阶段性成果 ,所以技术本身并不是数据密态时代到来的最大难点,治理和协同才是。数据密态的到来还需要三到五年,这个过程需要同行共同推进。
甲子光年:数据密态时代,蚂蚁扮演的角色是什么?
韦韬:过去中国在很多技术的发展上都滞后于国际水平,但是数据安全领域还处在发展早期,中国是有机会在世界范围内领先的。 “数据密态”是蚂蚁集团在数据安全与隐私保护技术领域展望的大趋势,我们认为这个方向有可能成为国家在整个数字领域的核心竞争力之一。在通往数据密态的道路上,蚂蚁扮演的是建设者和推动者的角色,努力为行业发展带来微小而积极的改变。
今年9月,2022世界人工智能大会可信隐私计算高峰论坛成功举办。中国科学院院士王小云,美国三院院士Michael I Jordan,加州大学伯克利分校计算机系教授Dawn Song等20多位产学研界顶尖专家,共同探讨了可信隐私计算技术的挑战和未来。这场论坛被誉为全球范围内学术规格最高的一场隐私计算行业论坛。蚂蚁有幸作为这场论坛的主办方之一,为行业搭建高质量的交流平台。
在技术建设方面,蚂蚁集团由于业务属性、布局早等原因,我们已经在“数据密态”这个方向上已经做了很多研究和尝试。经过6年多探索,蚂蚁集团自主研发了技术领先、应用成熟的隐语可信隐私计算技术栈。这套工业级技术栈融合了千余项专利,功能全面、安全易用,能够实现数据的“可用不可见”“可算不可识”。隐语可信隐私计算技术栈入选了2022世界人工智能大会“八大镇馆之宝”。
我们很乐意把自己经过沉淀的经验和技术与同行分享,而且在持续通过开源开放、标准共建、人才联合培养等形式,与外部共建隐私计算生态。蚂蚁集团先后开源了TEE操作系统Occlum、隐语可信隐私计算框架。9月的可信隐私计算高峰论坛上,我们继续加大开放力度,面向全球用户发布了“隐语开放平台”,希望帮助用户低成本探索隐私计算应用场景。
总体来说,实现“数据密态”的目标不是靠一人之力能达成的。我们需要在主管部门的指导下,和同行伙伴、高等院校、科研机构一起在技术创新、生态共建上持续发力,继续加大开放共创力度,与行业一道构筑高技术、高水平的数据安全堡垒,共同推动数据要素行业的安全健康发展。
本文来自微信公众号“甲子光年”(ID:jazzyear),作者:张怡,36氪经授权发布。