编者按:本文来自「富数科技」,作者「富数科技」高级总监黄奉孝(郭嘉),负责公司隐私计算的解决方案与业务落地。文章经36氪略作编辑。
隐私计算(Privacy Computing),指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,主要分为可信硬件和密码学两大技术领域。隐私计算是目前实现数据安全和数据合规分享的技术路径,本文将从技术概念介绍和应用场景出发进行介绍。
当前实现隐私计算的技术主要可分为可信计算和密码学两大方向。
可信硬件
可信硬件指可信执行环境,核心思想是构建一个安全的硬件区域,各方数据统一汇聚到该区域内进行计算。比较有代表性的是Intel-SGX、ARM-TrustZone、Ucloud-安全屋等。特点是速度快、语言更友好、算法更通用。
密码学
密码学指用算法实现对计算过程中的数据保护,以多方安全计算、联邦学习等为代表。
多方安全计算
即MPC,针对无可信第三方情况下,安全地进行多方协同的计算。在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,要求每个参与实体除计算结果外,均不能得到其他参与实体的任何输入信息。多方安全计算包含的基础技术有很多,比如同态加密、秘密分享、不经意传输、混淆电路等。
多方安全计算更多地是解决初级的算子,比如加、减、乘、求交等运算。比较有代表性的企业和平台是华控清交(Privpy)、蚂蚁金服(Morse)、富数科技(Avatar)、百度(点石)等。
联邦学习
即Federated Learning,基于多方数据进行联合建模,各自原始数据不对外输出,由中心方进行协调的建模,都可成为联邦学习。
联邦学习更多地是解决联合建模的业务问题,比如信贷风控中的常用的逻辑回归建模评分、精准营销中的常用的XGBOOST分类等建模。比较有代表性的企业和平台是微众银行(Fate)、蚂蚁金服(Morse)、富数科技(Avatar)、平安科技(蜂巢)、数牍科技等。(注:以上部分参考中国信通院对隐私计算的相关定义)
由于多行业均存在数据合规流通的需求,隐私计算的落地场景也分散于各行各业。以下列出了政务、医疗、金融、广告、供应链等行业对隐私计算的具体需求,希望介绍隐私计算的落地方向。
隐私计算"客户"拓扑图
政务大数据
当数据成为生产要素之一,将政务大数据赋能于新基建下的各行各业也成为一个重要课题。因此,政务大数据机构是隐私计算的重要客户之一,具体包括司法数据、社保数据、公积金数据、税务数据、水电燃气数据、交通数据、违章数据等。
政务大数据
政务大数据的隐私计算应用场景
举例来说,智慧城市就是一个复杂、错综、协助、共创的业务生态,包括信用、安保、能源、交通、规划、环保、文旅等各个行业,业务数据涉及到跨部门协同。智慧城市中打通以人为中心的数据也是“城市数据中台”的概念,这需要通过对城市居民的多维度信用评级,授予或者限制更多的权限。要做到对个人联合风控,其中需要横向打通的数据包括交通出行数据、水电燃气数据、公安数据、征信数据等。
医疗科研
在医疗机构中,病例数据作为最需要保护隐私安全的数据,对医疗科研与病情推断具有重要的价值。然而单个医疗机构的数据样本不足以支撑大规模的模型训练,传统的做法是将病例数据汇总、统计、销毁,这种操作是极其不安全的。
而在隐私计算领域,采用多方安全计算的方式,可以保证各家医疗机构数据不出库,加密计算,最终得到统计结果。
医疗科研
银行金融业务
银行作为传统金融机构的代表,在科技赋能的进化中,必然涉及到与外部数据的联合建模。银行也是隐私计算最可能率先完全落地的领域。
首先,银行找到存量用户需补全画像标签,才能服务于流失召回、交叉营销场景,这非常依赖于银行外部的数据。而隐私计算中的匿踪查询可以保证银行在查询外部数据的时候,避免用户信息被缓存。并且,小微企业贷等对个人或者企业进行信贷评估的场景,也需要依赖外部数据源做联合建模评估。
银行金融业务
保险营销与定价
保险公司从线下发展到线上获客,对精准获取潜客需求极大,这里的精准度直接影响触达的成本。另外,“定价失灵”是当前财产险行业经营面临的一个突出问题,主要表现为保费不足和未决赔款准备金不利发展。之所以会有“定价失灵”的现象,既有数据、模型和精算技术等方面的“前定价管理”原因,也有风险识别、核保、承保、销售、理赔、费用管控和准备金评估等方面的“后定价管理”原因。隐私计算可以为保险联合定价提供多维度的数据支撑。
基金管理
在母基金的管理中,我们需要计算每个基金的真实收益情况。而基金的持仓信息是一个非常重要的私密信息,它代表了基金的价值判断和策略导向,也是基金公司的核心机密。这里的矛盾在于,一方面母基金出于管理需要信息共享,另一方面是基金本身却需要保护这些商业信息,传统方法必然导致一方的诉求无法得到满足。使用多方安全计算,不仅能够同时满足双发的利益诉求,甚至可以让基金信息得到有效的政府监管、防止出现市场结构性风险,同时保证商业信息不被泄露。
大数据增值服务
像运营商、SDK厂商、支付厂商等机构,在开展业务的同时会积累大量的用户数据。它们通常会成立一个大数据子公司来做数据增值业务。传统的API直接调用和线下联合建模的方式已经不满足数据安全的相关要求。隐私计算技术也可服务于数据公司的对外服务平台,成为数据合规合法输出价值的一种解决方案。
广告平台联合营销
媒体平台对广告主进行营销投放过程中,需要用甲方的用户数据样本进行联合建模,传统的标签画像筛选更多地是凭领域经验,通过机器学习建模可以提高营销的ROI。联邦学习可以满足在广告主的数据不出库的前提下,得到营销投放模型。
广告平台联合营销
供应链金融
对供应链上下游企业而言,如何构建一个信息对称共享、核心企业信用价值可传递、商票可拆分流程是一个挑战。厂商可以基于区块链和密码学算法,提供金融资产数字化验证的方案,使企业能够将企业应收账款进行数字化资产登记,形成不可篡改的数据记录,并实现实时信息共享。
同时通过参与方分布式账本,参与方可以得到资产确认,将企业信用转化成数字资产。此外,审计入口也能方便监管机构审计和查看平台的资产交易情况。最重要的是,在传统区块链只能保证数据的不可修改性,通过多方安全计算和零知识证明等加密技术,可帮助区块链实现智能合约的公开审计确认能力与实际数据保密性的分离,让企业不再担心核心商业信息的泄露。
高校科研
高校的许多研究课题会脱离企业的真实数据实验环境,而联邦学习既能让高校科研使用企业真实数据进行课题研究,又可以保护企业业务数据不对外输出。这对企业和高校联合培养人才、挖掘科研价值具备促进作用。
量化投资模型
除了leval2等传统的交易所数据,量化投资领域更大的价值是通过互联网大数据的挖掘得到异类指标,这些指标通常被训练成投资决策模型。传统的私募基金通常将数据采购到本地,或者在数据服务端进行模型训练,这种方式的弊端是会造成投资模型的数据源侧安全性问题。
联邦学习可以将多方有价值的数据进行联合建模,训练出综合的决策模型,而模型实施部署采用分布式加密的方式,任何一侧的合作数据源都无法获得完整的原始数据。
总结
用户隐私安全是社会生产力发展到一定阶段的必然产物。当前很难回答隐私计算的具体市场规模,但在理想状况中,隐私计算的应用场景存在于几乎所有需要多方使用数据的地方,以上提到的企业和机构都需要数据合规分享的技术来协助业务开展。