本文来自微信公众号“当下Tech”(ID:dengling40),作者:当下君,36氪经授权发布。
图片/来源网络
数据犹如万两黄金,持之闹市不能求其安,藏之深山不能得其用。
9月1日起正式实施的《数据安全法》正是为了解决这一问题,这意味着中国在围绕“更好的利用数据”的这一前提下,在数据安全方面初步建立起一套法律架构。
在数字经济蓬勃发展的今天,于国家而言,数据是具有战略价值的核心资产;于企业而言,数据正成为企业关键的生产要素;于个人而言,是个人财产安全和隐私保护的必要前提。
因此,正在掀起的中国社会的数字化2.0转型,本质上也对数据的积累、挖掘以及价值释放的过程中,增加了多方的安全责任。
这其中也隐含诸多挑战,例如,如何对数据进行确权,如何进行估值,如何通过法律确保数据的安全性,如何能够让数据在安全的前提下最有效的流通。
隐私计算因而成了一个热门话题,甚至有人认为,这是中国成为全球数字创新策源地的过程中,一个较为领先和创新的优势领域。
那它到底有何价值,又面临什么挑战?
最近几个月来,数据安全的话题,成为产业界特别是互联网产业界高度关注的焦点问题。
例如,为防范国家数据安全风险,维护国家安全,保障公共利益,网络安全审查办公室按照《网络安全审查办法》,对“滴滴出行”实施网络安全审查,且为防范风险扩大,审查期间“滴滴出行”停止新用户注册。
这件事让公众对“数据安全风险”能够上升到国家层面,第一次有了具象的认识。
笔者认为,《数据安全法》的颁布,并不是针对某些企业或某一类企业,而是但凡涉及数据处理的企业、机构、实体,均在这部法律的调整范畴之内。
但在笔者看来,该法的出台正是基于当下而不是基于过往,解决的是发展和未来的问题。
不得不承认,中国前20年的互联网行业发展非常迅猛,但这种迅猛是有代价的。其中一个核心问题是,主要的资源都优先解决商业效率问题,而企业需要担负的社会责任问题,则较少被关注。事实上,数据安全只是这些问题中的一个,其它如垄断问题、碳中和问题、员工权益问题等,也都是企业社会责任的一部分。
这一系列问题存在,体现了过去20年互联网发展中的“重发展、轻治理”的问题,其实也是一个发展型社会不可避免的。
当下,全社会的数字化转型进入加速期,叠加后疫情时代的国际形势变化严峻复杂,经济社会发展伴生的数据安全等问题,都让《数据安全法》的问世正当其时。
因此我们也认为,这部法规的出台主要是解决发展的问题,是站在今天看明天的一部关于发展的法律,是对过去20年数据安全问题的系统化思考后给出的解决方案。
举个例子,互联网医院蓬勃发展深得群众的欢迎。但与之社会价值不相称的是,截至目前,全国仅有极少数地区的部分互联网医院开通了医保可支付的线上结算。
国家相关部委也多次发布支持或鼓励性政策文件,明确提出——将符合条件的“互联网+”医疗服务费用纳入医保支付范围。
但为何推进如此缓慢呢,就是因为“符合条件”这四个字中,包含着数据安全问题,特别是隐私度极高的医疗个人数据。
是医疗机构或医保机构不愿意开放数据么?不是,而是没有办法有效的保证数据安全,所以,业内人士指出,“在自身监管能力不足的情况下,全国范围内大规模打通医保线上支付结算的概率几乎为0。”
从这个问题就可以非常清楚的看出来,由于缺乏确保数据安全开放流通的技术,一个符合民生需求、且有实际意义的政策就卡在实操层面难以落地。
所以说,数据安全的本质关乎社会数字化进程以及民生福祉。
说到数据安全,可以涉及方方面面的技术标准和能力,但近年来快速吸引市场关注的是“隐私计算”这个新的提法。
相应来说,对于各类涉及国计民生的大数据的安全,除了存储端的安全之外,最重要的就是确保数据在流通过程中确保安全。前面所举的医保支付的问题,就是一个典型的因为确保数据安全开放流通的技术达不到监管要求,造成数据要素无法迅速在各个体系内流通的反面案例。
大家都知道,中国之所以要花大力气搞新基建,推动数字化2.0转型,本质就是为了挖掘数据作为生产要素价值,开放数据的正向流动,可实现降本增效并给国民经济注入持续的推动力,但是,加速流通绝不能以牺牲数据安全为前提。
因此,如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下发挥数据价值,是当前面临的重要课题。以多方安全计算、联邦学习、可信执行环境等为代表的隐私计算技术为流通过程中数据的“可用不可见,可控可计量”提供了解决方案,已在一些领域开始推广应用。
因此可以说,隐私计算是在实现保护数据拥有者的权益安全及个人隐私的前提下,实现数据的流通及数据价值深度挖掘的一类重要方法。
而中国的隐私计算研究,一开始就是和国际同步甚至是领先的。
中国最早的隐私计算的产品化,可能应该是在中科院院士王怀民教授领导的云际计算项目(科技部重点项目)中产生的。
顾名思义,云际计算就是围绕不同云服务之间的云际协作,在这种协作中必然产生大量的数据流通,所以数据安全(隐私计算)成为云际计算的一个重要子集,甚至可以说是最重要的子集。
正是因为云际协作中的安全有巨大的现实意义,王怀民院士倡导开发了一种遵循云际计算的对等协作机制框架,在数据源端实现了资源平面数据访问和增加水印功能,在控制平面实现了合规检查和智能合约机制,在信息平面实现了价值交换转移记录以及审计信息的收集。
这一技术对于解决现实问题有巨大价值,成为科技部重点项目中推出的首个基于“产学研相结合”来实践数据融合方向的商业化落地产品,这个技术诞生了行业内很早就崭露头角的第一代UCloud安全屋(Safe House)。
2021年,UCloud的安全屋已经覆盖了,政府、金融、医疗、教育、汽车、制造业、防疫等应用场景;是业内起步早、应用场景广的隐私计算解决方案代表。所以笔者正好借用这一体系所涉及的几个技术方向,来介绍隐私计算的主要实现路径。
第一个场景,是服务政府、金融行业的数据开放,对应的则主要是数据沙箱技术。
这一应用路径的典型案例,也是上海市公共数据开放的首个行业应用——金融普惠,简单的说就是,包括上海市科委、市人力资源社会保障局、市规划资源局、市生态环境局、市住房城乡建设委等在内的多家政府部门,首批提供与普惠金融相关度较高的数百个数据项,把包括社保缴纳、住房公积金、市场监管、发明专利、科创企业认定、环保处罚、商标、司法判决等数据,通过上海市大数据中心,集中面向商业银行开放,通过打通政府和银行间的数据流通壁垒,提高银行风控能力,不仅可为商业银行进一步丰富普惠金融信贷产品体系,加大信贷投放力度提供支撑,还可帮助一部分小微企业获得传统金融机构信贷服务的机会。到今年3月,有18家银行通过大数据风控模式,发放超过600亿元普惠金融贷款。
UCloud的安全屋作为上海普惠金融平台开放数据流通的重要解决方案,为普惠金融提供了较好的数据安全管控的基础,而其中的关键就是“数据沙箱技术”。
所谓的“数据沙箱”,指的是一个虚拟环境,特点就是不能运行任何本地的的可执行程序,不能从本地计算机文件系统中读取任何信息,也不能往本地计算机文件系统中写入任何信息。
那在这种特殊限制环境下,如何又让数据充分的为下游所用呢?
这就是“数据沙箱”的魅力,结合云平台和数据交换技术,提供访问控制、数据脱敏、安全审计、数据分级管理,在保证系统数据安全性的同时,实现数据价值挖掘。
举一个例子,在UCloud的数据沙箱里,资源申请方通过数据沙箱对数据进行计算,得出所需计算结果,但却不触碰数据本身,严格确保数据的所有权和使用权分离。
这一解决方案因为符合典型的政府提供公共服务的特性,后来被运用在多个地方政府的大数据服务项目中。还有一个可想象的场景是,针对有跨境流通需求的数据,也可以使用安全屋解决方案,在不流通数据本身的情况下,有限定地输出计算结果,为数据安全流通监管提供技术支持。
第二个场景,是医疗场景。大家知道,医疗数据具有很高的价值,比如可以用于医保控费、保险精算、AI诊断算法的训练等,是现代医疗、医保体系都非常需要的数据源。
但和第一类可汇聚、相对简单的公共数据来说,医疗数据的第一个特点是不可汇聚(可以简单理解为,数据分布在不同医院),在这种情况下,数据沙箱就无法解决问题了。
无法解决的原因很简单,第一是医疗数据的隐私性极高;第二是,医疗数据的用途(保险精算、疾病研究)中对算法的复杂度要求不高,但由于是涉及生命的数据,所以对精度要求极高,这一点用数据沙箱无法完美承载。
在这种进阶需求的情况下,安全多方计算被引入。
安全多方计算起源于1982年著名计算机科学家姚期智提出的的“百万富翁问题”,简单说,就是在假设第三方不可信的前提下,如何安全地计算一个约定函数的问题,这其中的基础之一是密码学。
考虑到篇幅,我们不再介绍更多的细节,简言之,安全多方计算上具有高度的数据安全,虽然在性能上会有一部分损失,但融合安全屋技术基础,可很好地满足跨医联体协同的问题,所以正好和这个场景下的需求,很好的对应起来。
第三个场景,是数据源主要是多媒体影像的时候,这些数据的量很大,而且,一般都要引入AI算法,例如通过摄像头采集数据后,再进行动态影像的抽取和识别,这种情况下计算的复杂度会很高,不适合对算力性能有消耗的多方安全计算。
联邦学习,又名联合学习、联盟学习,它的本质是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
简单来说,两个机构各有一部分数据,比如腾讯有社交数据、阿里有电商数据,但是它们不能也不愿意把双方数据进行合并,联邦学习就可以通过加密机制下的参数交换方式,建立一个虚拟的共有模型,通过算法的分发,在数据不移动,不泄露,也不影响数据合规的前提下实现共同分析。
同理,这种方式也适合不同的高校科研机构,例如对医疗影像资料等具备很高科研价值的多媒体数据开放流通。
简而言之,UCloud安全屋从最初的数据沙箱技术演进为如今的三大技术平台,服务客户的领域也在不断扩大,从政府、金融,到医疗、教育等。在这背后是各行各业对数据开放流通的态度在转变,越来越多行业愿意通过成熟的解决方案拥抱开放,通过加速数据流通创造价值。
所以,在我们可以想见的未来,不仅UCloud的安全屋,其它致力于隐私计算的企业也会延伸出更多的场景和解决方案,那么,究竟哪些从事隐私计算的企业会在市场上更有竞争力?隐私计算的商业模式和商业价值又有哪些可以进一步挖掘的空间呢?
通过几年累积,今年,隐私计算开始真正进入大众视野。
无论是政策文件的密集发布,还是资本的扎堆入场,都在传递着同样一个信号,那就是隐私计算这个细分领域已经迎来了风口。Gartner发布的报告显示,到2024年,隐私驱动的数据保护和合规技术支出将在全球突破150亿美元,也就是说将成为一个千亿级市场。
事实上,目前隐私计算领域已经形成了“一强四小龙”的初步格局,其中的“一强”是国内较早研究、并应用隐私计算、已经有多个跨行业解决方案的UCloud,而“四小龙”分别指蚂蚁金服、微众银行、翼方健数和华控清交。
2018年6月,华控清交由清华大学发起成立,创始团队主要来自清华,公司首席科学家是清华大学金融科技研究院副院长兼区块链研究中心主任徐葳,核心技术骨干则来自清华大名鼎鼎的“姚班”,而姚班的创立者就是我们前面说的提出多方安全计算设想的大名鼎鼎的计算机大牛姚期智,可谓根正苗红。
蚂蚁金服、微众银行和华控清交的重合之处在于,它们都布局在金融赛道;而翼方健数则走了与其他三家不同的路线,将业务重心放在对隐私计算同样有较大需求的医疗赛道,前文也提到了,医疗场景对于多方安全计算、联邦学习都有巨大的需求。
另一类竞争者是传统的安全公司,他们可能从安全切入,确保整个数据的安全。
但是真正值得重视的,还是云计算背景的企业。即使如蚂蚁金服、微众银行,其背后也是站着阿里云、腾讯云,至于UCloud则是国内云计算第一股,以中立云而闻名。
为什么隐私计算离不开云计算?这是典型的场景倒逼。
云计算企业有三个比较突出的特点,其中首要特点就是——云计算企业在长期服务用户的过程中,更加了解用户的数据使用场景,有结合场景来开发产品的优势;
云计算企业开发隐私计算技术的第二个特点,是无论我们说的数据沙箱、多方安全计算、联邦学习等中的哪一种,本身都是大数据技术的一种,底层都需要有数据的大量的存储、分析、计算的能力,与云计算公司本身具有的计算、大数据、人工智能等技术具有很高的契合度;这是专门搞算法、搞安全的隐私计算创业公司所不具备的场景。
另外很重要的一点,数据要应用,薄弱环节在于流通,但并不是说储存环节就不需要安全能力,所以技术过硬的云计算厂商,本身具有安全能力的积累,这比某些专门做隐私计算的企业,更有底层安全保障。
这个行业的规律往往是,从实际需求出发的技术创新最能切合实用。比如腾讯有大量社交需求,所以音视频技术能力不断得到强化,可以复用在文娱、游戏甚至是腾讯会议这样的业务里;阿里有电商业务,所以关注云计算,以及金融科技赛道科技创新,所以有了蚂蚁金服;UCloud则因为创始人出身背景,一直追求差异化竞争等企业定位,非常关注云上数据安全,延伸到数据开放流通领域,就有了安全屋……所以笔者认为,隐私计算赛道的下一个竞争重点,一定是有云计算背景的企业、垂直隐私计算研发的企业和传统安全企业的“三国大战”。
而这场大战值得期待,因为这不是基于烧钱的营销竞争,是实实在在比拼技术创新能力的竞争,这种竞争越激烈,我们技术进步就越快。
而这场竞争,离不开与商业模式的结合。
从目前看来,隐私计算至少有三种商业模式有待探索。
第一种商业模式,提供底层技术服务。就像UCloud用“安全屋”,为上海、厦门的地方政府提供政府数据开放的安全服务,成为底层技术服务平台,通过平台服务费的方式来收费,这是最原始也是最确实的一种路径。
第二种商业模式,是不仅仅做平台,还把隐私计算技术拿出来产品化,其中既可以是像安恒这样的安全公司,推出的数据安全咨询服务体系等主打安全的产品,也可以像UCloud、百度智能云这样本身有大数据分析和人工智能专长的企业,把隐私计算+云计算+大数据/AI能力根据场景整合起来,形成类似深度学习平台这样的体系,从底层模型到开发套件、低代码工具、云计算套餐等整合起来,为广泛的生态用户提供强大而灵活的应用及二次开发能力,是“大平台”型模式,这种模式可以很好的解决第一种模式模板化的服务能力,是真正隐私计算的普及之道。
第三种模式更有想象力,就是做大数据交易平台。2020年4月,《关于构建更加完善的要素市场化配置体制机制的意见》正式发布,为推进数据要素市场化改革指明了方向;今年3月,北京国际大数据交易所正式成立,深圳等城市也相继发文规划设立交易场所进行大数据交易。伴随着《数据安全法》的实施,数据确权等问题开始有法可依,为保护数据资源的安全和可交易,提供了法律依据,这是面向未来、高度有想象力的一种数据交易模式。
目前,大数据应用的成功案例主要集中在欧美发达国家,国内外大数据产业差距较大。但从应用场景和社会数字化建设程度来说,国内的后发市场拥有很多优势,是一个非常有潜力的市场。国内蓬勃发展的大数据产业,一定会让中国的数据流通产业迎来更大发展机遇。受到市场需求推动的数据安全流通技术和产品,势必会在挑战和机遇中迎来快速发展的机遇,赶超全球先进的技术。
这是一个属于技术创新和商业创新叠加的新时代,希望中国的隐私计算能找到自己的星辰大海。