编者按:本文来自微信公众号“腾云”(ID:tenyun700),作者:邬贺铨,中国工程院院士,中国互联网协会咨询委员会主任,36氪经授权发布。
面对疫情大考,大数据展现出在疫情防控、物资调度、智能诊断等多个领域的价值。但我们是否应该为这张答卷“打满分”?邬贺铨院士分析指出,大数据在科学防控、精准施策方面还有很深的研究空间。
未来,要想真正发挥大数据的价值,还有赖于真实数据的开放、信息安全系统的建立和个人信息保护法律体系的完善。
01 “大数据抗疫”为什么成为可能?
习总书记指出“要运用大数据等手段,加强疫情溯源和监测” 。这是对大数据作用的肯定,也是对互联网行业的一个要求。
现在手机已经成为我们个人的另一张身份证。
中国和全球相比较,我们在2018年移动通信普及率是112%,全球是106%。独立移动通信用户(扣除了一户多号)的普及率82%,接近发达国家的水平。我们移动互联网的普及率也高于全球平均水平。可以说,我们国家有独立活动能力的人几乎都有手机,而且中国实行手机用户实名制,通过手机用户即可识别持有人的身份。
一般手机在待机的时候,用户也会从一个小区移动到另一个小区,这时候手机要不断接受基站发出的测量信号,通过读取基站下发的重选参数,选择最优小区进行驻留。在非待机情况下,重选实际上就是切换过程之一部分。因为用户一直在移动,而蜂窝半径又比较密,秒级的接收重选信息周期才能跟得上用户的位置更新,可以说信令数据具有实时性。
运营商利用移动通信信令可以知道用户所在小区,可以判断处于哪一个街区或乡村,定位精度在城市为百米级(200~300米)。利用移动终端至三个基站的物理距离关系,得到到达时间(ToA)或到达时间差(DToA),或得到移动终端至两个基站的到达角度(AoA),再由基站的定位服务器综合计算出移动终端位置,定位精度可改进到数十米。5G因基站更密,而且引入更为多样化的参考信号,定位精度有可能达到比米级更优。
全球导航卫星+数字地图可提升定位精度。
我国2019年4G用户占移动用户比例超过80%,均为智能手机用户。智能手机装有GPS或北斗系统,通常定位精度数十米,空旷地方精度可到米级,但无法定位室内用户。
数字地图公司基于车载GPS等导航卫星接收装置,对城市所有马路扫街得出道路与小区楼栋准确经纬度数据。现国内某公司就拥有7000万活跃POI位置点数据。不过GPS定位的坐标系标准与我国地图标准坐标系不同,两者的转换会带来不同程度偏差。
通常装有数字地图APP的手机只要开机并启用定位功能,便会发送GPS等新的位置信息到数字地图公司,基于卫星+数字地图比基于移动通信基站的位置分辨率高但覆盖不全,只限于装有数字地图APP的用户。以我国某知名数字地图公司为例,现有7亿下载用户,占全部移动用户的43%,覆盖率不到一半。
在这次疫情初期,我国的数字地图公司纷纷给出的人口迁徙大数据地图,它可以回溯武汉春节前将近500万人流到什么样的地方去,虽然没有覆盖全部手机用户,但也有很好的代表性。
我们从中可以分析疫情扩散走势,可以看出从武汉迁出的目的地以湖北境内为主。
有了这些数据,怎么来推测疫情的传播呢?
国际上一般使用一种叫SEIR的模型,它把人群分为4种,I是已经感染的人群,E是密切接触者,S是目前健康的,R是在最后可能康复的。北大陈宝权教授团队进行了一些改进,提出了C-SEIR模型,增加了P和Q两类,P是疑似人群,Q是确诊人群,他们从国家及各省市地区卫健委公布的地级市每日确诊数据出发,通过热度图和曲线图等数据可视化方式来展示疫情传播特点。
在1月22日之后,各地政府采取了严格措施和大众对防疫意识高度重视,将这些因素考虑进去,可以得到疫情蔓延的可视化地图。上述模型假设这个城市中感染者与未感染者之和是常数,即不考虑城市有新的流入和流出人群,对封城之后的武汉市是成立的,但其他城市不一定。实际上,利用电信的信令大数据可以将流入和流出的人口都考虑进去,使得模型更精确。
疫情的可视化表现可以有很多种方式,北大可视化实验室和美国雪城大学合作,每个省为一个方框,用颜色和图像表达全国各地每日累计确诊数(背景色)、治愈率(绿色面积占比)和死亡率(黑色面积占比)及其变化,定性和直观。
根据每个城市发布的新增新冠病毒感染肺炎疫情小区的报告,互联网公司以APP方式提供公众查询。可进入该小区的POI详情页面查看小区具体位置、与查询者的距离、新冠病例数、人流聚集地等内容,可查询的疫情分布小区已扩展到数百个城市。
现在要统筹推进疫情防控和经济社会发展,因返岗工作而增加的外来人口为疫情防控带来了新的挑战。互联网公司给出城市热力图,可查看实时人口流量密度,可以分析到区县级街区人口流动和分布情况,政府可以及时做出限流措施,尽量避免人流的聚集。
现在不少小区实行封闭管理,可利用专项排查APP,用手机对进入小区人员的身份证扫码,同时记录测温数据,自动上报城市社区管理云平台。该平台还可录入在药店购买发烧药和咳嗽药的人员实名数据。如能结合公交卡和网约车等实时数据,可进一步实现防控预警的动态精准管理。
利用大数据可以追踪确诊患者的行程,可以追溯在确诊之前半个月患者从哪里到哪里,每个地方停留多久,用过何种交通工具,包括日期、航班与车次,可据此寻找可能的密切接触者。现在有些地方依靠流行病学的调查从患者自述来了解他什么时间到什么地方,但患者可能记不清或说不准。而利用大数据分析病毒传播途径则更准确,筛查也更有针对性。
我们将卫健委、交通部门、工信部门、公安部门等的数据联动起来,可以更准确找出密切接触者。
比如说,卫健委将知道的确诊患者的姓名、身份证号信息通知交通部,交通部可以给出患者半个多月来乘坐过的航班车次,并提供与患者同一车厢中及相邻座位的旅客身份证号,据此工信部找出可能的密切接触者的手机号,地方政府获得这些信息就可以联系到密切接触者,上述数据都是在政府部门间流转。
除了官方查找外,网上已开放了同行查询平台,公众可以通过输入姓名和身份证号及航班、车次车厢等查出所乘坐的航班车次和车厢有没有确诊患者,以便决定是否需要主动隔离。平台还可自动记录被列为密切接触者的查询人信息并推送到有关部门,以便及时管理。
在腾讯医典小程序中,联合国家卫建委和中国政府网推出的“患者同乘”接触者查询功能,依托国家“互联网+监管”系统汇聚的卫生健康、铁路、民航等部门的数据进行查询。
目前正值返城复工或节后回家,一些人隐瞒来自疫区或到过疫区的经历,虽无症状但可能已经感染并有很强的传染性,将导致疫情扩散。但强制外地回来的人开具来源地或健康证明很不现实。手机定位信息可查出自疫情发生以来该用户是否来自疫区或到过疫区。
从隐私保护考虑,电信疫情大数据平台目前不对街道和乡镇开放。但查询自己的信息不违反关于个人信息保护的相应法规,现在工信部统筹三大运营商提供关于用户行程的短信查询服务,用户可查询本人在前14天去过哪些地方(停留超过4个小时)。
手机用户在被问及有关行程问题时,可用此短信自证,平台开放一周来累计查询已超五千万人次。
现在面临返程复工,有些地方对来自疫情确诊人数较多的一些省的人员一律拒绝进入。实际上外防疫情输入不能简单化扩大化,严控但不能失控,硬核更不能乱来,还是需要科学防治精准施策。当然对返程人员做一些检查是必要的,虽然会给旅途带来一些影响。
现在数字地图公司给出了“返城直通车”APP,以自驾车从一地到另一地为例,列出沿途经过的城市的疫情状况、路途上有多少检查站,可查询各高速路口的实时车流量并推荐最佳路线图及预计用时,还给出目的地城市对进城的人有什么管理要求等,方便返程的人知道路上要多长时间,要做好什么准备。
杭州对市民和拟进城人员实施绿、红、黄三色“健康码” 管理,并与钉钉企业复工申请平台打通。根据用户是否曾接触过确诊/疑似病例,是否来自重点疫区,以及自我隔离时间长短来判断。通过亮码自证或扫码认证,绿码通行,红码和黄码需按规定隔离并健康打卡,满足条件后将转为绿码。为了避免市民填写虚假信息,“健康码”需要依靠云端数据实时更新并对个人的信息及时修正,可迅速比对出不实信息。
除了电信、互联网公司的大数据以外,实际上还有其他大数据。
以电力大数据为例,国网杭州供电公司针对居民短暂和长期外出、举家返回、隔离人员异动等三个场景,对杭州滨江近16万户居民、超过1000万条电力数据进行分析,开发出精准判断细微用电数据差别的6套算法模型,准确得到区域内人员日流动量和分布,社区人员据此判断业主状况,及时做好登记和服务。
根据用电量恢复情况还可宏观判断复工率, 2月14日浙江复工电力指数为27.55,虽较2月9日增加17%,但全省复工率还不到三分之一,温州属于浙江省内疫情比较严重的地方,复工率只有12%。
大数据不仅用于追踪人群等等,还可以帮助治疗诊断。
从统计数据看,新冠肺炎患者的核酸检测目前仅30%到40%是阳性,因取样于鼻咽部而非肺部,用CT可以看到肺部被感染的情况,CT可作为辅助诊断手段。一个患者的肺部CT照片有很多张,借助AI可以将肺部的上百张CT照片还原为一幅3D影像。基于对众多新冠病毒感染肺炎患者CT影像的大数据分析,结合AI技术可开发出智能评价系统,帮助医生进行病灶分级,量化评估用时可从常规5个多小时缩短到几分钟。
利用AI技术对CT图像进行自动分割,“腾讯觅影”AI专用CT设备最快2秒即可完成新冠肺炎识别,相关设备已在湖北进行部署。上图中,绿色圈是肺部,蓝色圈是新冠肺炎病灶。
大数据在新冠病毒肺炎新药与疫苗研制中也有很好的作用,新药研制包括新药的筛选和活性的评价、药理学研究和安全性评价,还有制剂和药学等许多方面的研究,然后还要进行临床疗效和安全性的试验。通常周期比较长。
在目前还没有特效药的情况下,老药新用是较快的途径,已上市或临床试验的药物有近万种,即便从艾滋病和流感药物中筛选和药效试验及评价工作量也很大,这时过去积累的相关大数据就很有用。以清华大学药学院的人工智能药物研发和大数据分享平台为例,涵盖了既往冠状病毒相关研究中涉及的900多个小分子在不同阶段的相关实验信息等,有助于加快药物的筛选过程。
大数据优化医疗紧缺物资的生产组织与调度。
以海尔为例,其快速搭建的疫情医疗物资信息共享资源汇聚平台,已经连接了医院780家、社区、企业等500多家,发布医疗防护物资需求5500万件,从“全球采购”到“全球赋能”,平台实现了抗“疫”资源的精准对接。
湖北医疗物资需求信息平台由志愿者开发,爬取网上数据,按城市、医院、类别等分类呈现,展示需求数量、运输及联系方式。四川等地开发了新型肺炎防控应急物资管理系统,提供应急医疗物资集中入库、统一调度、审批出库和物资库存、日常消耗及需求情况等汇总上报的功能,大大提高应急物资配置调度效率。
大数据在哪些方面可以做的更深、更好?
我们利用大数据来助力防控疫情蔓延,但也要特别注意防止隐私数据的扩散。电信疫情大数据只包括信令和计费信息,卫星+数字地图数据也仅含个人行为轨迹信息,均不含通信内容。但这些数据由于与患者行为信息有关,涉及很敏感的个人隐私,尤其是当附加上病患标签的时候,因此这些数据只限疫情管控使用。
我们希望实现跨部门的数据融合,以此来支持对疫情的联防联控,但同时为了隐私保护,要管控数据在有限范围流动,有网络安全专家建议采用原始数据可用不可见原则来处理。
例如,国家指定机构建立大数据分析调试平台,有关部委(卫健委、交通部、公安部、工信部等)可以上传数据样本到该平台来调试分析算法和程序,一旦调试好程序,下发到相关部委的数据分析环境各自运行,对数据进行关联分析与挖掘,产生并上报脱敏的分析结果,由大数据分析调试平台来汇总,这种处理方式不改变数据归属所有权和存储位置,只带走不含敏感数据的分析结果。
根据有关法规,除国务院卫生健康部门依法授权的机构外,其他任何单位和个人不得以疫情防控、疾病防治为由,未经被收集者同意收集使用个人信息。
疫情大数据系统自身的安全防护需要特别重视。
与医疗有关的数据历来是黑客的重点对象,2014年我国医疗卫生行业网站被黑客攻击的次数为各行业网站之首。黑市上个人医疗信息的价值比信用卡信息还高50倍。2015年2月,美国第二大医疗保险公司被黑客盗取了8000万客户的个人信息。根据美国Royal Jay软件公司统计,医疗信息泄露带给整个医疗行业的损失高达每年60亿美元。
疫情大数据不仅有巨大的商业利益,还关联国家政治与社会稳定。医院的信息系统不是一个孤立的系统,与社保部门等合作单位甚至互联网都留有接口,存在被黑客入侵和网络攻击的风险。疫情大数据系统尽管是内网,也并非世外桃源。首先要明确对疫情大数据系统的接入权限,实施严格管理与过程审计,该系统要部署加密机、漏洞扫描系统、数据库审计系统等多种网络与信息安全防御手段,确保相关数据安全。
为什么这次新冠疫情大数据姗姗来迟?
自2019年12月武汉发现第一例新冠病毒病例以来的一个多月,未见电信与互联网企业关于疫情大数据分析的踪影,没有起到预警作用。在2009年美国甲型H1N1流感爆发的几周前,谷歌公司就给出了预测,与一周后美国疾控中心公布的数据相关性达到97%。这是因为Google积累了多年5000万条美国人的网络搜索词,找出流感期间的网上搜索词和实际发生流感的关联,建立数学模型,从而根据2009年与流感有关的搜索词的频度做出预测。
美国流感几乎每年都发生,而这次新冠病毒在过去从来未出现,即便SARS也是17年前的事了。现在网上信息太多,传染病根本没有被列到互联网行业关注的优先点。在发现不明肺炎之初,医疗机构的信息中心如能根据十多例病情分析出人传人的话,也能掌握病毒控制的主动权,可惜信息技术人员敏感性不够。
疫情大数据滞后的重要原因是疫情信息披露不及时,在发现最初野生动物作为传染源时,因案例少不足以触发疫情大数据分析,发展到人传人时记录人行为轨迹的大数据才能发挥作用。
事实上,不仅为了大数据分析,数据的及时公开对疫情防控有正面作用,华盛顿大学Louis Kim等教授建立的疾病传播模型显示,当媒体报道量增加十倍,此类疾病感染数减少33.5%。
大数据的应用也需要有法律保障。
在“传染病防治法”中规定了“县级以上地方人民政府卫生行政部门应当及时向本行政区域内的疾病预防控制机构和医疗机构通报传染病疫情以及监测、预警的相关信息”。但未明确哪一级地方政府是否有权收集当地运营商等与疫情防控有关的数据,也未明确应当开放什么数据。
建议出台“传染病防治法”实施细则,明确省市政府对疫情防控数据的收集权限和政府各部门及相关企业提供与疫情防控有关数据的责任。
电信大数据对疫情防控有用但还不够。
用户的信令数据记录的数据量取决于用户通信频次与待机时间重选小区发生频次,每用户平均每天200条信令数据,全国每天共计4000亿条信令数据,数据量很大,电信数据对移动用户全覆盖,实时性好。但基于基站的定位精度为百米量级,当该蜂窝小区发现有确诊患者时,不能判断同一小区用户都是密切接触者,对追踪密切接触者不够精准。
卫星导航+数字地图的定位精度数十米,比运营商基站定位法改进近一个数量级,缺点是覆盖移动用户数不到一半,如果能与运营商数据联动将能很好互补。另外,电信大数据和卫星+数字地图大数据对疫情防控有很好作用,但仅有这些数据是不够的,需要与卫健委、交通部门、公安部门等数据结合才能发挥更好的效果。这次疫情考验我们跨部门联防联控和协调调度机制,包括数据协调的能力。
智慧医疗涉及院前、院中、院后和医院管理全过程,还与医药产业及公共卫生管理密切相关,这次疫情防控就牵动了经济社会的方方面面,显然大数据的应用还有很大空间需要深入研究。与17年前的SARA疫情相比,新冠病毒疫情是更严峻的大考,但现在用上了先进的医疗技术和大数据等新一代信息技术,科学防治,精准施策。
在党中央的坚强领导下,在疫情防控的人民战争中大数据的应用环境将进一步优化,在联防联控精准施策中将发挥更大的作用。我们一定能够打赢疫情防控的人民战争、总体战、阻击战。
*本文系邬贺铨院士在中国互联网协会的网来学院的讲课稿改写,由作者授权发布