编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),36氪经授权发布。
选自 | arXiv
作者 | Joseph Bullock等
随着新冠疫情的持续发展,全世界的研究者都在致力于疫情的缓解,其研究重点包括:追踪病毒传播、促进病毒检测、开发疫苗、寻找新的治疗方法、了解疫情的社会经济影响等。在这篇综述文章中,来自杜伦大学、蒙特利尔大学、WHO等机构的研究者探讨了 AI 相关技术在疫情中发挥的作用,总结出了 AI 在医疗、分子、社会三个层面的应用。
具体来说,分子层面包括药物挖掘等相关研究;医疗层面包括个体病人的诊断和治疗;社会层面包括流行病学和信息医学研究等。此外,论文还综述了当前可用的开源数据集和其他资源。
这篇综述的目的并非评估文中所述技术的重要性,也不做推荐之用,而是向读者展示当前 AI 技术在抗击疫情方面的应用范围。
论文链接:https://drive.google.com/file/d/1vDcb6HeS-hufNgqH0dDhIEGjuJpnnkzT/view
迄今为止,AI 在应对 COVID-19 上的应用大多集中在医学成像的诊断上。在近期多篇文献中,除了使用患者医学数据预测疾病进展的方法、用于病情监测的无创检测方法,还有 AI 协助计算机进行 CT 诊断的案例。
RT-PCR 测试是诊断 COVID-19 的关键方法,但这种方法仍存在样本采集、分析时间等局限性,所以人们越来越关注使用医学成像技术进行 COVID-19 诊断。COVID-19 具有特殊的放射学特征和图像模式,这些特征均可通过 CT 扫描的方式观察到,但对于放射学科的医务人员来说,识别这些图像也颇为费时,因此在 CT 扫描诊断过程中使用机器学习方法是一种理想的选择。
多项研究已经将诊断定为二元分类问题,即「健康」与「新冠病毒阳性」。
Wang 等人使用改进过的 Inception 神经网络架构,对医生确定过的区域进行训练,从而对健康患者和新冠患者进行二元分类。基于 259 位患者的约 1000 个图像切片的数据集,研究者训练出了能够识别疑似 COVID- 19 的模型,然后将结果提供给医生作进一步诊断。
Chen 等人也发现,在经由专业医生标记过的 6000 多张 CT 图像切片数据上训练 UNet++神经网络,其性能可接近专业医生的诊断水平。这一模型之后在武汉大学人民医院进行部署,用以协助医生加快对病例的分析及诊断,目前这一模型也已开源。
其他机器学习方法将诊断归结为 3 种分类任务:健康、COVID-19 患者及其他类型肺炎患者。
在 Xu 和 Song 的研究中,经典的 ResNet 架构可用于特征提取。Xu 等人添加了几个用于分类的全连接层,Song 等人则添加了特征金字塔网络(Feature Pyramid Network)和注意力模块,使网络更加复杂,但在图像细粒度方面表现更好。
这两项研究均表明,即使在诊断过程中可能存在多个疑似结果(包括非 COVID-19 的肺炎类型),这种方法也能够准确地区分开来。
此外,还有一些研究采用了融合型方法:将现有的软件与特定机器学习方法相结合,以实现更高的准确性。
在 Gozes 等人的研究中,商业医学影像程序可用来进行原始图像的处理,然后与一个 ML Pipeline 结合使用。这种两步式方法包含在肺异常医学影像数据上训练过的 U-Net 架构,以及在 ImagetNet 上训练过的 Resnet-50,其中图像分类已微调为「Coronavirus」和「健康」。
Shan 等人的研究中,采用了「human- in-the-loop」的方法减少机器学习架构所需的标记时间。研究者使用少量人工标记的数据来训练基于 V-Net 架构的初始模型。
该模型对新的 CT 扫描影像进行分割,之后经由专业医生校正,在迭代过程中不断反馈到模型中。这种方法使得基于深度学习技术的系统可用于自动分割和感染区域统计,以及评估患者 COVID-19 病情的严重程度。
研究表明,该模型的性能逐步提升,经过 200 个带注释的示例数据训练之后,将新图像分析所需的人工时间从开始的 30 分钟以上减少到 5 分钟以上。这个方法将机器学习的优势与人类的专业知识相结合,是一个前途广阔的研究方向。
另外一种不需要特殊医疗成像设备的原创性方法是,通过 Kinect 深度相机来识别病人的呼吸模式。
该方法基于最近对 COVID-19 患者症状的临床发现,即 COVID-19 患者的呼吸模式不同于其他流感或普通感冒,其较明显地表现出呼吸急促症状。
基于以上临床信息,研究者开发出一种具有注意力机制的双向 GRU 神经网络,并使用它来识别反常的呼吸模式。
研究者使用 20 名参与者的真实数据以及基于真实记录产生的大量仿真数据来训练该模型。虽然这些反常的呼吸模式并不一定与真实的 COVID-19 诊断相关,但对这些呼吸急促症状的预测可作为首要诊断特征,为大范围监控潜在患者提供帮助。
另外一些方案是使用手机来检测 COVID-19,有使用嵌入式传感器来识别 COVID-19 症状的,也有通过回答在手机调查问卷中的一些关键问题来排查高风险病人的。虽然以上方法都是在移动技术方面的重要尝试,但目前的研究并不足以评估这些方法的可行性与性能表现。
Yan 等人提出一种基于患者临床数据与血样检测中特征的预测方法,该方法能够帮助临床医生尽早地识别出高风险患者,希望以此提高患者的预后以及减少重症患者的死亡率。
与此研究相类似的方法有,基于 XGBoost 算法的预测模型,其用于预测死亡风险和识别能够在医院中进行检测的关键测量特征。基于 375 名患者的数据,作者从 300 多个输入特征中筛选出三个关键临床指标,为预测患者死亡率提供了一种临床启发式的依据。该方法的一大优势是其具有良好的可解释性,因为筛选出的这三个指标与 COVID-19 病理学进展中的几个最重要因素相关,即细胞损伤、细胞免疫与发炎。
一个与此互补的研究是,在半自动标记的 CT 影像上训练一个 U-Net 变种,该方法旨在预测 COVID-19 患者是否需要长时间住院观察。这意味着一旦完成初期诊断,我们仍然可使用机器学习的方法来预测患者病情的严重程度以及是否需要长期住院。
蛋白质具有的 3D 结构由它们的基因序列决定,并且该结构会影响蛋白质的功能与作用。一般而言,蛋白质结构通过 X 光晶体衍射图谱法等实验研究法来确定,但这些方法花费昂贵、耗费时间。
最近,计算模型已经被用来进行蛋白质结构的预测,主要有两种方式:一种是模板建模,它的原理是利用相似蛋白作为模板序列进而预测蛋白质结构;另一种是无模板建模,它主要预测那些无已知相似结构的蛋白质的结构。
2018 年底,谷歌 DeepMind 重磅推出 AlphaFold,它能够利用基因序列预测蛋白质结构。给定一种新的蛋白质,AlphaFold 利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。根据神经网络预测的两种物理属性,DeepMind 还训练了一个神经网络以预测蛋白质成对残基(residues)之间距离的独立分布,这些概率能组合成估计蛋白质结构准确率的评分。目前,AlphaFold 可以预测与 SARS-Cov-2 相关的 6 种蛋白质的结构,分别为 SARS-Cov-2 膜蛋白、蛋白 3a、Nsp2、Nsp4、Nsp6 和 papain-like 蛋白酶。
当前,机器学习和新型基因组技术也用来提升 PT-PCR 的测试效果。Metsky 等人利用 CRISPR(一种通过割裂特定基因遗传代码链并利用酶来编辑基因组的工具)来进行检验分析设计,用以检测包括 SARS-CoV-2 在内的 67 种呼吸道病毒。此外,对于那些被预测为敏感性和特异性并且涵盖多种基因组的检测分析,有些 ML 模型可以加速它们的设计。
发现当前药物可以用来治疗 COVID-19 的一种方法是生物医学知识图谱。生物医学知识图谱网络可以捕捉蛋白质与药物等不同实体之间的联系,从而可以进一步了解它们彼此之间的关联。
Richardson 等人利用生物医学知识图谱识别出了巴瑞替尼,这是一种通常用于治疗关节炎的药物,但由于它能够抑制 AP2 相关的蛋白激酶 1(AAK1),使得病毒很难进入宿主细胞,所以该药物可能适用于 COVID-19 的治疗。
Ge 等人也提出一种类似方法来构建关联人体蛋白、病毒蛋白和药物的知识图谱,它所使用的数据集捕捉了这些实体之间的关系。这种知识图谱用来预测可能有效的候选药物。作者已经识别出了多聚腺苷酸聚合酶抑制剂 CVL218,目前正处在临床试验阶段。
其他一些研究也利用创建的模型来预测蛋白配体的复合物亲和性,以解决老药新用的难题。Hu 等人使用多任务神经网络对亲和性进行广义预测。作者已经识别出了一系列 SARS-Cov-2 相关的蛋白质,如 RNA 依赖的核糖核酸聚合酶、3C-like 蛋白酶、解旋酶以及包膜蛋白等等,从而借助于 4895 种药物的数据集展开靶向治疗。
他们推荐了 10 种可能有效果的药物以及这些药物的靶蛋白和复合物亲和性评分。为了提升模型的可解释性,他们还对每个靶蛋白可能出现结合的精确位置进行预测。
同样地,Beck 等人利用他们提出的 Molecule Transformer-Drug Target Interaction(MT-DTI)复合物亲和性模型,识别出美国食品及药物管理局(FDA)批准抗病毒药物中可能对 6 种冠状病毒蛋白质(分别为 3C-like 蛋白酶、RNA 依赖的核糖核酸聚合酶、解旋酶、3』-to-5』核酸外切酶、endoRNAse 和 2』-O-ribose 甲基转移酶)有效的药物。
MT-DTI 模型以 SMILES 数据和氨基酸序列的形式输入串数据,并运用一种借鉴 BERT 算法的文本建模方法。此外,该模型识别的药物可能对上述蛋白具有靶向效果。
最后,Zhang 等人利用密集全连接神经网络,它在 PDBBind 数据集上被训练用于预测复合物亲和性,从而识别 3C-like 蛋白酶的潜在抑制剂。他们利用 SARS 病毒变体创建了靶蛋白同源(模板)模型,并探索现有复合物(如 ChemDiv 和 TargetMol)和三肽的数据集,从而找出对蛋白质具有靶向效果的治疗手段。
一些研究者试图寻找新的化合物,用来治疗新冠肺炎。Zhavoronkov et al. (2020a) 等就使用了一个专有管道,寻找类 3C 的水解酶抑制剂。他们的模型使用了三种输入:蛋白质晶体结构、类晶体的例子,以及蛋白质模型本身。对于每个输入类型,研究者拟合了 28 种不同的模型,包括生成自编码器和生成对抗网络。研究者使用强化学习探索潜在的候选药物,其中有一个奖励函数和一些标准——药物相似性、新颖性、和多样性相联系。同时,他们确认识别出的候选化合物和已有的化合物不同,说明它们确实找到了不同的药物。
Tang et al. (2020) 也使用了强化学习来发现药物。研究者整理了 284 种已知的分子——能够抑制 SARS 类病毒。他们将这些蛋白质打碎成 316 个片段,然后使用高级深度 Q-learning 来组合,进行药物设计。这种强化学习的奖励函数有三个评价角度:药物相似性分数、加入的预定义「倾向使用的」片段和出现的已知药效集团(和化合物的功效有关的特定结构)。
结果,有 4922 个结果通过启发式搜索被过滤。最终有排名最前的 47 个化合物在分子模拟中进行评估。研究者会选择最可能有效的化合物,并进行生产和测试。
流行病学研究覆盖领域极其广泛,其流行的规模和相关性,以及数据的实时更新等多方面因素导致了研究工作必须进行多种类建模。但此次团队将专注于用机器学习去完成流行病学建模的案例。
鉴于流行病感染速度迅速,所以短期实时预测是作为提供信息的重要来源之一,同时模型必须兼备灵活性,以适应各种不断变化的协议或是程序。
Hu et al. (2020b)†收集了 WHO 以及其他预测参与者于 2020 年 1 月 11 日至 2 月 27 日期间收集的数据,用以开发创建一个新的关于中国国内累积或是新增确诊病例的数据集。这些信息主要用于训练调整后的自动编码器(MAE),以便实时预测新病例,并估计流行病的严重程度以及持续时间。
类似的,Al-qaness et al. (2020) 模型可以使用历史数据并提前十天预测确诊病例的总人数。而作者的模型是基于 neuro-fuzzy inference system (ANFIS) (Jang, 1993),flower pollination algorithm (FPA) (Yang, 2012) 以及 salp swarm algorithm (SSA)(Mirjalili et al., 2017) 进而最优化模型里的参数。
而 Mizumoto et al. (2020) 通过 ML 的方法利用从钻石公主号游轮上所收集的感染数据来了解无症状病例的发生率。作者利用这些数据通过贝叶斯分析对时间序列进行建模,并使用了 Hamiltonian Monte Carlo (HMC) 以及 No-U-Turn- Sampler (Homan & Gelman, 2014) 进行调整模型参数,从而预估无症状感染者的可能性。尽管在这种封闭式环境中进行分析是非常重要的,但是否值得对外适用于更广泛的人群还有待观察。
当下社交媒体以及在线平台已成为疫情相关信息的主要传播渠道,而团队更看重的是「信息流行病」,如错误信息的信息或是谣言会越传越广。
Cinelli et al. (2020)†分析了与 COVID- 19 相关社交媒体的内容,作者从 Twitter, Instagram, YouTube, Reddit, 以及 Gab 中收集的 800 万条于 2020 年 1 月 1 日至 2 月 14 日间使用 COVID- 19 关键字的评论或帖子。作者预估了对 COVID- 19 话题的参与度,并横向比较了各平台间话题的发展进度。互动参与度是通过使用累积的贴子数以及 45 天内对帖子的反馈来反应的(如评论,点赞等)。作者采用 phenomenological (Fisman et al., 2013) 以及经典 SIR 模型来表示信息传播或复制的数量。
类似的,Mejova & Kalimeri (2020)† 研究对象是使用带有病毒相关内容的 Facebook 广告,通过使用「冠状病毒」以及「COVID- 19」等关键字去搜索所有广告,其范围覆盖了 34 个国家及地区,并收集了 923 余条结果。大部分位于美国和欧盟,而其中 5% 的广告是具有较强的误导信息。
此外,也有研究者着手于新冠病毒特定新闻内容的整理,并进行了人工和自动的真实性验证和相关性分析。Pandey et al. (2020)†开发了一个评估每日新闻头条和 WHO 建议之间相似度的渠道。如果相似度高于某个阈值,则这篇新文章就会在用户的时间线上出现,同时附有 WHO 的相关建议。
其中相似度的阈值由人工审核确定,依据用户反馈不断更新。针对相互矛盾的信息,这种方法可以帮助大众识别准确可信赖的新闻报道,也能促使重要的指导性文章产生更广泛的影像,推动官方的关注与采纳建议。
利用 AI 抗击新冠病毒离不开各种开源数据集和其他资源,本文重点介绍了当前可用的案例数据、文本数据和生物医学数据。
案例数据是指病例的数量和地域分布,这种数据对于追踪 COVID19 疫情的蔓延具有重要作用。这份综述列举的案例数据包括:
WHO COVID-2019 现状报告:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports
约翰·霍普金斯 CSSE:https://github.com/CSSEGISandData/COVID-19
nCoV2019 GitHub 项目:https://github.com/beoutbreakprepared/nCoV2019
人道主义社会交换项目:https://data.humdata.org/event/covid-19
专为医学专家开发的项目:https://github.com/CodeForPhilly/chime
意大利封锁后的移动变化数据:https://covid19mm.github.io/in-progress/2020/03/13/first-report-assessment.html
NLP 方法在这次疫情研究中发挥了重要作用,利用该技术解读的大量文本信息可以帮助我们了解当前有哪些信息是已知的(如病毒传播、环境稳定性、风险因素等)。这部分的数据包括:
WHO 全球新冠病毒研究文献数据库:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/global-research-on-novel-coronavirus-2019-ncov
当前最大的新冠相关文献开源数据集 CORD-19:https://pages.semanticscholar.org/coronavirus-research
Kaggle 开源数据集挑战赛:https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
其他开源数据集:https://www.ncbi.nlm.nih.gov/research/coronavirus/;https://covid-19.dimensions.ai/
社交媒体数据集:https://github.com/echen102/COVID-19-TweetIDs;https://www.kaggle.com/smid80/coronavirus-covid19-tweets
目前,用于诊断的开源数据集和模型还不是很多。上文中提到的一些 CT 扫描方法可以找到,但用于训练系统的方法并没有系统地开源。目前,这一方向的努力包括:
Covid Chest X-Ray Dataset:https://github.com/ieee8023/covid-chestxray-dataset
Data Against Covid-19:https://www.data-against-covid.org/
在基因组测序和药物挖掘方面,有几个数据集是基于之前存在的计划或专门为 COVID-19 从零开始创建的。这方面值得关注的项目包括:
GISAID Initiative:https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
RCSB 蛋白质数据库:http://www.rcsb.org/news?year=2020&article=5e3c4bcba5007a04a313edcc
药物挖掘信息共享网站:https://ghddi-ailab.github.io/Targeting2019-nCoV/
跟踪新冠病毒遗传多样性的 Nextstrain:https://nextstrain.org/
蛋白质折叠游戏 Foldit:https://fold.it/
在文章的最后,研究者呼吁社区展开更多的跨学科合作和数据共享,通过国际社区的力量共同对抗疫情。