编者按:从产品恶评、营收下降,到部门裁员,再到前不久部门负责人离职,Watson陷入空前舆论漩涡。
批评者自然个个态度鲜明,肯定者也无一不意志坚定,各种声音,让人莫衷一是。
作为一个深耕医疗领域的媒体,动脉网不敢让任何先入为主的态度主导我们的立场,相反,我们又使出了自己习以为常的笨功夫——
围绕“Watson在医疗领域究竟表现怎样”这个话题,近期动脉网做了大量调查,采访了大量有使用经验的医生、相关科室的主任、AI技术专家、相关的企业,获得了大量的第一手资料。
在本文中,我们并不试图给出一个具体的观点,只是想把获得的材料整理分类,原原本本地呈现给广大读者,帮助他们自己去判断。
遗憾的是,由于资料太过丰富,经过精简再精简,仍有万字之多。
为了便于读者阅读,本文分为4个板块,分别是:
板块1:突然陷入漩涡的明星
板块2:专家眼中的Watson优缺点及其贡献
板块3:沪、浙、豫、川医生们的使用体验
板块4:动脉网独家采访Watson中国总代理
请读者根据需要,选择重点阅读。
纵观全球企业史,不难发现,成功的公司之所以长久不衰,甚至兴盛百年,就是因为能够持续推出里程碑式的产品和服务,为自己拉出一次又一次的成长曲线。
对于蓝色巨人IBM来说,这类产品实在是数不胜数,如System/360、激光近视手术、RAM、PC以及大家熟悉的Thinkpad……
当前,Watson无疑也是被赋予了历史重任的产品。IBM希望通过其认知平台“沃森”,借人工智能之力实现自身向“认知计算”的转型。
按照IBM认知解决方案和IBM研究部高级副总裁John Kelly的说法,IBM Watson Health 的关注重点是,将下一代 AI 技术应用于癌症治疗。押宝癌症这一方向,IBM Watson Health目前已经开发了三个独特的癌症治疗解决方案,辅助全球各地的医生对患者进行诊治:
Watson产品线
Watson 肿瘤解决方案 (Watson for Oncology) 可以提供多种治疗方案,扩充肿瘤专家自身的专业知识;
Watson 临床试验匹配解决方案 (Watson for Clinical Trial Matching) 帮助将患者与可能挽救生命的临床试验进行匹配;
Watson 基因解决方案 (Watson for Genomics) 使用基因测序技术,向针对肿瘤的个性化医疗大踏步迈进。
在2017年以前,Watson还是普遍被看好的明星项目,与安德森中心的“分手”导致其被“拉下神坛”,负面消息接踵而至:
2017年2月,运营M.D.安德森中心的德克萨斯大学宣布关闭与 IBM 的合作项目,为合同上最初价值 240 万美元的项目向 IBM 支付高达3900万美元的赔款。
2017年5月,资深技术投资者和风投公司 Social Capital 的创始人 Chamath Palihapitiya 于 5 月份在 CNBC 上甚至直接炮轰:“沃森就是个笑话。”
....
2018年5月,IBM WatsonHealth被曝裁员;
2018年7月,IBM WatsonHealth被媒体曝出推荐'不安全且不正确'的癌症治疗方法;
2018年10月,IBM Watson Health部门负责人Deborah DiSanzo宣布离职。
整理媒体观点,会发现其对Watson产品的质疑实际可以归结于以下四类:
1.Watson事业部裁员50%至70%,证明有泡沫。
2.诊断准确性质疑,没有使用足够的真实病例,IBM尚未发表任何科学论文,证明该技术如何影响医生和患者。
3.数据集存在认知偏见,人工传授技能,非智能挖掘。
4.烧钱,而且营收疲软,达不到预期。
Watson面临现在的“窘境”,主要有四个原因
复星医药首席人工智能专家、大数医达CTO邓侃日前向动脉网阐述了其对于Waston这一产品的看法,他认为,Watson面临现在的“窘境”,主要有四个原因:
一是过度宣传Watson代替医生、超越医生,能够超越医生的认知,出具针对疑难杂症的治疗方案,这样的宣传迅速拉高了外界对于IBM Watson的期望。在业界还缺乏统一的测试标准,产品最终的临床效果还有待评价的情况下,过分夸大的市场宣传,对产品长期健康的发展并没有好处;
二是Watson目前的理论体系还不够完善,无法承担机器阅读的功能;
三是研发技术过程中,参与产品开发与研究的人员不够充足,真实病历数量较少;
四是IBM内部战略规划不当,在2015年8月份,IBM花费10亿美金,收购医疗图像公司 Merge Healthcare后,并未在影像领域有突出的成绩,资源整合路径规划不明。
Watson遇到困境并非技术问题
Watson这样的机器学习系统是如何训练的
根据公开资料显示,Watson能够支持如下方面,包括但不限于:
·理解自然语言
·大数据的理解和分析
·动态分析各类假设和问题
·精细的个性化分析能力
·在相关数据的基础上优化问题解答
·在短时间内提炼洞察、发现新的运行模式
·在迭代中学习,探索优化的解决方案
根据蛋壳研究院的研究,Watson 的处理逻辑是一个集自然语言处理、信息检索、知识表示、自动推理、机器学习等开放式问答技术的应用,基于为假设认知和大规模的证据搜集、分析、评价 而开发的DeepQA。
雷锋网在翻译James Hendler教授的一篇长文中,揭示了Watson 基于“关联知识”构筑而成实现过程。简而言之,在医生输入有关患者医疗状况的信息后,该应用程序会通过分析可能相关的已发表研究来推荐治疗方法。IBM Watson for Oncology 的操作流程包括分析患者医疗记录、提供治疗方案和排序:
1.分析患者医疗记录,包括结构化和非结构化的数据;
2.提供治疗方案选项,通过分析各种医疗数据,IBM Watson for Oncology为每一位患
者提供几种治疗方案,医生可在这些方案中挑选
3、方案排序,给各种治疗方案排序, 并注明其医学证据
Watson的诊断过程,动脉网制图
Watson通过不断调整其内部处理程序来“学习”,以便在某些问题上得到高概率的正确答案,例如放射图像揭示癌症。正确的答案必须是已知的,这样系统才能被告知,何时做对了什么,何时做错了什么。系统能够处理的训练问题越多,命中率就越高。
通过分析、提供方案和最优方案排序,最终患者拿到手的,是一本内容丰富的癌症治疗方案建议报告。其中,包括几种推荐方案、考虑方案和不推荐方案。在每一种建议后面,Watson“医生”都会注明出处和依据,并按照可信度顺序排列,供治疗医生参考。如果医生选定了某一种治疗方案,它还会给出采用此方案的生存率、不良反应发生率、药物相互作用这些相关信息,帮助医生总体评估该方案的疗效与风险。
数据难题是医疗AI企业普遍面临的
实际上,大部分针对Watson的批评,都是指其夸大宣传,对Watson前景过于乐观的声明。
如果说目前沃森还没有取得显著成就,那么最明显的阻碍之一就是它需要特定类型的数据进行“训练”,这些数据通常要么非常紧缺,要么难以访问。这不是沃森独有的问题,这是整个医疗机器学习领域面临的通病。
尽管数据匮乏影响了沃森的开发速度,但这对IBM的竞争对手们的影响更大。在医疗AI的算法和模型训练中,获取数据的最佳途径是与大型医疗机构密切合作,但这些机构往往在技术上非常保守。
由于医疗的严谨性,AI产品需要大量的临床数据验证才能得到认可。虽然现在各大医院对医疗AI持开放的态度,但是同类产品之间的竞争也异常激烈,经常出现一个科室有多种同类产品供医生使用,对于临床数据的获取存在一定难度。
Watson“医生”最大的特点,就在于它能快速地学习和进步。2017年,Watson“医生”新增癌种4个,新增治疗6项,各项指标都在持续地升级和改进。而到2018年,Watson“医生”新增治疗方案已经覆盖乳腺癌、肺癌、直肠癌、结肠癌、胃癌、宫颈癌、卵巢癌、前列腺癌、膀胱癌、肝癌、甲状腺、食管癌和子宫内膜癌13个癌种。据介绍,Watson“医生”学习的论文研究数据中,目前已经包括香港专家的论文。
IBM的澄清与案例
一边是对IBM及Watson的质疑,另一边IBM也正面回应了不断来袭的负面舆论。
就在华尔街日报对Watson困境的报道发出三天后,IBM认知解决方案和IBM研究部高级副总裁John Kelly迅速给出了回应:
“IBM有很多值得骄傲的事情,包括对 Watson Health 进行的开创性研究。遗憾的是,一些媒体报道,包括《华尔街日报》8月11日发表的一篇报道却扭曲并忽视了一些事实,暗示 IBM 在将人工智能的优势应用到医疗健康领域方面,尚未取得‘足够’的进展。澄清事实真相迫在眉睫。”
根据《华尔街日报》给出的数据,Watson Health产品组合中最大的AI产品是Watson for Oncology,IBM通常每位患者收费200至1000美元,在某些情况下还需要咨询费。
自2012年以来,纽约纪念斯隆凯特琳癌症中心一直在帮助IBM培训该软件(不使用该软件进行患者护理)。该医院的专家与IBM工程师合作,对肿瘤位置和共存条件等病史的相关特征进行排序,并对特定疗法的医学研究进行排名。然后评估Watson将测试案例与治疗相匹配的能力,并帮助工程师调整输出,直到它与医生的判断一致。
IBM发出的报道显示,Watson正与纪念斯隆-凯特琳癌症中心(Memorial Sloan Kettering)和梅奥医学中心(Mayo Clinic)等顶级癌症研究机构密切合作,共同开发并改进认知解决方案。目前,它们已在全球 230 家医院和医疗机构中使用。至2018年6月底,患者数量达到了84,000 名,与截至 2017 年底接受该服务的患者数量相比,几乎翻了一倍。”
面对真实病例的质疑,John Kelly摆出了一系列的Watson应用情况与报告数据:
梅奥医学中心的医生在 ASCO 美国临床肿瘤学会年会上所做的一份报告称,Watson临床试验匹配解决方案实施后,报名参加乳腺癌试验的比例提高了 80%(达到每月6.3名患者,之前的18个月内为每月3.5 名)。
Thaddeus Beck博士和 Highland Oncology Group的研究小组报告称,Watson 临床试验匹配解决方案将临床试验匹配用时缩短了 78%。
Somashekhar博士和 Manipal医院今年早些时候在《Annals of Oncology》上表示,Watson肿瘤解决方案的乳腺癌治疗方案和该医院多学科肿瘤委员会提出的治疗方案的一致率达到了 93%;最近他们又表示,他们已将 Watson 肿瘤解决方案应用于多学科肿瘤委员会中的所有复杂病例,改变了 9%-11%的患者病例推荐治疗方案。
Michael Kelley 博士和退伍军人事务部刚刚续签了Watson 基因解决方案的合同。到目前为止,已有近 3,000名处于癌症 4 期的退伍军人获得了该解决方案支持的治疗。
William Kim 博士和北卡罗来纳大学莱恩伯格癌症中心(University of North Carolina Lineberger Cancer Center)发表了一项研究,Watson基因解决方案在32%的患者中发现了新的、可操作的基因突变。
Watson的历史功绩应当被肯定
在IBM的回应中,John Kelly强调,技术的作用是帮助医生为患者提供更好的护理和治疗。对于这一产品,IBM要解决的核心问题是:“Watson可以帮助肿瘤学家为他们的患者作出更有效的治疗方案吗?”核心在于“帮助”而不是“替代”。
这一观点在动脉网与一些医疗人工智能的企业聊起此事时的观点有些相似,有业内人士表示,作为初创企业,会有公司将Watson作为学习对象,学习该产品的优点;另外,Watson现在的问题大多数来源于媒体的宣传失误,他们相信本身IBM推出这一产品时也并不是为了替医生做诊断,人工智能只能充当医生助手的角色。并且就IBM这样的技术型公司而言,他们的产品在研发过程中,应当不会离临床太远。
从“演绎法”到“归纳法”,医疗AI的探路者
虽然邓侃博士认为,IBM的产品在宣传、技术、战略等方面存在一定的失误,但是他也从正面肯定了Watson对于人工智能在医疗领域应用的“历史功绩”——改变了医疗的方法论。
以CDSS(Clinical Decision Support System)临床决策辅助系统为例,最早是在1970年前后,美国匹兹堡大学的研究人员开始从事这一领域的研究,当时研究人员使用的主要方法是从医学教科书和医学文献里提取医学规则,规则被表达成 “if-then” 的形式逻辑。输入患者的症状,找到相应的 if,然后根据 then,推断罹患的疾病。
两年以后,1972年,斯坦福大学的教授也开始进行类似的研究,这个研究课题名叫MYCIN。MYCIN也主要是 if-then 规则库,但是后来if-then 规则库有了一个响亮的新名号,叫“专家系统Expert System”。
If-then规则,非黑即白,泾渭分明。后来把概率引入进规则,又用网状结构,把众多规则关联在一起,这就是1990年代大红大紫的技术,贝叶斯网络,又称因果关系网络。“贝叶斯”网络在数学上很美,但是落到实际应用过程中非常的复杂,始终找不到好的应用落地,于是贝叶斯网络热了一阵以后,现在门可罗雀。
直到2011年,IBM Watson出现了。最开始的时候,IBM Watson是IBM研究院的一个研究课题,课题组从2006年开始,研究自然语言处理。他们教机器,从文献摘录出 “葡萄牙人,瓦斯科·达·伽马,于1498年5月20日到达卡利卡特” 这样的语句。又从其它文献中,摘录出 “卡利卡特位于印度西南部”这样的语句。然后串联这两句语句,推理出这样的结论,“葡萄牙人,于1498年登陆印度”。
这个课题最著名的结果就是Watson于2011年参加了美国知识问答电视竞赛《Jeopardy》,并战胜了人类选手。这场比赛非常重要,它事实上宣告了AI人工智能应用时代的到来,是人工智能史上重大的里程碑事件。在科技成果转化为赢利产品的道路上,经过一翻评估,IBM最终选择了AI。
而选择医疗是IBM正确的转向,医疗服务市场空间非常巨大。从海量病历中,挖掘整理人类医生的临床诊疗经验,这个方法论是归纳法。而先前从医学文献中提取规则的方法,是演绎法。IBM Watson改变了人工智能医疗所使用的方法论。
近代科学的历史说明,方法论的改变很可能带来翻天覆地的变化。IBM Watson从海量病历中提炼临床诊断经验,而不是从医学文献中摘抄并推理医学规则,这是方法论的变革。IBM Watson 实际上是引领了认知革命。
目前很多人把谷歌公司的Googlemedical Brain项目,视为人工智能医疗的业界领袖。Google Medical Brain项目也是从海量的病历中,挖掘整理人类医生的临床路径。并且于今年4月份在Nature杂志上发表了一篇论文,系统地描绘了Google Brain整个项目规划。Google Medical Brain虽然在细节上略胜一筹,但与Watson方法论一致。
落地医院:Watson运行良好,希望其学习更多国内案例
上海十院和周口市中医院分别于2017年8月和2018年2月引进了Watson,并主要在肿瘤科落地使用。动脉网采访了上海十院肿瘤科许青主任和周口市中医院肿瘤科张跃强主任,了解他们所在科室使用Watson的情况。
许青告诉动脉网记者,自上海十院肿瘤科引进Watson以来,已经累计完成近650例肿瘤患者辅助决策,占所有门诊患者5成左右,涉及癌症类型包括结直肠癌、胃癌、肺癌等多发癌种。
医生通常会在患者的病情较复杂时建议上沃森,但由于沃森辅助决策尚未纳入医保,患者只有在经济条件允许的情况下使用Watson。“也有的患者是慕名而来使用Watson的。”许青表示,引进Watson在一定程度上提高了上海十院肿瘤科对患者的吸引力。
周口市中医院肿瘤科患者使用Watson的比例相比要低一些,张跃强告诉动脉网,只有10%左右的患者使用了Watson。张跃强认为,患者是否使用Watson,与疾病本身复杂程度、患者经济实力强相关。
准确性方面,许青和张跃强均表示,Watson的本质是辅助决策和治疗工具,应当将其提供的治疗建议与临床疾病指南的一致性水平作为衡量准确性的标准。由于Watson在数据训练中学习了大量临床疾病指南和医学文献,其准确性相当高。张跃强表示,据他估算,沃森的准确性可以达到90%。“Watson的治疗方案是基于海量的最新研究成果做出的,有时候它给出的治疗方案甚至更为合理。”张跃强补充道。
然而,Watson也并非完全符合医生的预期。许青和张跃强表示,目前,Watson的本土化水平还不能完全满足临床需求。沃森在国内医院落地不适应的主要表现是提出的建议药物国内未上市等。
早在2017年,动脉网记者就采访过国内第一批使用Watson的医生,浙江省中医院乳腺外科主治医师顾锡冬表示,对于医生来说,Watson的用途有四种:(原文:《专访中国首批使用Watson的医生,他认为AI有4大用途、2点不足》)
第一个用途是以研究实证说话选择最佳治疗方案;
第二个用途是减少医生的误诊;
第三个用途是为医生提供全新的治疗方案作为参考;
第四个用途是协助培养年轻医生。
对于Watson不足,顾锡冬表示第一是Watson本身被定位为辅助医生的角色,无法针对病患现实生活中的情况进行调整,仅能就客观病理指标进行推荐方案,但肿瘤治疗的情况很复杂,并不是最好的治疗方案就是患者能接受的方案,很多情况还需要医生根据病人实际状况调整,并且去说服与安抚患者,这是Watson做不到的。
第二是Watson目前还不能中西医结合。顾锡冬表示中医逐渐受到重视,并且部分中国医生在调理患者的时候或多或少会有中医的一些影子,目前Watson尚不具备这方面能力。
因此,学习更多国内的临床案例,才能使Watson更好地本土化。
医生:医疗AI只是目前还不成熟
四川省人民医院机器人微创中心主任王东也曾在公开场合表示过,医生在诊疗的每个环节都希望做到真正的AI化,在诊断环节目前相对比较成熟的是Watson系统。
第二军医大学附属长征医院缪晓辉教授从医生/使用者的角度发表了对AI的看法:一是AI不存在造假的问题,只是当前不成熟。肿瘤化疗方案只考虑了欧美指南和部分专家经验,指南指导治疗的缺陷是“纸上谈兵”,未来需要融入更多专家经验。第二,几年来,AI的诊治能力,一直被“资深专家”蔑视,即使专家们使用着达芬奇手术机器人,都没有感受到AI的威胁;第三,AI的开发一定伴随着起起伏伏,在这个过程中需要适应和调整。“AI医学时代已经扑面而来,无论你是喜欢还是反感,它都在那里,并迟早要扮演主角,这本是由人的意志决定的,但最终不由人的意志转移。”
另外,在采访中,张跃强也表示,人工智能是大趋势,医院和医生对医疗AI产品进科室应当持开放的态度。而现在医疗AI本身还处于初级阶段,相信医疗AI产品未来会更加智能和实用。
为了获取Watson在中国真实医疗场景中的落地情况,以及外界的质疑是否属实。动脉网记者曾多次尝试联系沃森健康事业部大中华区及亚太区总经理张文明,对方未就此事回应。随后,我们联系上Watson中国总代理百洋智能科技(以下简称百洋),百洋首席营销官王必全接受了我们的采访。
Watson是医生的最佳得力“助手”
王必全认为,外界对Watson的质疑与指责很多是不实的,与真实情况不一致。他强调,首先,Watson并不是机器人,而是人工智能系统,具有理解、推理分析、学习与互动能力。其次,Watson没有处方权,它只是为肿瘤医生提供决策支持,让医生节省大量时间去照顾更多病患,“就像华生之于福尔摩斯一样,Watson是医生的最佳得力‘助手’。”
“他们在从未使用过沃森肿瘤,从未与医院的真实用户做过现场调研,从未向IBM或官方运营商调查清楚沃森肿瘤真实使用场景的情况下,仅仅只是搜罗了一些网络信息与言论,就以一副貌似专业的样子对它进行断章取义的曲解,这种行为我们非常不认可,它可能会一定程度上影响沃森的。”这也是沃森首次做出公开回应。
关于“沃森开错药”事件
此外,王必全回应了此前在网络传播的“沃森开错药”事件。
事件的肇始是美国医学媒体STAT公布IBM公司内部的机密文件,文件中记录了临床医生对沃森的强烈批评,并通过案例表明,沃森给出医疗建议的过程和底层技术存在严重问题。
一个案例是一名65岁的男性被诊断出患有肺癌,同时伴有严重出血症状。对此,沃森给出的诊疗建议是接受化疗和使用治疗癌症的药物贝伐单抗。然而,贝伐单抗的副作用之一是容易导致出血。
随后,MSK做出回应称这名“65岁男性肺癌患者”是癌症中心的医生在训练Watson时给出的虚构病例,只是为了训练Watson的辅助决策能力。”王必全指出,在真实世界中,贝伐单抗属于处方药,必须凭医师处方销售、调剂和使用。同时,医生在沃森系统中录入患者信息时,会被要求选择患者是否咯血,若医生选择“是”,系统会自动过滤容易导致患者出血的药物。
医院对Watson需求明显,但国民认知不足
王必全表示,Watson在国内落地以来,医院对于其需求是很明显的,医院有培训青年医生的需求、有学习国际先进案例的需求,有印证治疗方案的需求等等,这个Watson都能满足。
同时,中国癌症治疗也需要Watson提供规范化,可以循证的参考意见,免去患者长途跋涉之苦。此外,由于真实世界的需求与沃森真实的产品价值可以契合,医院是非常愿意接受的。
“超出预期的困难主要还是体现在国民对Watson的认知不足以及国外媒体的唱衰上。”王必全显得比较无奈。“AI是一个全新的领域,大家对AI就会有很多样的想法,有的人对AI的期待特别高,而有的人有点惧怕和拒绝的心理。所以一个新的事物带到这个市场上,肯定会出现这样或那样的争议。”
王必全补充道,医疗AI眼下最大的痛点尽管得到了国家层面的支持,但一些城市的收费项目尚未明确,这不利于新技术、新产品的推广。
关于之前引起广泛关注的沃森大规模裁员,IBM此前公开回应,经过一段时间的大量收购和迁移到IBM Cloud之后,需要使业务合理化,所以进行了人员调整。这在生意上是正常的。IBM还有数百个职位空缺,并在关键领域继续招聘,如数据管理、分析和人工智能。
已在全国22个省43个城市近80家医院落地
2017年3月,沃森健康与百洋签约,沃森肿瘤(Watson for Oncology)正式迈开进入中国市场的脚步。
据了解,Watson由IBM开发,自2011年起接受全球顶级癌症治疗中心纪念斯隆凯特琳肿瘤中心(MSKCC)训练,目前已学习超过330种医学专业期刊、250种以上的医学书籍、2700万篇论文研究数据。研究数据之外,Watson还会通过真实世界和临床案例积累数据。
目前,Watson是唯一的应用级AI工具,也是唯一能够提供第二治疗意见的AI工具。Watson的第二治疗意见是基于MSK决策流程提供的标准化治疗意见。
Watson能够帮助医生利用更短时间掌握最新文献资料。同时,具备强大的推理、分析、互动能力,能够为医生提供循证的、个性化的、有优先顺序的治疗方案建议,并且且在每一种建议后面注明出处和依据,供治疗医生参考,而完成这一系列工作耗时不超过10秒钟。
截至发稿,Watson已经在全国22个省43个城市近80家医院落地。“据医院和使用Watson的医生及患者反馈,对Watson的辅助建议功能表示认可的,认为Watson在辅助诊疗和对青年医生的教育等方面用处颇大。”王必全告诉动脉网。
据王必全介绍,Watson在其落地医院已经深度融入临床工作,助力学科发展,让临床决策更高效。具体而言,Watson在真实医疗环境中会提供基于循证医学证据的治疗建议、参与MDT讨论,并快速提供详尽的医疗决策支持材料。
据介绍,百洋和IBM正在联合本土医疗机构进行积极探索,推动沃森本土化。未来沃森将学习更多国内的医学指南、文献和真实世界案例,从而更好契合国内肿瘤医生的诊疗需求。
有一点可以肯定的是,不管未来沃森的发展之路如何,人类利用AI来实现医疗技术革命的探索,将会一直持续下去。