编者按:本文来自微信公众号“峰瑞资本”(ID:freesvc),作者王一恺,36氪经授权发布。
作者丨峰瑞资本副总裁 王一恺
从农药化肥、合成纤维,到橡胶塑料、汽油沥青……我们的衣食住行都离不开化工产品。通俗点说,凡是运用化学方法改变物质组成、结构或合成新物质的,都属于化工的范畴,所得产品就是化工产品。
除了衣食住行,医院药店里的药品也是一种典型的化工产品——用化学工艺生产出来的。不管是原料药、中间体的生产,还是新药研发中全新分子的合成,广义上说都是医药化工的范畴。
我们认为:
医药化工行业面临结构化升级的压力
自动化是合成化学的一大趋势
技术转化和创新驱动是产业升级的必经之路
从上个世纪 80 年代开始承接化工产业转移以来,目前中国已经成为全球最大化工生产基地,产能占比高达 40%;此外,中国也是除美国之外全球第二大化学品消费市场。
然而,中国目前的化工产业仍处于全球产业链的较低端。
以精细化工率(精细化工产值占化工总产值的比例)为例,它是衡量一个国家或地区化学工业发达程度和化工科技水平高低的重要指标之一。目前中国的精细化工率已达到 45% 左右,但与北美、西欧和日本等发达经济体的平均精细化率 60-70% 相比,仍有很大的提升空间。
再比如,7 月美国《化学与工程新闻》杂志(C&EN)公布的 2019 年度全球化工 50 强榜单中,欧美地区占据 26 席,日韩各有 8 家和 4 家企业入围,而中国大陆只有 2 家。
早些年中国仿制药给人留下的印象是质量不好,价格虚高。为了解决这些问题,从 2015 年开始,国家大刀阔斧地进行了一系列政策改革。
如果说一致性评价解决的是药品质量问题,那么集中采购制度就是要挤出流通销售环节中的成本损耗,让利润回归生产环节、仿制药药价回归理性。
CRO (医药研发合同外包服务机构) 于 20 世纪 70 年代起源于美国,是制药企业为了降低自身成本将非核心研发业务外包催生的新产业。由于中国已经具备了相对完善的化工产业链条,高校扩招又提供了大批化学相关人才,2000 年以后,国内 CRO 进入快速增长期,涌现出像药明康德这样的行业巨头。
据统计,2017 年国内临床前 CRO 市场规模达到 240 亿元,占全球市场的 40% 以上,而其中化学合成业务占到一半左右。
从人均产出来看,2005 年前,一个合成人员平均每年可贡献收入 12-13 万美元,而 2015 年以后,这个数字降到了 7 万美元左右。在这十年间,随着人员工资上涨和运营成本提升,人均利润率快速下降,只能靠雇佣更多员工,保持利润增长。因此,2015 年后,国内 CRO 进入整合阶段,优胜劣汰,行业迅速洗牌。
从技术发展史上看,有两条成本曲线,一条是机械化、自动化的成本曲线,通常是呈下降趋势;另一条是人工成本曲线,通常是上升趋势,两条曲线的交汇点就是机器取代人的时间节点。这个结果一旦发生,一般不会逆转。对于化学合成来说,随着人力成本的上升和劳动力供给开始下降,机器取代人的自动化节点正在加速到来。
有机合成大概可以分成 4 个步骤:路线设计、反应实施、分离纯化、分析表证。
形象点说,路线设计就像人的大脑产生的一系列指令,这部分最需要知识和经验,也是目前自动化程度最低的环节。
中间两个步骤——反应实施和分离纯化,就像人的肢体来执行大脑的指令。不难想象,凡是手可以完成的工作,是最容易被机器取代的。
事实上,从制药公司礼来公司的机器人化学反应操作系统,到基于分子量的全自动分离纯化系统,这两部分模块化步骤已经基本实现了自动化。
最后一步分析表证,就像眼睛,不仅要看到肢体执行指令的结果,还需要把信息反馈给大脑,让大脑进行判断做出决定,产生新的指令。这个环节的自动化程度也不高,后面再来讨论。
让我们先来看看有机合成中间两步——反应实施、分离纯化的自动化最新进展。
2019 年 1 月,英国格拉斯哥大学 Cronin 课题组在 Science 杂志上发表文章,报道了他们发明的化学合成机器人系统,用这个系统,他们合成了 3 种药物分子。
如下图所示,各种玻璃仪器通过骨架管路连接起来,每个仪器有自己的物理路径,而骨架由计算机控制。在合成某个分子的时候,只需要将文献中的合成方法和步骤转换为可执行的程序指令,计算机就可以把指令通过控制骨架,将所需溶剂、原料加入到正确的玻璃仪器中,然后一步一步完成整个实验过程。
2019 年8 月,美国麻省理工学院 (MIT) 课题组也在 Science 杂志上发文,报道了一种结合人工智能 (AI) 设计合成路线和机器人执行的自动化合成平台。
与英国的课题组采用实验室常用仪器设备不同,MIT 课题组采用的流动化学方案,就是让反应在流经很细的管道时发生。如果把加料、混合、反应、分离、纯化等各个步骤全都做成即插即用的流动化学模块,那么针对不同的分子,就可以像搭乐高积木一样,把需要的模块组装起来进行合成。在合成结束后,再把积木一块块拆下来,清洗后放回原位。
在 8 月的这篇 Science 文章中,除了微流控替代人执行了反应实施和分离纯化中的操作过程,另一个重要的进展是所谓 AI 设计合成路线。下面就来说说路线设计这个大脑的功能能否被取代的问题。
设计合成路线是有机化学家的基本功,而功力高低就要看他/她设计的路线是不是可行和效率如何。这个过程极大依赖他们受过的训练和过往经验。
那么,理论上说,如果计算机可以学习所有的化学反应数据并提取规律,就可以超越人的大脑。所以,自上个世纪 60 年代 E. J. Corey 教授提出逆合成分析(就是所谓的路线设计)这个概念以后,计算机辅助合成路线设计 (CASP) 就随之出现,他本人也做了许多探索和尝试。只是在 Corey 那个年代,受限于化学反应的数据积累不够和算力算法的限制,这个方向一直发展缓慢。
路径一:深度学习
2018 年 3 月的一篇 Nature 文章,Waller 课题组利用三个深度学习神经网络和一个 Monte Carlo 搜索,通过学习 2015 年以前的化学反应数据,据称实现了与合成人员相当的路线设计水平,重新将这个领域推至风口浪尖。
上面提到的 MIT 课题组开发的路线设计软件 ASKCOS,采用的也是类似的解决方案。
其实 Waller 课题组和 MIT 课题组给出的例子,在有机化学家眼里都不算是难合成的分子,尤其是在 MIT 课题组的文章中,不少都是已知分子。那么,对于较为复杂或合成步骤较长的未知分子,这些基于深度学习和神经网络的解决方案,是否能达到商业可用,还有待验证。
路径二:经验规则
与上述不同的另外一种解决思路,就是韩国蔚山国家科学技术学院 (UNIST) 的 Grzybowski 教授开发的一款名为 Chematica (现已被德国制药巨头默克收购,更名为 Synthia™) 的软件,这个方案是完全基于经验规则之上的。
令人惊讶和佩服的是,从 2001 年开始,团队中经验丰富的合成化学家,花了 17 年时间,从 700 多万个化学反应数据中,把所有反应规则、条件和例外一条一条写了出来,大概有 7-8 万条。然后对于新的分子,只需要做检索匹配推荐出一条或几条合成路径就可以了。
以上两种解决思路各有优势,也各有不足。Synthia™ 推荐路线的准确度较好,但难免带有人的主观性和偏见;随着新的反应数据不断产生,要对以往规则做更新补充,工作量很大,效率较低;很难利用客户自有数据进行定制和升级,只能停留在通用型软件层面。
相反,完全基于数据的深度学习,倒是不存在主观性和偏见,比较容易整合新生数据和客户数据,但是由于化学反应数据的不均衡性(某些类化学反应数据超过百万条,而某些类反应可能只有几十条)、数据本身的质量问题(假的结果或者录入错误)和预测过程/结果的不可解释性(神经网络的黑箱过程),这条路径短期内也会很快遇到天花板。
路径三:基于化学家经验指导的机器学习
这种方案既能充分利用数据产生规则避免人的主观偏见,又让学习过程可解释、可调整。武汉智化科技可以为客户提供基于基础数据的通用型合成路线设计软件,也可以提供结合企业自身数据的定制化软件服务,已经得到了工业界用户的认可。
当然,AI 路线设计,无论多么成熟和强大,目前只能取代 80-90% 的人类大脑,这是因为数据闭环还没有形成,计算机还没有根据结果做分析判断的能力。所以还有最后一个环节需要打通,那就是对化学反应的智能监测,也就是让算法去判断某个反应是否得到了预期的产物,如果产率很低怎么优化,如果没有产物该怎么办。
如果从路线设计 (大脑) 出发预测最可行的反应路线,通过自动化合成仪 (手) 进行实施,再对结果进行监测 (眼) 并将结果反馈至路线设计软件处 (回到脑) 进行调整和优化 (判断和决策),这三个步骤都能够实现自动化,并快速积累数据和迭代升级,那么,有机合成这项工作也就离智能化不远了。
在医药化工产业升级的大背景下,降本增效和节能环保是两大主题。接下来,我们着重聊聊催化反应在其中所能发挥的作用。
自 1910 年实现合成氨的大规模生产,催化合成作为化学工业最常用的技术手段,已经有上百年的发展史。
到今天,约 90% 以上的化工产品是借助于催化过程生产出来的,足见催化在合成化学中的地位。
近三十年来,催化领域有了突飞猛进的发展。从 2001 年不对称氢化/氧化、2005 年烯烃复分解、2010 年钯催化碳碳偶联,到 2018 年酶定向进化和酶催化,该领域已经诞生了十几位诺贝尔奖得主。
催化反应的核心是降低反应能垒、提高反应速度,可以降低原料及相关化学品用量、避免副反应发生、提高原子经济性,是化工领域降本增效、节能环保的重要手段之一。
在药物研发领域,催化反应更是有着广泛的应用。在研发阶段,许多用传统有机合成难以制备的新颖结构可以通过催化反应被高效 (高产率、较短合成路线、高选择性) 地合成出来。而到了生产阶段,一条成本可控、绿色安全的工艺化路线,更是离不开催化。
默沙东的药物合成工艺向来以高标准、高水平著称,业内几乎无人能超越,而它的独门绝技就是 20 多年前建立的高通量催化筛选平台。默沙东在催化方向上的长期投入,在工业界和学术界留下了不少佳话:
近些年 FDA 批准的小分子药物的合成中,很多关键步骤都是催化反应。默沙东凭借其深厚功力,3 次获得美国总统绿色化学挑战奖,分别是 2006 年、2010 年的降糖药西格列汀,以及 2017 年的抗病毒药 Letermovir。
2006 年在西格列汀生产工艺中引入新型的不对称催化氢化技术,可以使工业垃圾下降 80%、工业废水下降到 0,同时把成本下降 70%。
4 年后的 2010 年,和 Codexis 公司合作,通过酶催化缩短了工艺步骤,减少了原有工艺条件下 10-13% 的总占地和 19% 的废料产生,同时还增产 56%。同一个药物,进一步优化了工艺,再次获奖。
2017 年在 Letermovir 的生产过程中,用高通量的方法筛选出低价、稳定、易再生的催化剂,减少了 93% 的原料成本、90% 的用水和 89% 的碳足迹。
这 3 次绿色化学挑战奖,都是由于催化反应的应用使生产工艺既环保、又经济,不得不说是医药工业可持续生产的经典案例。
此外,默沙东支持美国普林斯顿大学建立了一个催化筛选中心,不仅用于催化合成方法学研究,也致力于加速高校及研究机构中诞生的新型催化剂体系的产业化,堪称产学研相结合的典范。
由于催化体系涉及的组分和参数比较多,很难用理论推导出哪个是最佳组合,因而不得不诉诸于实验来寻找和优化。
假定一个反应有 4 个变量,每个变量有 5 种选择,这样组合下来,就有54= 625 个条件需要尝试。在传统有机化学实验室,即使是经过严格训练、经验丰富的实验人员也至少需要几个月甚至半年时间完成这些尝试。
而采用高通量催化筛选技术,可以批量筛选数以百计甚至千计的反应条件,快速找到那个最佳组合,把整个过程缩短到半个月甚至三五天内完成,极大提高效率,节约时间和成本。
从下图可以看出来,每个小孔都是一个反应,这样一次就可以探索 96 个不同的条件。这么小量的反应很容易受到空气中氧气和水汽的影响,所以为了保证结果的可比性,需要在无水无氧的手套箱里做反应,还得保证每个小孔加热均匀、搅拌充分。最后,还要有高通量的分析手段准确检测每个反应的结果,再根据这些结果指导下一轮优化。
除了上面提到的合成自动化和催化条件高通量筛选,像合成生物学这样的颠覆性技术,也会对产业升级产生巨大助推力。这些都是我们长期看好与支持的方向。
文章有删减