IT时报 -V10 特别报道-
10特别报道
  • ·AI芯片的“国产替代”,落地哪一站?
  • ·AI屠龙记:生物制药期待一场“工具革命”

AI屠龙记:生物制药期待一场“工具革命”

  

IT时报记者崔鹏志
  在生活中,人工智能最有可能率先带来的颠覆是什么?自动驾驶或是无人餐厅固然美好,但更像“锦上添花”。事实上,一个真正同我们的生活息息相关的领域正在因AI发生巨变——生物制药。
  一款新药的诞生往往需要经过超10年的研发周期,数十亿美元的研发投入,面对不到十分之一的成功率,而过高的付出也使得成品药售价高昂——但AI则有可能改变这一切,重塑药物设计的整体生态。
  这便是成为第一个击败人类职业围棋选手的人工智能后,AlphaGo“选择”的道路。2017年,AlphaGo背后的谷歌子公司DeepMind 开始将目光转向药学关键问题“蛋白质结构预测”。
  2020年末的CASP 14(第十四届蛋白质结构预测技术评估大赛)上,DeepMind提出的深度神经网络蛋白质形态预测方法AlphaFold 2在第一代的基础上再度进化,媲美人工实验结果,以超越所有传统计算方法的精确度彻底改变生物制药格局,也让AI制药走向时代浪尖。
  将近两年时间过去,AI制药走到哪一步?
  今年世界人工智能大会,由上海市生物医药产业促进中心、上海市人工智能行业协会、机器之心主办的生物计算论坛上,高校、机构、企业等多方面的专家学者齐聚,让一幅由AI全面改变的生物制药图卷徐徐展开:
  人工智能并不是“救世主”,但生物制药期待一场“工具革命”。
AlphaFold 2的颠覆与不可能
  AlphaFold 2的“看家本事”蛋白质结构预测,也是AI制药的重要切入点。
  蛋白质是人体和各种生物构成的重要基本大分子,由各种氨基酸形成肽链并折叠而成。在生物学上,蛋白质的三维结构直接决定其功能,而现有药物大多是小分子化学药,作用靶点大部分落在蛋白质上。如果能精准绘制出蛋白质的三维结构,便能针对性地进行药物设计和疾病治疗。
  1972年,美国科学家Christian An
finsen曾提出著名推论:理论上,蛋白质氨基酸序列可完全决定其三维结构。
  但这条从生物学角度衍化的思路是一条“死路”。在形成三维结构前,蛋白质的折叠方式是个天文数字。基于序列,以往的实验技术大多耗时、耗资成本巨大,却收效甚微。人们开始转向其他方法,例如通过计算机模拟原子空间坐标的方法“预测”三维结构。
  但蛋白质结构复杂,即使动用超级计算机,仍无法确保准确率。这也是为何,当使用人工智能深度学习算法的AlphaFold 2横空出世,会被称誉“解决困扰生物学界50年的难题”。
  “AI颠覆了蛋白质预测,基于序列的研究转向基于结构的研究。”分子之心创始人许锦波解释,而将近30年共14届CASP的预测数据列成折线图,横坐标为测试蛋白的难易程度,纵坐标为得分,在难度逐渐上升的情况下,不难看出AI两代深度学习算法带来的“跳跃”。
  AlphaFold 2并非没有局限性,它通过在数据库中搜寻目标氨基酸的相关序列,提取学习相邻“共进化”氨基酸的信息,从而在三维空间对蛋白质结构进行预测。但这并非Christian Anfinsen所言“仅依靠自身序列推测蛋白质结构”。AlphaFold 2的成功在于有大量实验数据样本“投喂训练”,但缺点是一旦遇到特殊结构,便无法完成准确预测。
  今年7月,Meta推出单序列方法ES
Mfold,带起一波完全依靠单序列方法预测蛋白质结构的潮流——但事实证明,这种方法仍不理想。
  在以深度学习算法预测蛋白质结构上,许锦波的团队比AlphaFold更早,他们在2016年首度证明深度学习在预测蛋白质结构上的作用,为AI蛋白质预测完成奠基,对这条赛道有着更深刻的认知。
  “前阵子国际上火的单序列预测方法以及AlphaFold 2,实际上都无法脱离对共进化、同源信息的依赖。”许锦波分享,针对没有“兄弟姐妹”的“孤儿蛋白”,流行的单序列方法最大的优势在于速度,并没有解决真正的问题。
  此外,AI预测蛋白质的难题还有针对“蛋白质和其他分子相互作用”“点突变影响”“蛋白质复合物”“蛋白质优化和从头设计”等研究,任重道远,但另一方面,这些前沿痛点也是生物计算从业者的创业风口。
  天壤XLab成立于2019年,如今团队正集中于“蛋白质从头设计”。天壤XLab负责人苗洪江指出,100个氨基酸的蛋白质拥有20的100次方可能序列空间,而自然蛋白只是其中一小部分,“从头设计”蛋白质便可探索广阔蛋白质空间,解决人类在能源、医疗等方面难题。
落地还需要5~10年
  “稳定的技术路线形成要5~10年,为制药行业带来本质性的颠覆还要5~10年。”这是微软杰出首席科学家刘铁岩对AI制药赛道的发展做出的预测。
  事实上,这一预测的速度并不慢。5年间,国产生物医药创新药起步,人工智能技术迎来爆发性发展,AI制药的短暂历史,是人们拿着人工智能的“锤子”敲生物的“钉子”的历史。
  晶泰科技CEO马健在2015年闯入AI制药,是国内最早一批赛道玩家之一。“生物计算的两个红利,一是互联网下半场、国家政策驱动的资本红利;二是技术红利,算法、深度学习、3C制造的迅速发展。”马健总结道,2021年下半年开始,这段高度发展的历史因国内外AI创新药陆续进入临床试验阶段,迎来退潮期,客户们变得更加审慎,重视商业化。
  面对当下,刘铁岩认为还有不少问题。例如,在“靶标蛋白的结构预测”这类技术较为成熟的领域,赛道玩家会更加“扎堆”;传统的人工智能算法和工具起作用,但针对生物制药领域的特异化设计仍然不够;参与者众多的AI制药公开比赛、公共数据很难反映药物设计的全貌,而药物数据多为药厂私有,难以形成如同“蛋白质结构预测”这一热门领域的数据公开风气。“希望大家能以更加长远、基础的视角看待AI制药研究。”刘铁岩呼吁,药物设计本身是个“搜索的问题”,强化学习技术在生物制药仍将是非常有潜力的。
走出AI制药“深水区”
  生物制药产业“水很深”,一路闯入的人工智能科技企业家各有体会。
  马健将产业分为生物学挑战和工程技术挑战两大类。从小分子晶体结构预测到AI药物分子设计,再到搭建干湿实验室和自动化,他“什么都做过”。在马健眼中,早期生物学方面的业务给药化学家带来的是“启发”,随后转向工程技术方面,在深圳、上海建起数千平的自动化化学合成实验室,希望解决大分子AI结合的合成瓶颈、药物数据获取成本等“工程问题”,让自动化带来的数据形成驱动。
  去年回国,创立华深智药的CEO彭健则感到,制药行业是非常长的链条。“这一年我和很多专家讨论,大家认为成功率最重要。”他表示,2017年以后上市的药临床、生产考量趋向早期化——从产业链条思考问题,很早注入AI算法中,能在设计预测时起到重要作用。
  “我们不要认为,拿着AI的大锤到处敲一敲就可以颠覆制药行业。”刘铁岩说,药物发现不是典型的人工智能问题,能通过临床且具有足够有效性的药物便是成功的,AI总是寻求期望意义上的最优,而对有限已知数据的调优没有价值。
  无论如何,AI制药尚且“年轻”,一条长路待人踏足。5年间,人们逐渐发现,至少在制药领域,人工智能显然不会自动将答案递上。
  “有人跟我说AI就是个工具,”马健说:“AI确实就是个工具,但每一次人类工业革命,都是工具的革命”。