日前,美国华盛顿大学大卫·贝克()教授团队,再迎重磅新成果。他们打造了一个关于蛋白质计算设计“里程碑”工作。
在该课题组做博士后研究的,以共同一作及共同通讯作者的身份将相关论文发在Science上。本研究所解决的是计算蛋白质设计领域中的一个重要问题,即如何将蛋白设计转化为一种可借助人工智能算法解决的策略优化“游戏”,从而设计复杂的蛋白质组装体且满足预设定的几何约束条件。
图 | 王顺智(来源:)
(相关资料图)
具有复杂对称性的蛋白质组装体在自然界中广泛存在,比如细胞核孔是由数百个蛋白单体组装的巨型结构,能够控制遗传物质进出,以及病毒衣壳蛋白自组装形成正二十面体用以保护核心中的病毒遗传物质。
但是,由于目前计算方法的局限,我们还很难计算模拟和生成设计类似复杂的结构。其中一个技术难点在于精准的蛋白骨架空间布局,既要满足对称的几何堆叠限制条件,同时保证自身蛋白能够折叠,还要准确形成多个严丝合缝、高度形状互补的蛋白-蛋白界面。
(来源:Institute for Protein Design)
基于此,该团队开发了一个基于强化学习的生成式模型算法,它受到象棋和围棋等棋盘游戏的策略启发,可被用于产生高度可编程设计的蛋白多聚体,并通过实验验证了该方法的精确性和普适性,借此成为蛋白质计算设计研究中的一个里程碑工作。
与此同时,这一研究还证明强化学习不仅能够精通棋盘游戏,还能够出色地解决分子生物学中长期存在的难题。未来,当被训练用于研究科学问题时,这种方法可以加速各种科学领域的进展。
日前,相关论文以《用强化学习进行蛋白质结构的自上而下设计》() 为题发在 Science上。
图 | 相关论文(来源:Science)
教授担任主要通讯作者,担任共同通讯和共同一作,艾萨克·卢茨()和克里斯多夫·诺恩()是共同一作
图 | (来源:资料图)
概括来说,这项工作提供了一种新的、强大的方法,用于设计高度稳定和多功能的多聚蛋白笼组装结构。“毫无疑问,这将极大地扩展现有的工具集,用于构建全新的蛋白质纳米颗粒。”一位审稿人如是说。
“同时,该论文所描述的计算方法非常令人兴奋,它使得在蛋白质组装水平上设计骨架和序列变得更加容易,并且在蛋白质水平上具有高度的可变性和明确定义的几何约束。此外,这种方法使得抗原的精确定向成为可能,因为在设计过程中可以限制末端的位置。”另一位审稿人也对此工作给出了高度评价。
在应用前景上,这项研究有助于设计重组蛋白疫苗,提供新的癌症治疗方案,基于纳米孔的基因测序、新型可生物降解织物、以及作为潜在载体对细胞进行基因编辑都有着重要的意义。
要知道,蛋白质分子在生命过程中承担着极为核心的功能,如代谢能量、节律运动、感官传递、免疫识别,再到疾病传播。
然而与普通小分子化合物不同的是,形态各异的蛋白质分子有着高度复杂性,它们由 20 种不同的氨基酸分子连成一串形成数百位的密码序列,然后在 3 维空间中折叠成特定的形状从而行使具体功能,其中的设计规则和构效关系已经远远超越了一般人脑的认知和想像。
因此,通过计算辅助和机器学习对蛋白质进行改进优化以及从头设计,可以产生高效的生物酶、疫苗以及合成工厂,将有助于我们解决一系列生命健康、公共卫生安全、能源及可持续发展等相关问题,有着重要的基础科学和实践应用意义。
顺应时代潮流,转型研究计算设计蛋白质
一直以来,对于人工智能都有着浓厚的兴趣,从小各种棋类、电脑游戏陪伴了他的成长。
后来在美国西北大学攻读化学博士期间,恰逢 2016 年 开发出的 AlphaGo 横空出世,击败了包括李世石、柯洁等人类围棋顶尖棋手,这让大受震撼,深切感受到了人工智能的惊人潜力和由此驱动的变革迫在眉睫。
同时也让他萌生了对传统生物材料进行理性设计,实现数字化、信息化变革的想法。于是,放弃手中相对传统的配位化合物合成课题,转而从事可编程 DNA 纳米材料的自组装研究。
在攻读博士的后期,他进一步思考如何能将自己的研究更好地衔接当下迅猛发展的数据科学与人工智能。于是申请来到华盛顿大学教授实验室开展博士后研究,转型研究计算设计蛋白质。
时逢 2020 年夏,新冠疫情爆发,开始了居家隔离编写代码的生活,也在逐步探索如何利用机器学习设计复杂的蛋白组装体,比如纳米蛋白笼。
一次偶然的机会,他做完组会报告之后依惯例和大家继续交流,这成功激起了团队另两位核心成员 和 对于他所提出的这一问题的兴趣,并让招募他们一起研究组成了一个小的团队。
自那之后,他们经常热烈讨论新的算法设计和整体流程的模块化架构,并逐步确立了使用强化学习中蒙特卡洛树状搜索(Monte Carlo Tree Search, MCTS)进行蛋白组装体骨架设计的整体思路。
蒙特卡洛树状搜索算法(MCTS)正是 AlphaGo 等棋类游戏 AI 背后强化学习的搜索核心机制。强化学习是一种机器学习的类型,计算机程序通过尝试不同的行动并接收反馈来学习做出决策。例如,这样的算法可以通过尝试数百万个不同的棋步来学习下棋。而计算机程序旨在从这些经验中学习,变得更善于做出正确决策。
为了编制用于蛋白质设计的强化学习程序,他们提供了数百万个简单的起始位置给计算机。并让软件在随后进行了一万次尝试,以随机方式改进每个分子,为各种不同的结果打分,使其朝着预定义的目标前进。
这时,计算机通过将蛋白质的局部结构域变得更长或引入环区特定方式,来学习如何将其构筑成所需的形状。
通过改进设计对生成蛋白的打分规则以及调整算法各参数的权重,他们发现算法生成的蛋白骨架已经越来越接近现实中的天然蛋白分子。 “我们觉得是时候迎接实验验证了。接下来我们设计了一整套基于深度学习的序列,设计流程和评价筛选机制,这其中非常感谢组内师兄(现就职于西湖大学)所提供的基于骨架的序列预测模型,在蛋白序列设计中起到了重要作用。” 在优化算法及落实设计流程后,接下来在实验室内设计并制造了数百个由人工智能设计的蛋白质。 2021 年 10 月,他首次利用透射电子显微镜确认了第一个成功设计的蛋白组装体。它是一个由 60 聚体形成自发组装成的几乎密闭的球型结构,具有正二十面体对称性,直径大约只有 13 纳米。 “在那一刻我非常激动,当即用手机拍下了原始的电镜图片并在半夜发给了团队同事们一起分享喜悦。后续在 Andrew Borst 博士的帮助下,我们借助高分辨冷冻电子显微镜陆续证实多个人工智能设计的纳米结构都能在实验室中准确自组装形成。”说。 并且,这些独特的纳米结构中每个原子都和电脑中设计的位置高度吻合。预测结果与实现的纳米结构之间的偏差平均不到一个原子的宽度,达到了原子级精度设计。 当时,课题组预见未来这种方法能创造出以前不曾出现的强大治疗性蛋白质、疫苗和其他分子。在 2022 年后续实验中,他们通过基因融合在原有纳米结构上添加了更多功能性蛋白质分子,并探索了相应的应用价值。 在一项细胞实验中,合作者 Blair Yanting Zhao 成功验证了基于上述成果设计的蛋白笼可以装载有高价态的重组蛋白,从而能够强力结合细胞表面血管生成素受体,作为超激动剂引发大量血管生成,从而促进伤口愈合。 另一项基于小鼠的免疫学实验中,合作者安妮·多西(Annie Dosey)测试了等人使用新方法制造的蛋白质,并证明在小鼠体内生成有用的抗体方面表现出比以往最好的流感重组蛋白疫苗更好, 这表明这一方法上的突破,不仅局限于理论,还可以很快产生强效的疫苗。未来,等人计划进一步提升算法表现,包括构筑一个基于深度强化学习(deep RL)的蛋白质生成模型,引入策略网络和价值网络,从而提高模型的输出质量。此外,还可以设计模块化接口对接大型语言模型等。另一方面他也将探索生成蛋白多聚体在生物体系中的应用,包括可装载基因编辑工具的类病毒载体以及多价疫苗。 一路走来,也让颇为感慨。他说:“生命科学,包括我所研究的蛋白质科学、合成生物学,正在被信息科学以及人工智能的汹涌浪潮裹挟着狂奔突进。生在这个激荡的时代,身处这股浪潮中,我感到非常荣幸,也深感个体的渺小。” 2020 年 AlphaFold2 引发了蛋白质结构生物学的“大地震”,无数用于蛋白质结构预测和生成的新模型如雨后春笋般涌现,不断刷新着我们的想象力。这股结构生物学的潮流和基因组学的突破一起再次彰显了信息化对科学进步的深刻影响,能够行使重要功能的生命分子可能从此不再仅仅来源于遗传和进化,还将逐步来源于计算机算法与人工智能。也许在不久的将来,数字化编码生命将不再是科幻预言。 1.Lutz, I. D., Wang, S., Norn, C., Borst, A. J., Zhao, Y. T., Dosey, A., ... & Baker, D. (2023). Top-down design of protein nanomaterials with reinforcement learning.Science, 2022-09.
关键词: