▲这不是照片,而是AI软件根据人类语言的描述生成的图片(图片来源:DALL-E,Publicdomain,viaWikimediaCommons)
那这种技术能够用来开发创新药物么?比如,如果告诉AI软件我想生成抑制PD-1功能的蛋白疗法,它能够精确产生候选疗法的结构么?现在,这种想法已经不是只存在于科幻领域的想象。日前,初创公司GenerateBiomedicines公司和华盛顿大学DavidBaker教授的课题组同日发布了各自的研究,借助DALL-E2软件基于的扩散模型(diffusionmodels)算法,开发的AI平台可以按照研究人员的要求精准生成自然界中没有的全新蛋白结构。GenerateBiomedicines公司称其AI平台为“生物学领域的DALL-E2”,为了显示它能够按照研究人员的要求生成蛋白结构的能力,该公司的团队让这一名为Chroma的平台生成了模拟26个英文字母和10个阿拉伯数字形态的全新蛋白结构。
▲GenerateBiomedicines公司的Chroma平台能够根据对蛋白形状的要求设计出全新蛋白结构(图片来源:GenerateBiomedicines公司官网)
利用AI进行蛋白设计今年已经获得多项突破,DavidBaker教授的课题组今年3月再《自然》发表重磅论文,介绍了能够基于靶点蛋白结构,设计与之紧密结合的候选蛋白药物的新技术。今年9月,该团队又在《科学》杂志连发两篇论文,利用名为ProteinMPNN的全新深度学习工具,从头设计出全新功能性蛋白分子,并且将设计蛋白的时间从“月”缩短至“秒”。不过,此前的蛋白设计策略仍然可能需要对成千上万的候选分子进行检测,才能发现最终符合预先要求的分子。
在发布的最新研究中,两个团队利用了扩散模型算法,这种算法是一种神经网络,它通过训练可以清除输入数据中的噪音。如果输入的数据是随机的一团像素,扩散模型能够将它转变成为人眼能够识别的图像。将它
应用于蛋白设计上,研究人员可以根据靶点的结构,让AI算法把原先无序和混乱的氨基酸残基,通过不断地除噪运算,最终拼接成能够和靶点结合的候选蛋白。
▲DavidBaker课题组开发的AI平台(名为RFdiffusion)可以生成与靶点结合的创新蛋白(图片来源:参考资料[2])
DavidBaker的团队指出,与此前的蛋白设计程序相比,RFdiffusion在解决不同设计挑战方面的表现都更为优越。它能够设计更为大型和复杂的蛋白,以及可以相互结合形成多聚体的蛋白单体。
▲这一平台可以设计出形成多聚体的蛋白,与由多个亚基组成的靶点蛋白结合(图片来源:参考资料[2])
尤为重要的一点是,在蛋白设计过程中,研究人员可以对蛋白的特性提出各种不同的要求,而AI模型会根据这些要求设计出相应的结构。这让计算机完成的设计过程能够产出最符合设计要求的蛋白结构,提高“一步到位”的可能性。Baker团队的文章指出,在有些蛋白设计项目中,研究人员发现只需要在实验室中检验计算机设计一个候选蛋白,就发现了符合所有设计标准的蛋白。团队已经设计出能够与PD-L1、IL-7Rα、胰岛素受体、TrkA受体、和血凝素结合的蛋白结构。该团队设计的与甲状旁腺激素结合的蛋白亲和力达到纳摩尔以下。
GenerateBiomedicines公司联合创始人兼首席科技官GevorgGrigoryan博士表示,这一技术好比学会了如何使用蛋白的语言进行书写,它将给新药开发带来革命性的影响。“这意味着我们不再依赖大自然进化的产物发现非最佳选择,而是可以根据指定的需求,创造和生成高度有效的药物。”他说。