生物学家训练人工智能生产药物和疫苗
科学家已经开发出人工智能软件,可以创造出蛋白质,这些蛋白质可能用于疫苗、癌症治疗,甚至是清除空气中碳污染的工具。
这项研究发表在今天的杂志上科学该研究由华盛顿大学医学院和哈佛大学领导。这篇文章的标题是“脚手架”蛋白质使用深度学习的功能性网站。”
“我们在自然界中发现的蛋白质是令人惊奇的分子,但设计的蛋白质可以做更多,”hhhmi研究员、华盛顿大学医学院生物化学教授、资深作者大卫·贝克说。“在这项工作中,我们展示了机器学习可以用来设计具有多种功能的蛋白质。”
几十年来,科学家们一直在用计算机试图设计蛋白质。一些蛋白质,如抗体和合成结合蛋白,已被用于对抗COVID-19的药物。其他的,比如酶,帮助工业生产。但一个蛋白质分子通常包含成千上万的键合原子;即使有专门的科学软件,它们也很难研究和设计。
受机器学习算法如何从提示中生成故事甚至图像的启发,该团队开始构建类似的软件来设计新的蛋白质。“道理是一样的:神经网络可以通过训练看到数据中的模式。训练之后,可以给它一个提示,看看它是否能生成一个优雅的解决方案。通常结果是令人信服的——甚至是美丽的,”主要作者、华盛顿大学医学院的博士后学者约瑟夫·沃森说。
该团队使用来自蛋白质数据库的信息训练多个神经网络,蛋白质数据库是一个公共存储库,包含来自所有生命王国的数十万种蛋白质结构。由此产生的神经网络甚至让创造它们的科学家都感到惊讶。
该团队开发了两种方法来设计具有新功能的蛋白质。第一种被称为“幻觉”,类似于DALL-E或其他基于简单提示产生新输出的生成式AI工具。第二种被称为“inpainting”,类似于现代搜索栏和电子邮件客户端的自动完成功能。
“大多数人都能想出猫的新形象,或者根据提示写一段话,但是蛋白质设计该研究的第一作者、华盛顿大学医学院博士后王珏(音译)说:“在美国,人脑不能做计算机现在能做的事情。”“人类无法想象解决方案会是什么样子,但我们已经安装了可以想象的机器。”
为了解释神经网络如何使一种新蛋白质产生“幻觉”,该团队将其与写一本书的方式进行了比较:“你从一堆随机的单词开始——完全是胡言乱语。然后你在开头段落设置了一个要求,即游戏必须是一个漆黑的暴风雨之夜。然后电脑会一次改变一个单词,并问自己:“这是否使我的故事更有意义?”如果有,它就会保留这些改动,直到完成一个完整的故事。”
书籍和蛋白质都可以被理解为字母的长序列。就蛋白质而言,每个字母都对应着一种叫做氨基酸的化学成分。从一串随机的氨基酸,软件会不断地对序列进行突变,直到生成编码所需功能的最终序列。这些最终的氨基酸序列编码蛋白质,然后可以在实验室中制造和研究。
该团队还表明,神经网络可以填补缺失的部分蛋白质结构只需几秒钟。这样的软件可以帮助开发新药。
“通过自动补全或‘蛋白质填充’,我们从我们希望在新蛋白质中看到的关键特征开始,然后让软件来完成剩下的部分。这些特征可以是已知的绑定主题,甚至酶活跃的网站,”沃森解释道。
实验室检测显示,许多蛋白质通过幻觉而inpaint功能也达到了预期的效果。这包括可以结合金属和抗癌受体PD-1的新蛋白质。
这种新的神经网络可以在短短一秒钟内生成几种不同的蛋白质。其中一些包括致命性呼吸道合胞病毒(RSV)的潜在疫苗。
所有的疫苗都是通过向免疫系统提供病原体的片段来发挥作用的。科学家们通常知道哪一部分最有效,但创造一种达到所需分子形状的疫苗可能具有挑战性。利用新的神经网络,研究小组促使计算机创造新的蛋白质,其中包括必要的病原体片段,作为其最终结构的一部分。该软件可以在关键片段周围自由创建任何支持结构,产生多种分子形状的潜在疫苗。
在实验室进行测试时,研究小组发现已知的抗RSV抗体粘附在他们产生幻觉的三种蛋白质上。这证实了新的蛋白质采用了它们预期的形状,并表明它们可能是可行的候选疫苗,可以促使身体产生自己的高度特异性抗体。仍然需要进行额外的试验,包括在动物身上进行试验。
“我开始研究疫苗,只是为了测试我们的新方法,但在项目进行到一半的时候,我两岁的儿子感染了RSV,在急诊室里待了一个晚上清理肺部。这让我意识到,即使是我们正在做的‘测试’问题实际上也很有意义。”
“这些都是非常强大的新方法,但仍有很大的改进空间,”获得2021年生命科学突破奖的贝克说。“例如,设计高活性酶仍然非常具有挑战性。但是每个月我们的方法都在进步。近两年,深度学习对蛋白质结构预测进行了改造;我们现在正处于蛋白质设计的类似转变中。”
进一步探索