高粱,一种重要的农作物,用作食品和生物燃料的生产。美国科学家考虑在这个领域如何提高产量和质量,他们的办法是AI。人工智能(AI)会如何影响农业,食品工业和生物工程领域?美国能源部(DOE)橡树岭国家实验室(ORNL)生物科学部门的研发人员Dan Jacobson提出了一些想法。
在过去的5年中,雅各布森和他的团队研究了许多类似高粱的植物,以了解使它们适应不断变化的环境和气候的遗传变量和模式。作为计算生物学家,雅各布森使用了一些世界上最强大的超级计算机进行工作,包括最近退役的Cray XK7 Titan和世界上最强大,最聪明的开放科学超级计算机IBM AC922 Summit超级计算机,两者均位于Oak Ridge领导层计算设施(OLCF),是ORNL DOE科学办公室的用户设施。
图源:Pixabay
去年,Jacobson及其团队在Summit上使用一种称为“混合精度”的特殊计算技术,成为第一个达到百亿分之一秒速度(每秒大约五百亿次计算)的计算机组,从而获得了戈登·贝尔奖。
雅各布森(Jacobson)的团队目前正在从事众多项目,这些项目形成了AI在植物育种和生物能源领域的未来发展路线图。该团队的工作在10月份的《生物技术趋势》中有介绍。
在此次问答中,Jacobson讨论了他的团队在基因组选择算法方面的工作,他对环境基因组学的未来的愿景以及模拟与AI相遇的空间。
问:您的团队在过去一年中一直在做什么?
雅各布森:我们一直在做一些事情。最近,我们已经开发出新的方法来进行所谓的“基因组选择”,或设计用于繁殖目的的生物。我们已经开发了一种新的基因组选择算法,该算法由新兴的机器学习方法(统称为“可解释的AI”)驱动,该领域通过尝试了解这些算法的决策方式来改进黑盒分类器AI方法。
该算法可帮助我们确定需要组合基因组中的哪些变异,以产生能够适应其环境的植物。这将根据您要采取的生物工程策略为育种工作,基因编辑工作或这些工作的组合提供信息。
问:去年,您使用一个允许您研究生物体与其环境之间的组合相互作用的代码突破了百亿亿美元级障碍后获得了戈登·贝尔奖。该算法如何适合该研究?
雅各布森:我们仍在使用去年使用的模型,但是现在,我们已经将这种由AI驱动的基因组选择算法引入到组合度量[CoMet]代码中,并且每年都会向其提供环境信息,因此我们可以在整个气候时间内进行全基因组关联研究。
此外,我们已将我们所谓的“气候类型”(即植物正在适应的气候和环境信息)的工作扩展到全球范围。借助ORNL的彼得·桑顿(Peter Thornton)及其团队在生物地理学和气候领域的专业知识,我们构建了地球上每平方公里土地的模型,并将从土壤到光谱的50年环境和气候数据编码到这些模型中质量,介于两者之间。
为了了解不同环境之间的所有关系,我们在峰会上使用了添加到CoMet代码库中的称为Duo的新算法将这些环境相互比较。据我们所知,这是有史以来最大的科学计算。
问:这听起来是一项巨大的成就。这些比较可以为您提供哪些信息?
雅各布森:这些比较可以帮助我们准确地确定我们可以针对特定环境的位置,以及我们需要包括哪些基因突变和等位基因以帮助这些植物适应不同的环境。我们可以看一个环境,然后说:“对于这种环境,这是我们在植物基因组中要拥有的一切,才能使其尽可能地繁衍。”
问:这是环境基因组学的未来吗?
雅各布森(Jacobson):我们所看到的综合视野是所有“-组学”层之间的联系,从基因组学(基因表达),蛋白质组学(蛋白质表达)和代谢组学(代谢产物表达)一直贯穿表型(可观察到的性状)。因此,从基因组到现象组以及介于两者之间的所有事物。
理想情况下,我们希望将基因型数据与气候和环境数据结合在一个集成模型中,从单个核苷酸(构成DNA的分子结构)到行星规模的环境和气候,都应结合在一起。由于我们实际上已经计算出了行星上每个点的光谱尺度,这是可能的,因为我们实际上已经计算出了地球上每个点的光谱尺度,这是来自我们最近的恒星太阳的天体表型。
首先,我们需要研究此类模型中的组合相互作用,以了解它们如何导致我们试图在植物中优化其新兴特性以实现未来的生产力和可持续性。然后,我们可以将其与植物历来适应环境的方式联系起来,以便为生物能源或食品生产设计新的理想基因型,并对其进行优化以在特定环境中蓬勃发展。
问:将来农业中会需要这种东西吗?
雅各布森(Jacobson):随着世界的变化,利用“边际土地”的压力越来越大,这是目前通常不用于农业或不能有效地用于农业的土地。因此,如果我们设计在这些边缘环境中壮成长的基因型,那么除了我们的能源生产外,我们还将能够增加我们的粮食生产。这是一项双重用途技术。
我们还真的担心土地过度施肥,因为这可能导致径流产生严重的生态后果。如果我们能够优化植物以利用几乎不需额外肥料的养分,那么对可持续发展也将带来巨大好处。因此,我们实际上是试图从整体上看待这个问题,并尽可能在模型中建立尽可能多的适应,以便我们知道在某些环境中的影响。
问:接下来要做什么?
雅各布森(Jacobson):下一步是查看历史数据以及所有这些关系,然后进行展望,以便我们可以实际设计不仅在当前环境区域中能够繁盛,而且在未来随着全球网络变化而继续繁盛的基因型。对于一年生作物和长期多年生作物而言,向前预测的能力非常重要。
问:还有哪些挑战?
雅各布森:我们正在做的一切都是繁重的工作,但我们正在研究如何在Summit和OLCF未来的百亿亿分之一系统Frontier上设计这种新方法,以便我们能够真正理解所有这些关系。而且,既然我们在所有这些“ -omics”层上都拥有此数据,我们就必须运行这些称为多面体的层组合,成千上万次。我们正在构建的下一组算法是在所有多表位之内和之间找到所有可能的关系和关联。那是下一个领域。
问:您的工作是否会与传统的气候模拟模型相交?
雅各布森(Jacobson):这是由数据和AI驱动的气候信息视图,与模拟方法不同。随着时间的流逝,看到它们相交的位置将很有趣,并且我们在这里可能学到的东西对于气候模型很有帮助,反之亦然。我们也知道,这种可解释的AI技术可以在模拟研究中提供很多帮助。理想情况下,我们可以开发可解释的AI驱动模型,该模型可以帮助模拟模型解决某些瓶颈问题。如果我们可以学习模拟模型使用的模式,并用学习的结果代替它们的某些瓶颈,那么这些模型可以做更多有创意的事情。确实,这是我们将来可能会看到某些空间相交的地方。