人工智能时代的超级计算加速蛋白质结构预测

2024-07-02 09:55来源:本站编辑

Supercomputing simplified in the age of AI

对于研究人员来说,使用高性能计算机可能有点吓人。了解最好的使用界面,如何使软件规模化,以及如何处理庞大的数据集需要它自己的专业知识。

幸运的是,NCSA不仅仅是部署和操作这些强大的系统。该中心是科学和工程应用支持(SEAS)团队的所在地,该团队帮助研究人员有效利用NCSA可用的硬件和软件资源。

与SEAS合作,研究人员可以获得安装Python包的帮助,学习为他们的项目选择最佳的并行计算引擎,或者感谢发表在pnas杂志上的突破性工作,学习成功部署人工智能模型。这篇论文的标题是“APACE: AlphaFold2和高级计算作为加速生物物理学发现的服务”。

《美国国家科学院院刊》的研究论文由SEAS小组的高级研究程序员Roland Haas、美国能源部(DOE)阿贡国家实验室(Argonne National Laboratory)的翻译人工智能负责人Eliu Huerta、芝加哥大学(University of Chicago)的CASE高级科学家、伊利诺伊州生物物理学博士生Hyun Park和NCSA研究生研究助理Parth Patel撰写。描述了一种新的计算框架,它简化并加速了使用人工智能工具和算法来理解三维蛋白质结构的过程。

该框架还预测了蛋白质的构象多样性,这是一个重要的特性,因为蛋白质是可塑的结构,可以在不同的构象之间翻转来完成它们的工作。

该团队开发了一种计算工具APACE,可以有效地处理用于预测高性能计算系统上蛋白质结构的人工智能程序AlphaFold2。他们在NCSA的Delta超级计算机上部署了APACE,以测量它在预测四种范例蛋白质结构方面的表现。

使用分布在300个NVIDIA A100 gpu上的多达300个集成,他们发现APACE比现有的AlphaFold2实现快了两个数量级。

此外,同样的方法可以用于各种科学学科,并可以与机器人实验室联系起来,以实现自动化和加速科学发现。该团队后来在美国能源部科学办公室用户设施阿贡领导计算设施的北极星超级计算机上复制了这项工作。

Huerta说:“如果基金会的人工智能模型能够被更广泛的科学界发现、获取并准备好使用,它们就有可能改变科学实践。”“该项目展示了如何创建和共享所需的科学数据基础设施,以真正实现尖端人工智能的民主化,并利用现代计算环境最大限度地提高其科学影响力。”

生物医学研究人员通过研究蛋白质来了解广泛的生物功能。蛋白质是氨基酸链,它们排列成三维结构决定了生物功能。

了解蛋白质是如何形成的——通常被称为蛋白质折叠的过程,在这个过程中,氨基酸聚集在一起形成具有特定功能的结构链——对于理解正常的生物功能以及折叠错误是如何导致严重疾病的至关重要。

预测蛋白质折叠需要大量的计算,因为一个典型的蛋白质可能包含数百个氨基酸和数千个以不同方式组合的细胞。

研究蛋白质结构的常用方法是x射线晶体学(一种确定晶体的原子和分子结构的工具)和低温电子显微镜(cryo-EM)。低温电子显微镜将分子快速冷冻在液氮中,用电子轰击分子,用特殊的照相机捕捉它们的图像。

AlphaFold和AlphaFold2表明,人工智能软件可以准确、快速地从氨基酸序列中预测蛋白质结构,而APACE的发展正是建立在这一突破的基础上。

APACE对AlphaFold2进行了优化,使其能够在高性能计算平台上大规模运行,并有效地处理其多tb的蛋白质数据库。这项工作表明,大型人工智能模型可以与高性能计算的力量相结合,使科学家能够研究多蛋白质复合物,并以更快、更准确、更高的分辨率获得结果——所有这些因素都可能导致对蛋白质结构的更全面了解,并启动可以治疗多种疾病的新药的开发。

哈斯说:“新药的研究非常耗时,而且由于需要合成不同的候选化合物来在实验室测试它们的医疗效果,因此研究新药非常困难。”

APACE使药物研究人员能够大大减少筛选潜在候选化合物所需的时间,从而专注于最有希望的物质。通过这种方式,可以测试更多的化合物,并且可以减少开发新药的时间,例如针对特定病毒株量身定制的药物。

APACE的一个关键特点是更好的数据管理,这是通过在超级计算机上托管AlphaFold2的多tb模型和数据库来实现的,框架的神经网络可以很容易地从中访问数据。其他改进包括CPU优化和GPU优化,以并行化GPU密集型神经网络蛋白质结构预测步骤。

“使用人工智能模型的第一个问题是数据的存储,”帕克说。和帕特尔一样,当APACE的工作完成时,她也在阿贡国家实验室实习。

“我们需要传递2.6 tb (AlphaFold2数据库的大小)以及从序列到结构预测的计算。一些大学实验室也许能做到这一点,但重要的是你要扩大规模,让全世界的科学家都能使用它。”

Patel补充说:“这就是为什么高性能计算的利用很重要,特别是对于人工智能模型。任何可以进入HPC系统的人都可以访问数据和计算能力来进行实际的人工智能模型计算。更不用说,速度也会大幅提升。”

Huerta表示,该团队选择与AlphaFold2合作,是因为它被广泛应用于不同的研究领域,包括生物物理学、化学、药物设计和发现。

“APACE提供了原始AlphaFold2模型的所有功能,并使研究人员能够利用超级计算机减少解决方案的时间,并将该工具与自动驾驶实验室连接起来,以实现自动化和加速发现,”他说。

Huerta表示,该团队将继续建立APACE用户社区,以最大限度地提高AI模型与HPC平台的可用性。哈斯说,该团队现在专注于攻击系统中剩余的瓶颈,以进一步提高速度。他还希望在更多的计算集群上使用APACE,以便更多的科学家可以利用它。

哈斯说:“我们还想探索使用我们开发的方法来加快Alphafold2与其他基础机器学习模型的速度,这些模型过于复杂,无法在普通桌面工作站上轻松使用。”“这一切都是为了让最好的工具可用,并尽可能容易使用。”

爱恩资讯声明:未经许可,不得转载。