Nat. Mach. Intel.:GPU计算和深度学习在药物发现领域中的变革作用.docx
Nat. Mach. Intel.:GPU计算和深度学习在药物发现领域中的变革作用目录刖511 .分子模拟中的GPU计算和深度学习41. 1.在GPU上的加速分子动力学模拟41.2. 量子力学和GPU51.3. 蛋白质结构的测定中的GPU加速62.计算机辅助药物发现(CADD)中深度学习的出现62. 1. CADD中的深度学习架构72 . 2.利用GPU和深度学习扩大虚拟筛选的规模7.支持GPU计算的深度学习促进了科学的开放和药物发现的民主化83 .总结和展望9考资料101刖S今天带来的是Abraham C. Stern和Artem Cherkasov联合课题组的Mohit Pandey发表在 <nature machine intelligence的评论文章GPU计算和深度学习在药物发现领域中的变革作 用。深度学习几乎颠覆了每一项研究领域,包括对药物发现有直接重要性的领域,比方药物化学和 药理学。这场革命在很大程度上归功于高度并行化的图像处理单元(GPU)的空前进步和支持GPU 的算法的开展。这篇评论文章全面介绍了 GPU算法的历史趋势和最新进展,讨论了它们对发现新药 和药物靶点的直接影响。此外,还介绍了最先进的深度学习架构。这些架构在早期的药物发现和随 后的命中率优化阶段都有实际应用,包括加速分子对接,评估脱靶效应和预测药理特性。最后,这 篇文章探讨了 GPU加速和深度学习模型对药物发现领域的全球民主化的影响。它可能会帮助有效探 索不断扩大的化学世界,加速发现新药。第1页共10页的领域。因此,联邦学习和协作机器学习也正在受到关注,相信它们将成为民主化的药物发现革命 的先驱。参考资料Pandey, M., Fernandez, M., Gentile, F. et aL The transformational role of GPU computing and deep learning in drug discovery. Nat Mach Intell 4, 211-221 (2022). s:/doi.org/10.1038/s42256-022-00463-x第io页共io页naturemachine intelligenceREVIEW ARTICLE s:/7doix>rg/10.1038A42256-022.00463-xThe transformational role of GPU computing and deep learning in drug discoveryMohit Pandey lr5r Michael Fernandez ?叱 Francesco Gentile Olexandr Isayev 32, Alexander Tropsha3, Abraham C. Stern4: and Artem Cherkasov1:GPU最初开发用于加速3D图形,之后它强大的并行计算能力很快得到了科学界的好评, NVIDIA和AMD相继开发GPU的编程框架以促进机器学习的开展。生物信息学、化学信息学、化 学基因组学领域以及计算机辅助药物发现共称为CADD,已经利用了在GPU上运行的深度学习方 法。CADD中的大多数挑战通常都面临组合学和优化问题,而机器学习已经有效地为它们提供了解 决方案。因此,DL在CADD应用中取得了重大进展,例如虚拟筛选、从头药物设计、吸收、分 布、代谢、排泄和毒性(ADMET)特性预测等(图1)。在这里,作者讨论了 GPU支持的并行化和DL模型开发和应用对蛋白质和蛋白质-配体复合物 模拟的时间尺度和准确性的影响。作者还提供了用于低温电子显微镜(cryo-EM)中的结构确定和 蛋白质3D结构预测的DL算法例如。第2页共10页approvalClinical trialsPreclinical trialsGenerative modelsProperty predictions DL-based de novo design DL-based ADMET predictionsFree-energy calculationsLigand-based screening Molecular dynamics acceleration QSARHit discoveryHigh-throughputvirtual screeningTarget elucidation GPU acceleration of dockingDL-based molecular docking Cryo-EMMolecular dynamics DLVmolecular mechanics potentialsProtein structure elucidation (AlphaFold)Fig. 11 CADD workflow. GPU accelerators find applications in each step of the drug discovery and development process (shaded in colour). FDA, US Food and Drug Administration.第3页共10页1 .分子模拟中的GPU计算和深度学习GPU的加速来自于大规模的数据并行性,它产生于对数据的许多元素进行的类似独立操作。在 图形学中,一个常见的数据并行操作的例子是使用旋转矩阵跨坐标描述视图旋转时物体的位置。在 分子模拟中,数据并行可以应用于原子势能的独立计算。同样的DL模型的训练涉及到前向和后向 传递。这些传递通常用矩阵转换表示,很容易并行化。1.1. 在GPU上的加速分子动力学模拟在过去的十年里,相比于以CPU为中心的算法,以GPU为中心的分子动力学代码使模拟计算 本钱降低了数百倍。因此,大局部分子动力学引擎都提供了 GPU加速实现。GPU不仅适合加速分 子动力学模拟,还可以利用空间域分解来很好地扩展系统规模。因此,分子动力学模拟扩展到了更 广阔的生物分子现象,接近病毒和细胞水平,更接近实验时间尺度。最近方法和算法的进展使得分 子动力学模拟的分子规模到达了 2x109个原子(图3),总体模拟时间是微秒甚至毫秒。自由能模拟是另一个受益于GPU开展的领域。比方相对结合自由能计算、热力学积分和自由能 扰动等方法现在使得可以计算出大量蛋白质-配体复合物的可靠结合亲和力。最近基于神经网络的力 场的开展,如ANI (分子能量的精确神经网络引擎)和AIMNet (原子-分子网),提供了自由能模 拟的工业标准精度。美国化学协会杂志基准集中的络氨酸-蛋白质激酶2抑制剂的基准显示, 使用ANI机器学习潜力的模型降低了 50%的绝对结合自由能误差。用于增强抽样的重新加权自动编 码变异贝叶斯方法成功用于模拟配体-蛋白质解离。它的处理速度明显快于传统的分子动力学,但仍 然准确地估计了结合自由能和环型构象采样。同样,Drew Benn等人使用DNN预测来自分子动力 学模拟的小分子的水到环己烷的转化能量。在开源框架的支持下,也有人提出使用混合DL和分子 的势进行配体-蛋白模拟。这些方法用基于量子力学的DL势作为配体,用分子力学作为周围的环 境。与传统势相比,可以更好地再现结合姿势。第4页共10页sluolcooJaquJnNHIV capsid109108 -107 -ATP synthase106 -Aquaporin105 -Ribosome104 >STMVProtocell (200 nm)3Chromatophore l(100 nm)3.Lysozyme (2 nm)3 i1990199520002005201020152020YearFig. 3 | Timeline of the complexity of biological systems that could be simulated with molecular dynamics. Continuous development effort over the years towards simulating with NAMD realistic biological objects of increasing complexity from a small, solvated protein, on the thousand-atom size scale, in the early 1990s, to a full protocell, on the billion-atom size scale, now. ATP, adenosine triphosphate; HIV, human immunodeficiency virus; STMV, satellite tobacco mosaic virus. Figure reproduced with permission from ref.AIP Publishing.1. 2.量子力学和GPUCUDA和OpenCL的API是GPU应用成功的关键。实现高效率,需要同时执行被分组为块的线 程。TeraChem是第一个专为GPU编写的量子化学代码。混合精度的算数可以非常有效地计算库伦 和交换矩阵。TeraChem的最新算法的研发可以用密度函数理论(DFT)模拟整个蛋白质。混合量 子力学-分子力学模拟细菌后穹窿蛋白的非绝热动力学可以观察光激活机制,还可以帮助理解光能转第5页共10页 换为功的分子水平。DFT计算现在是研究蛋白质-配体相互作用的常规方法。例如,最好的计算结果 是蛋白质-配体相互作用能量的平均绝对误差约为2千卡、摩尔。对血清蛋白酶因子X和络氨酸蛋白 激酶2的DFT计算说明,所得到的几何形状接近于共晶体的蛋白配体结构。未来的超大规模超级计算机将在异构的CPU和GPU环境中提供高水平的并行性。这种扩展需 要开发新的混合算法,并从本质上重写科学代码。这些新的开展现在正作为NWChemEx包的一部 分来实施。NWChemEx将提供对系统进行量子力学和分子力学模拟的可能性,这些系统比理论方法 的经典公司所能解决的要大好几个数量级。1. 3.蛋白质结构的测定中的GPU加速低温电镜的高通量和自动化变得越来越重要,因为它是用于蛋白质结构测定的最先进的实验技 术,可用于基于结构的药物设计。基于DL的方法,如DEFMap和DeepPicker,已经开发来加速低 温电镜图像的处理。DEFMap方法通过结合DL和学习局部密度数据之间关系的分子动力学模拟, 直接提取于于隐藏原子波动相关的结构动力学。DeepPicker采用卷积神经网络(CNN)和跨分子训 练,从先前分析的显微照片中捕捉粒子的共同特征,这有利于从单粒子分析中自动挑选例子。这个 工具说明DL集成可以成功地解决目前在实现全自动低温电镜管道方面的差距,为蛋白质科学的一 种新的多科学方法铺平了道路。除了通过低温电镜加速原蛋白结构的实验表征外,最近的DeepMind和AlphaFold2方法在蛋白 质结构预测关键评估(CASP)挑战中取得了突破性成功,说明了 DL算法在蛋白质结构表征和扩展 可药用蛋白质组的未来影响力。AlphaFold2不需要接触过类似的结构,就能够以原子级的精度定期 预测蛋白质的几何形状。最近更新的基于神经网络的模型在大多数情况下表现出与实验相竞争的准 确性,而且在第14届CASP比赛中远超过其他方法。AlphaFold2背后的DL模型结合了关于蛋白质 结构的物理和生物知识,利用多序列比对来破解生物学中最古老的问题之一。AlphaFold2用来预测 几乎所有的人类蛋白质和其他对医学研究很重要的生物体结构,总计35万个蛋白质,这对生 物医学的研究来说是个了不起的成就。2.计算机辅助药物发现(CADD)中深度学习的出现DL的进步,特别是在计算机视觉和语言处理方面,使CADD研究人员最近对神经网络重新产 生了兴趣。默克公司通过2012年的Kaggle分子活动挑战赛将DL普及到CADD中。Dahl等人的获 胜方案利用了多任务学习的方法来训练一个DNN。此后,许多研究人员将这种模型用于药物发现问 题。这些问题包括评估治疗药物的要理性为及其不良反响的预测因素,小分子与蛋白质结合的预 测,确定致癌细胞的化疗反响,药物敏感性的定量估计和定量结构-活性关系(QSAR)建模等等。第6页共10页支持GPU的DL架构的出现和化学基因组学数据的激增,导致了有意义的CADD支持的临床候 选药物的发现。此外,人工智能(AI)驱动的公司(如BenevolentAI、Insilico Medicine和 Exscientia等)正在报道增强型药物发现方面的成功。例如,Exscientia开发了一种用于治疗强迫症 的候选药物DSP-1181,该药物从构思到使用人工智能方法不到12个越就进入了第一阶段的临床试 验。Insilico医药公司刚刚开始了其第一个AI开发的治疗特发性肺纤维化的候选药物的临床实验。 BenevoAI确定baricitinib是对COVID-19的一种潜在的治疗方法。这些最近的成功案例说明,在 GPU计算的支持下,进一步推广和应用人工智能驱动方法可以很大地加快发现新的和改进地药物。 2. 1. CADD中的深度学习架构从现有的或合成可行的化学库的虚拟筛选中找到应用的鉴别神经网络到最近DL生成模型的成 功,这激发了它们在从头药物设计中的应用。这篇评论描述了常用的最先进的DL结构的常用方 法,具体可以查看原文的图4。另外评论中还用表格列举了它们在CADD中的采用情况,具体可以 查看原文中的表lo2.利用GPU和深度学习扩大虚拟筛选的规模基于结构的虚拟筛选和基于配体的虚拟筛选旨在计算出的化合物与靶点的亲和力,然后根据亲 和力对其排序,并将小分子之间的结构相似性推断为功能等同性。随着可购买的配体库的指数式增 长,已经包括数百亿的可合成分子,人们对通过对接计算的并行化或基于DL的加速来扩大传统虚 拟筛选的规模越来越感兴趣。最近开发了许多基于结构的虚拟筛选方法,用来有效地筛选数十亿条化学库。第一个例子是 VirtualFlow,它可以几个星期内在大型CPU集群(约10,000个核心)上筛选10亿个分子,同时 显示出线性扩展行为。和VirtualFlow及其他基于CPU的方法不同,使用OpenCL和CUDA库使对 接算法进行GPU加速,通过将整个蛋白质表现划分为任意独立的区域(或斑点)或在异质计算系统 中结合多核CPU架构和GPU加速器,局部解决了高通量瓶颈问题。这种策略的一个最新的例子是 Autodock-GPUo它通过并行化姿势搜索过程,使其能在大型GPU集群上,如顶峰超级计算机(约 27000个GPU)上一天筛选十亿个分子。因此,这些在高性能计算上利用GPU计算的方法可能会 帮助从大型的多样化的化学文库中确定新的先导化合物,或者加速其他基于结构的方法,比方反对 接。然而,计算本钱仍然很高。对那些无法接触到精英超级计算集群的药物发现组织来说,可能会 令人望而却步。另一方面,最近出现了其它基于结构的虚拟筛选平台,利用DL预测和分子对接来促进从计算 资源有限的大型苦衷选择活性化合物。这些方法中最主要的策略是实现经典计算帅选分数的DL模 拟器,它依赖于比传统对接更高一个数量级的推理速度。预测性DL模型是用各种化学结构表示来第7页共10页 构建的,从分子指纹到更复杂的嵌入,以过滤掉化学库的大局部。Deep Docking是最早的方法之 一,它依赖于一个全连接的MLP模型。该模型用化学指纹和库中的一小局部分数进行训练,然后 用来预测剩余分子的对接分数等级,允许在不对接它们的情况下删除低排名的条目。深度对接最初 用Ton等人部署,使用Glide对抗SARS-CoV-2主要蛋白酶,从ZINC15中筛选出13亿个分子。最 近Gentile等人还将其应用于不同的对接程序,来筛选400亿个的商用分子来对抗SARS-CoV-2主蛋 白酶,从而发现了新的经实验证实的抑制剂支架。其它类似的方法是依赖于预测对接结果的DL模 型,如MolPAL (基于分子池的主动学习)和AutoQSAR/DeepChem。Hofmarcher等人也在由超过 10亿个化合物的ZINC数据库上进行了基于配体的病毒筛选。与暴力方法相比,这些基于DL的方 法可能在使得学术研究组和小微型工业接触到化学空间方面发挥重要作用。3 .支持GPU计算的深度学习促进了科学的开放和药物发现的民主化这里介绍的CADD中的DL整合对药物发现和开放科学努力的全球民主化做出了巨大贡献。开 源 DL 包 DeepChem、ATOM、Deep Docking、MolPAL> OpenChem> Graphinvent 和 MOSES 等,使 用流行的机器学习库(包括但不限于scikit-learn、Tensorflow和Pytorch)简化了 DL策略到药物 发现管道的集成。对DL模型的大型数据的需求日益增长,这自然地鼓励了数据共享的实现,以及 对更广泛的开放数据政策的呼吁。止匕外,云原生计算和面向微服务的架构中的GPU加速可以使 CADD方法免费和广泛可用,有助于计算模块和工具以及架构、平台和用户界面的标准化。DL解决 方案可以利用公共云服务,如亚马逊网络服务、谷歌云平台和微软Azure,通过降低本钱来促进药 物的发现。尽管这些新的支持DL建模机会令人兴奋,但CADD科学家需要对DL技术的预期影响持谨慎 态度。需要从20多年来数据驱动的分子建模的经验教训和最正确实践中得出现实的期望。例如,数 据的质量、数量和多样性不仅会阻碍CADD模型的准确性,也会阻碍其整体的通用性。因此,数据 清理和整理将继续发挥重要作用,它可以单独决定这类DL应用程序的成败。另一方面,使用来自 指导性实验或高水平计算机模拟的动态数据集可以促进主动学习策略的使用。正如AutoQSAR工具 所实现的那样,交互式训练和评估可以极大地改善模型质量。除了预测模型,DL解决方案在结合 生成模型和基于RL的决策方法时特别有用。基于奖惩规那么的优化可以使具有所需化学和功能特性 的化学结构实现前所未有的“点菜”式设计。这种同时将具有化学和生物学意义的作用强制纳入从 头药物设计的方法,代表了与更传统的黑盒DL解决方案的巨大不同。开放科学的努力正受益于最近的端到端DL模型,这些模型可以在使用GPU的药物发现的所有 阶段实现。最近开发的这样一个平台是IMPECABLE,它集成了多种CADD方法。Al Saadi等人将分 子动力学在预测结合自由能方面的优势与对接在姿势预测方面的优势结合起来。他们的解决方案不第8页共10页 仅可以自动进行虚拟筛选,而且还可以进行线索的细化和优化。NVIDIA Clara Discovery是一个由GPU加速的框架、工具和应用程序的集合,用于计算药物发 现,涵盖分子模拟、虚拟筛选、量子化学、基因组学、显微镜和自然语言处理。这些平台旨在实 现开放和交叉兼容,并有望加速整合整个生物制药领域的不同数据源,从研究论文、病人记录、症 状和生物医学图像到基因、蛋白质和候选药物。许多主要的硬件制造商现在利用他们的计算专业知识进入了超级计算领域,通过使用多个GPU 集群来训练大容量的DL模型,用于反响预测、分子优化和从头分子生成。CADD平台对药物端点 采用DL模拟,使包含数百亿化合物的文库上的药物发现能够负担得起,即使对没有精英计算设施 的小公司和学术实验室也是如此。由于法律上的复杂性,各机构之间的专有数据共享仍然是简化药物发现研究的瓶颈。联邦学习 允许参与的机构对其各自的非共享数据进行局部训练。然后,将经过训练的本地模型聚合到一个中 央服务器中,以获得更广泛的可访问性。因此,联邦学习通过在某种程度上缓解数据交换的挑战来 支持民主化,尽管有效的模型聚合仍然是一个活跃的研究领域。4 .总结和展望现代药物发现受益于最近的DL模型和GPU并行计算的爆炸式增长。在硬件进步的推动下,DL 在从虚拟筛选和QSAR分析到生成性药物设计的药物发现问题上表现出卓越地性能。特别是药物设 计是GPU计算进步的主要受益者之一,因为它利用了大容量和高度参数化的模型,如VAE和 GANs,如果不使用GPU等硬件加速器,就不能合理部署。不断提高的性价比GPU硬件,依赖DL 地GPU和广泛采用DL地CADD近年来都是明显的事实,在过去的4年内有超过50%的“AI化学”文 档发表在在CAS。此外,还采用了混合人工智能方法,结合传统的分子模拟和DL,来快速和准确 地筛选接近数千亿分子的超大型化学文库。预计,越来越强大的GPU架构的可用性,加上先进的 DL策略和GPU加速算法的开展,将有助于全球更广泛的科学界负担得起药物发现。DL算法的另一个关键驱动力是“大数据”。随着基因测序和高通量筛选的日益容易,数据驱动的 计算化学领域的研究人员很容易获得大量的原始数。然而,对监督学习方法至关重要的高质量的标 记数据仍然是很贵。以辅助数据集学习为基础的方法、知识迁移学习和零射学习等标记保守方法已 成为药物发现DL的核心局部。用于药物发现开发的DL方法的可靠性和通用性都严重取决于来源 数据的质量。因此,数据清理和管理发挥着重要的作用,它能决定这种DL应用程序的成败。因 此,深入探索集中、处理和标签良好的数据存储库的假定好处仍然是一个开放的研究领域。总的来说,药物发现和机器学习领域的研究人员们已经合作来识别CADD子问题和相应的DL 工具。未来几年,这些应用将得到微调和成熟,这种合作将进一步开展到生命科学中其他开发缺乏第9页共10页