快速导航×

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊2024-08-07 11:44:32

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

准确率达60.8%,浙大基于transformer的化学逆合成预测模型,登nature子刊

编辑 | KX

逆合成是药物发现和有机合成中的一项关键任务,AI 越来越多地用于加快这一过程。

现有 AI 方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。

受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro,该模型可以实现高质量和多样化的预测。

大量实验表明,模型在标准基准数据集 USPTO-50 K 上取得了出色的性能,top-1 准确率达到 60.8%。

结果表明,EditRetro 表现出良好的泛化能力和稳健性,凸显了其在 AI 驱动的化学合成规划领域的潜力。

相关研究以「Retrosynthesis prediction with an iterative string editing model」为题,于 7 月 30 日发布在《Nature Communications》上。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

论文链接:https://www.nature.com/articles/s41467-024-50617-1

分子合成路径设计是有机合成的一项重要任务,对生物医学、制药和材料工业等各个领域都具有重要意义。

逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。

近年来,AI 驱动的逆合成促进了对更复杂分子的探索,大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分,目前已有几种基于深度学习的方法,且效果优异。这些方法大致可分为三类:基于模板的方法、无模板的方法和半基于模板的方法。

在此,研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务,并提出基于编辑的逆合成模型 EditRetro,可以实现高质量和多样化的预测。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:所提出的基于分子串的逆合成的 EditRetro 方法的示意图。(来源:论文)

该研究的核心概念是,通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说,采用了 EDITOR 中的操作,EDITOR 是一种基于编辑的 Transformer,专为神经机器翻译而设计。

EditRetro 概述

EditRetro 模型包含三种编辑操作,即序列重新定位、占位符插入和标记插入,以生成反应物字符串。它由一个 Transformer 模型实现,该模型由一个编码器和三个解码器组成,两者都由堆叠的 Transformer 块组成。

  • 重新定位解码器:重新定位操作包括基本的 token 编辑操作,例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较,包括重新排序和删除原子或基团以获得合成子。
  • 占位符解码器:占位符插入策略(分类器)预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用,类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。
  • Token 解码器:token 插入策略(分类器),负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程,结合占位符插入操作。

EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作,但 EditRetro 在每个解码器内并行执行编辑操作(即非自回归生成)。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

当给定一个目标分子时,编码器将其字符串作为输入并生成相应的隐藏表示,然后将其用作解码器交叉注意模块的输入。类似地,解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间,三个解码器依次执行。

优于基线、生成准确反应物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明,该方法在预测准确度方面优于其他基线,包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明,EditRetro 取得了优越的性能,top-1 精确匹配准确率达到 60.8%。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

此外,在更大的 USPTO-FULL 数据集上,其中 top-1 精确匹配准确率达到 52.2%,证明了其在更多样化和更具挑战性的化学反应中是有效的。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外,EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强,有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样,从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径,从而提高了预测的准确性和多样性。这两种策略共同作用,提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性,包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性,证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是,EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性,通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估:非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:EditRetro 的多步逆合成预测。(来源:论文)

所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径,大多数预测排名在前两位。在考虑的 16 个单独步骤中,有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。

通过提供有价值的见解并促进高效合成路线的设计,该方法有望在逆合成规划领域得到实际应用。

以上就是准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊的详细内容,更多请关注其它相关文章!


# 可以实现  # 唐山网站建设软件开发  # 网站建设优化原则  # 如何建设个人网站和博客  # 广州omo教育推广网站  # seo厂家收费情况  # 上海小家电营销推广平台  # 企业logo设计理念网站推广  # 榆次seo优化推广  # 娄烦网站建设推荐咨询  # 城市品牌营销推广缺乏  # 理论  # 提高了  # 表现出  # 将其  # 都能  # 率达到  # 证明了  # 省电  # 迭代  # 率达 


相关栏目: 【 企业资讯168 】 【 行业动态50218 】 【 媒体报道120512


相关推荐: NoSQL数据库有哪些特点  8k是多少钱  typescript需要学多久  征信不好如何快速恢复 征信不好快速恢复的方法  360n5锁屏壁纸怎么设置  夸克为什么老是投屏失败  问一下市盈率是什么意思  typescript的文件如何执行  选哪个折叠屏手机好用  element ui是什么  faq是什么意思  固态硬盘如何装入机箱  如何提高import命令的性能  估值水平比较中市盈率E是什么意思  .asm如何在命令行运行  typescript数据怎么写  win7如何打开命令行窗口  夸克是什么用途  折叠手机屏易坏吗为什么  春运抢票可以抢几张  命令行如何运行c  单片机for循环怎么用  在遥控器中power是什么意思  typescript如何做项目  记录仪power灯亮是什么意思  put linux命令如何书写  舆论是什么意思  单片机是怎么计时的  如何退出数据库命令行  苹果16有哪些系统  折叠屏手机哪款最好  typescript怎么加号  为什么夸克无法注销账户  手机nfc功能功能是什么意思  苹果16系统有哪些缺陷  什么是域名解析 域名解析中采用了什么  固态硬盘坏了如何换硬盘  如何用chown命令  typescript怎么用  摩托车上power是什么意思  linux如何切换到命令行模式  如何用adb命令停用系统软件  ssd固态硬盘如何安装  春运抢票用不用取票码  华为5g手机掉了怎么定位找回  typescript多久能学会  点焊机接触器上power是什么意思  哪个品牌有折叠屏手机卖  openwrt有哪些功能  j*a怎么保存到数组