当前位置: 首页 > news >正文

Protein FID:AI蛋白质结构生成模型评估新指标

一、引言:蛋白质生成模型面临的评估挑战

近年来,AI驱动的蛋白质结构生成模型取得了令人瞩目的进展,但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准,但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而,尽管最先进的模型在当前评估指标上表现卓越,但它们在实际设计应用中的成功率仍然相对有限。例如,有研究报告显示生成结构的实验成功率仅为3%,而计算机模拟评分却远高于此。

MIT CSAIL的Felix Faltings等研究人员在论文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一个革命性的评估指标——Protein FID (Frechet Inception Distance),该指标能够在有意义的潜在空间中衡量分布相似性,为蛋白质结构生成模型的评估提供了新的视角。

二、现有评估指标的局限性

目前,蛋白质设计领域最常用的体外评估指标包括可设计性(designability)、新颖性(novelty)和多样性(diversity)。

可设计性指的是一个结构是否存在一个能够折叠成该结构的序列。在实践中,可设计性是通过生成基于给定结构的序列,然后检查这些序列是否能够折叠回原始结构来评估的。多样性则通过考察模型生成的输出之间的差异性来评估,通常是通过查看输出空间中不同聚类的数量。而新颖性则检查模型产生的记忆样本的数量。

然而,这些指标都没有捕捉到模型对训练数据中代表的设计空间的采样情况。例如,一个模型可能会生成高度多样化、新颖且可设计的蛋白质,但却从不生成任何β折叠结构,而β折叠结构可能对解决某些设计问题至关重要。事实上,许多生成模型被观察到过度采样α螺旋,而牺牲了其他二级结构。如下图所示,即使是在PDB数据库中的天然蛋白质,其可设计性也只有80%左右,远低于当前生成模型声称的接近99%的可设计性。

图片

图1:PDB蛋白质的可设计性。按长度划分的PDB条目中可设计结构的比例,包括由ProteinMPNN设计的序列和天然序列。红色水平线表示整个集合的平均值。

由图1可见,在所有长度范围内,约有四分之一的PDB结构不被认为是可设计的。即使对于较短的蛋白质,可设计性也远低于生成模型所达到的水平,而当考虑原生蛋白质序列而不是由ProteinMPNN生成的序列时,这个数字甚至更低。这表明像Multiflow这样声称在类似长度范围内达到99%可设计性的最先进蛋白质结构生成模型可能过度优化了这一指标。

参考链接:https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ

http://www.lryc.cn/news/594561.html

相关文章:

  • MCP协议解析:如何通过Model Context Protocol 实现高效的AI客户端与服务端交互
  • 基础神经网络模型搭建
  • 【Linux】3. Shell语言
  • 双8无碳小车“cad【17张】三维图+设计说名书
  • XTTS实现语音克隆:精确控制音频格式与生成流程【TTS的实战指南】
  • XSS GAME靶场
  • 仙盟数据库应用-外贸标签打印系统 前端数据库-V8--毕业论文-—-—仙盟创梦IDE
  • Apache基础配置
  • ESMFold 安装教程
  • 深度相机的工作模式(以奥比中光深度相机为例)
  • 近期工作感想:职业规划篇
  • 【RAG Agent】Deep Searcher实现逻辑解析
  • 尚庭公寓--------登陆流程介绍以及功能代码
  • Linux:线程控制
  • API获取及调用(以豆包为例实现图像分析)
  • 《计算机网络》实验报告三 UDP协议分析
  • 单线程 Reactor 模式
  • 【PyTorch】图像二分类项目
  • SSE和WebSocket区别到底是什么
  • 渗透笔记(XSS跨站脚本攻击)
  • `MYSQL`、`MYSQL_RES` 和 `MYSQL_FIELD`的含义与使用案例
  • [硬件电路-59]:电源:电子存储的仓库,电能的发生地,电场的动力场所
  • 2025最新 PostgreSQL17 安装及配置(Windows原生版)
  • BST(二叉搜索树)的笔试大题(C语言)
  • 【web安全】SQL注入与认证绕过
  • 【算法300题】:双指针
  • c#转python第四天:生态系统与常用库
  • XSS的介绍
  • Linux主机 ->多机器登录
  • 从零到精通:用DataBinding解锁MVVM的开发魔法