当前位置: 首页 > news >正文

【论文阅读】AlphaFold2阅读笔记

摘要

给一串氨基酸的序列,去预测他的结构是什么样的

蛋白质的折叠问题

alphaFold精度不够

这里可以达到原子精度的预测

CASP14 精度

  • 这个是什么问题
  • 是不是解决了问题

模型的结果并不重要

导论

摘要故事的详细版本

在写论文的时候,可以这样写:达到了原子精度的结果

此时就是一个里程碑式的结果,换算成一个大家可以理解的概念

PDB数据集:目前为止所有了解的蛋白质的结构

模型和训练

分为三个部分

  • 特征抽取
  • 编码器
  • 解码器

特征抽取

  • MSA 多序列比对

把人、鱼、鸡相似的蛋白质拿出来比对;同一个氨基酸在不同蛋白质的表现;去基因数据库中搜索与当前人的氨基酸序列有没有相似的序列

  • 氨基酸之间的关系

氨基酸之间的关系,构建一个矩阵,每一对的项是每两个氨基酸之间的关系

得到两大特征:

  • 氨基酸序列特征
  • 氨基酸对之间的特征

encoder

两大特征矩阵进入evoformer

不再是序列的关系,而是二维关系

输入是两个不同的张量

编码器里有48个block,用的transformer架构

编码器的输出很好的表征了每个氨基酸的关系

一块处理的是按行的序列信息、一块处理的是按列的序列信息


自注意力

编码器中有48个块

多头自注意力、MLP

两个特征之间存在信息交互

在MSA中按行拿出一个序列,做attention;按列

用每一行,做sigmoid,去打造一个门,0/1

对偏移:每一个氨基酸对的关系,作为一个偏移加进去,再进去softmax,这样的自注意力分数可以有关系的信息

MLP模块

做信息的提炼

解码器

重构蛋白质的结构

对每个氨基酸去预测他在3D中的位置

编码器的输出和解码器的输出,回收,传回输入,再做一次精调

回收机制就相当于把模型复制了三次,但权重还是基于前面的


都是相对位置

主干网络

欧几里得变换

对蛋白质的全局结构做旋转或者位移,不会影响局部的变换

进入IPA的模块,氨基酸的表示有了位置的信息

氨基酸对的信息、不断更新的序列信息、主干信息

经过8个IPA,每一次在结构中做不断的调整

慢慢地到我们要的氨基酸的形状

预测模块:做一个线性的投影层就可以得到输出

结论

在前人的基础上做10-20点改进

把所有的东西积累在一起,最后憋一个大招

http://www.lryc.cn/news/65539.html

相关文章:

  • 机器学习基础知识之数据归一化
  • QCC51XX---pydbg_cmd集合
  • camx 马达的MSM_ACTUATOR_WRITE_DAC 操作
  • 【无人机】无人机平台的非移动 GPS 干扰器进行位置估计的多种传感器融合算法的性能分析(Matlab代码实现)
  • 一篇文章搞定《RecyclerView缓存复用机制》
  • Elasticsearch概述
  • 停车场收费系统
  • nodejs+vue+elementui学生毕业生离校系统
  • 儿童用灯哪个品牌好?推荐专业的儿童护眼台灯
  • 探究Android插件化开发的新思路——Shadow插件化框架
  • SimpleDateFormat和DateTimeFormatter的区别及使用详解
  • 边缘人工智能——nanodet模型实践指引,从标注数据集到实现部署文件
  • SASS的用法指南
  • MCSM面板一键搭建我的世界服务器-外网远程联机【内网穿透】
  • ( 数组和矩阵) 565. 数组嵌套 ——【Leetcode每日一题】
  • linux内核网络子系统初探---概述
  • java版工程项目管理系统源代码-功能清单 图文解析
  • 【chapter30】【PyTorch】[动量与学习率衰减】
  • 【键入网址到网页显示】
  • Nacos配置中心、配置热更新、及配置共享的记录
  • MATLAB | 绘图复刻(八) | 堆叠柱状图+哑铃图
  • Scala之集合(2)
  • 【图像分割】视觉大模型SEEM(Segment Everything Everywhere All at Once)原理解读
  • Linux: command: ibstat; infiniband
  • UML简介与类图详解
  • 【每日一题】1994.好子集的数目
  • 坚持伙伴优先,共创数据存储新生态
  • 树形结构的三级分类如何实现?
  • SSM整合完整流程
  • 虹科方案 | 助力高性能视频存储解决方案-2