当前位置: 首页 > news >正文

DTI综述(更新中)

Deep Learning for drug repurposing:methods,datasets,and applications

综述读完,觉得少了点东西,自己写个DTI综述

Databases(包括但不限于文章中的)

DATABASEDESCRIBE
BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE对抗癌药物有用
ChemDB提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget用于分析DTI和药物副作用
BioSNAPDTI
HUMANDTI
TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没

数据集

datasetcontentssource
BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-github
BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-github
HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-github

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

深度学习模型(target-centered)

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Modeldrugtarget(pr)architecturetypeyear
DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
Rifaioglu et al.SMILESProtein sequence structural,evolutionary and physicochemical propertiesCNNDTA2020
GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
DeepConv-DTIFingerprintProtein sequenceCNN,DNNDTI2019
MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
Gao et alMolecular graphAmino acid sequenceGCN,LSTM,two-way attention mechanismDTI2018
TransformerCPIMolecular graphProtein sequenceTransformerCPI2020
Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019
MOVE
MultiDTI
MolTrans
Yang li et al.
MIRACLE
ImageMol
DrugBANMolecular graphProtein sequenceGCN,CNN,biattentionDTI2023
CLOOME
http://www.lryc.cn/news/197445.html

相关文章:

  • 封装一个滑块控制灯光组件
  • flutter循环
  • 2.3 如何使用FlinkSQL读取写入到JDBC(MySQL)
  • Flink日志收集到数据库/kafka
  • Go项目踩坑:go get下载超时,goFrame框架下的go项目里将vue项目的dist同步打包发布,go项目打包并压缩
  • DataCon【签到题】挖矿流量检测
  • Vivado详细使用教程 | LED闪烁示例
  • 一些经典的神经网络(第17天)
  • Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件
  • Hutool工具类参考文章
  • 【 Python ModuleNotFoundError: No module named ‘xxx‘可能的解决方案大全】
  • eclipse 配置selenium环境
  • 数据挖掘(6)聚类分析
  • 在启智平台上安装anconda
  • 棒球省队建设实施办法·棒球1号位
  • 架构案例2017(五十二)
  • 给四个点坐标计算两条直线的交点
  • 从入门到进阶 之 ElasticSearch SpringData 继承篇
  • 中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例
  • YOLOv7改进:动态蛇形卷积(Dynamic Snake Convolution),增强细微特征对小目标友好,实现涨点 | ICCV2023
  • 从文心大模型4.0与FuncGPT:用AI为开发者打开新视界
  • Nginx集群负载均衡配置完整流程
  • 如何生成SSH服务器的ed25519公钥SHA256指纹
  • 设计模式:抽象工厂模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)
  • ocpp-远程启动(RemoteStartTransaction)、远程停止(RemoteStopTransaction)
  • 【网络安全】安全的系统配置
  • conda使用一般步骤
  • 如何做好需求收集?方法和步骤
  • SpringBoo整合WebSocket实战演练——Java入职十三天
  • 众佰诚:抖音小店的体验分什么时候更新