当前位置: 首页 > news >正文

排序分析(Ordination analysis)及R实现

在生态学、统计学和生物学等领域,排序分析是一种用于探索和展示数据结构的多元统计技术。这种分析方法通过将多维数据集中的样本或变量映射到低维空间,以便更容易理解和可视化数据之间的关系。排序分析常用于研究物种组成、生态系统结构等生态学和生物学问题。

一、常见的排序分析方法:

  1. 主成分分析(Principal Component Analysis,PCA): 用于降维和识别主要的数据变异方向。适用于线性关系强烈的数据集,例如生态学中的物种丰富度或环境变量。

  2. 对应分析(Correspondence Analysis,CA):主要用于分析两个分类变量之间的关系。常用于分析生态学中的物种和环境因素之间的关系。

  3. 多维尺度分析(Non-metric Multidimensional Scaling,NMDS):用于非线性关系较强或者不适用于欧几里得距离的数据。适用于生态学中的生境相似性分析等问题。

  4. 典型对应分析(Canonical Correspondence Analysis,CCA): 类似于对应分析,但着重于解释数据中的结构,并通过最大化可解释的变异来找到约束的对应。适用于物种和环境变量之间的关系分析。用于分析两个表格(例如,物种数据和环境数据)之间的关系,结合了对应分析和多元回归的特点。

  5. 因子分析(Factor Analysis):用于识别隐藏在观测数据背后的潜在变量(因子),通常用于探索数据的内在结构。

二、经典排序分析方法的R实现

加载数据。

library(microbiome)
library(phyloseq)
library(ggplot2)
data(dietswap)
pseq <- dietswap# Convert to compositional data
pseq.rel <- microbiome::transform(pseq, "compositional")# Pick core taxa with with the given prevalence and detection limits
pseq.core <- core(pseq.rel, detection = .1/100, prevalence = 90/100)# Use relative abundances for the core
pseq.core <- microbiome::transform(pseq.core, "compositional")

用给定的方法和差异度量对样本进行投影。 

# Ordinate the data
set.seed(4235421)
# proj <- get_ordination(pseq, "MDS", "bray")
ord <- ordinate(pseq, "MDS", "bray")
Multidimensional scaling (MDS / PCoA)
plot_ordination(pseq, ord, color = "nationality") +geom_point(size = 5)

Canonical correspondence analysis (CCA)

# With samples
pseq.cca <- ordinate(pseq, "CCA")
p <- plot_ordination(pseq, pseq.cca,type = "samples", color = "nationality")
p <- p + geom_point(size = 4)
print(p)# With taxa:
p <- plot_ordination(pseq, pseq.cca,type = "taxa", color = "Phylum")
p <- p + geom_point(size = 4)
print(p)

Split plot

plot_ordination(pseq, pseq.cca,type = "split", shape = "nationality", color = "Phylum", label = "nationality")

t-SNE

t-SNE是一种流行的新的排序方法。

library(vegan)
library(microbiome)
library(Rtsne) # Load package
set.seed(423542)method <- "tsne"
trans <- "hellinger"
distance <- "euclidean"# Distance matrix for samples
ps <- microbiome::transform(pseq, trans)# Calculate sample similarities
dm <- vegdist(otu_table(ps), distance)# Run TSNE
tsne_out <- Rtsne(dm, dims = 2) 
proj <- tsne_out$Y
rownames(proj) <- rownames(otu_table(ps))library(ggplot2)
p <- plot_landscape(proj, legend = T, size = 1) 
print(p)

适用条件取决于数据的性质和研究的目标。在选择排序分析方法时,需要考虑数据的线性性、分布情况、相关性和可能存在的潜在结构。选择适当的排序分析方法有助于更好地理解数据集中的模式和关系。

References:

Ordination analysis

http://www.lryc.cn/news/254568.html

相关文章:

  • Tomcat主配置文件(server.xml)详解
  • Python实现简单的区块链,实现共识算法、Merkle Tree(默克尔树)、冲突解决、添加交易等功能
  • 深入理解 Java 虚拟机(JVM)从入门到精通
  • 哔哩哔哩自动评论软件,其成果展示与开发流程和代码分享
  • Qt OpenCV 学习(一):环境搭建
  • Redis——某马点评day02——商铺缓存
  • prometheus|云原生|轻型日志收集系统loki+promtail的部署说明
  • MySQL 临时数据空间不足导致SQL被killed 的问题与扩展
  • 文心一言大模型应用开发入门
  • C++新经典模板与泛型编程:SFINAE替换失败并不是一个错误
  • 基于若依的ruoyi-nbcio流程管理系统支持支持定时边界事件和定时捕获事件
  • 递归-极其优雅的问题解决方法(Java)
  • VSCode搭建STM32开发环境
  • 解决CentOS下PHP system命令unoconv转PDF提示“Unable to connect or start own listener“
  • 软件测试外包干了2个月,技术进步2年。。。
  • Linux-网络服务和端口
  • Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)读书笔记 目录
  • 阿里云Arthas使用——通过watch命令查看类的返回值 捞数据出来
  • Redis中持久化策略RDB与AOF优缺点对比
  • 通用plantuml 时序图(Sequence Diagram)模板头
  • Domino多Web站点托管
  • 防火墙补充NAT
  • 配置和管理VLAN
  • dtaidistance笔记:dtw_ndim (高维时间序列之间的DTW)
  • 2 文本分类入门:TextCNN
  • 算法初阶双指针+C语言期末考试之编程题加强训练
  • 【Spark基础】-- 宽窄依赖
  • Spatial Data Analysis(六):空间优化问题
  • PHP短信接口防刷防轰炸多重解决方案三(可正式使用)
  • C#大型LIS检验信息系统项目源码