当前位置: 首页 > news >正文

零基础入门转录组数据分析——绘制差异火山图

零基础入门转录组数据分析——绘制差异火山图


差异分析的火山图(Volcano Plot)在生物信息学数据分析中,特别是在基因表达差异分析中,是一个非常直观和有用的工具。

本教程将从导入的数据结构开始,一步步带大家在R中绘制好看的火山图,最后对火山图进行解读,确保读者理解代码的同时学会解读火山图里的每个元素所代表的意思。

首先来看一下最终的火山图长啥样:
在这里插入图片描述



火山图的构建基于两个主要的度量指标:

基因表达对数2倍变化(Log2FoldChange):这个指标衡量了基因在不同组别之间的表达水平变化。正值表示基因表达上调,负值表示表达下调。

统计显著性(p.value/p.adj):这个指标是基因表达变化的p值,用于评估观察到的效应(如基因表达的变化)是否可能是由于随机误差引起的,通常认为P < 0.05则结果是显著的,并且更小的p.value/p.adj意味着变化更显著。

注:绘制差异火山图需要用到差异分析的结果

差异分析参考之前的教程:生信数据分析——limma差异分析和生信数据分析——DESeq2差异分析


本项目以GSE203346数据集(高通量测序数据)展示火山图绘制过程
实验分组:疾病组(18例),对照组(19例)
R版本:4.2.2
R包:tidyverse,lance,ggplot2,ggrepel	

废话不多说,代码如下:

设置工作空间:

rm(list = ls()) # 删除工作空间中所有的对象
setwd('/XX/XX/XX') # 设置工作路径
if(!dir.exists('./01_DEGs')){dir.create('./01_DEGs')
} # 判断该工作路径下是否存在名为01_DEGs的文件夹,如果不存在则创建,如果存在则pass
setwd('./01_DEGs/') # 设置路径到刚才新建的01_DEGs下

加载包:

library(tidyverse)
library(lance)
library(ggplot2)
library(ggrepel)

导入差异分析结果(limma/DESeq2都可以):

DEG <- read.csv('./GSE203346/DEG_all.csv', row.names = 1, check.names = F)
sig_diff <- read.csv('./GSE203346/DEG_sig.csv', row.names = 1, check.names = F)

DEG如下图所示, sig_diffDEG相似,只不过sig_diff少了那些没有显著差异的基因。
在这里插入图片描述

直接通过ggplot2绘制火山图(需要用到的是DEG中的log2FoldChangepvaluechange这三列)

ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +geom_point(size = 1.2, alpha = 0.4, na.rm = T)  # 设置点的大小和透明度

在这里插入图片描述

修改火山图中散点的颜色(上调基因用红色,下调基因用绿色,不显著基因用灰色表示)

ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +geom_point(size = 1.2, alpha = 0.4, na.rm = T)+  # 设置点的大小和透明度scale_color_manual(values = c("seagreen", "darkgray","firebrick3"))  # 设置颜色

在这里插入图片描述

给火山图横纵坐标加上阈值线:(横坐标是-0.5,0.5,纵坐标是-log10(0.05)

注:这个阈值线可以自己调整,要和差异分析的筛选阈值保持一直

ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +geom_point(size = 1.2, alpha = 0.4, na.rm = T)+  # 设置点的大小和透明度scale_color_manual(values = c("seagreen", "darkgray","firebrick3"))+ # 设置颜色geom_vline(xintercept = c(-0.5, 0.5), # 给x坐标轴的-0.5, 0.5处添加竖线lty = 4, # lty参数设置竖线的形式(直线,虚线等)col = "black", # 竖线颜色设置为黑色lwd = 0.4 # 设置线条的宽度) +geom_hline(yintercept = -log10(0.05), # 给y坐标轴添加横线lty = 4, # lty参数设置竖线的形式(直线,虚线等)col = "black", # 竖线颜色设置为黑色lwd = 0.4 # 设置线条的宽度)

在这里插入图片描述

给火山图添加主题,并且设置x轴,y轴,标题以及副标题字体,大小和颜色(其中axis.text是坐标轴文本设置,axis.title是坐标轴标题设置,plot.title是标题设置

问:什么是主题?
答: ggplot2主题是一种系统,它允许对图像中的非数据元素进行精细的调整,而不会影响几何对象和标度等数据元素。主题不能改变图像的感官性质,但可以使图像更具美观,满足整体一致性的要求。

简单说:可以理解成是一个模板,这个模板对网格线、背景色、图片留白以及标题设置等都有统一的设定,可以在主题的基础上进一步修改字体,排版等一切元素

如下面代码中用到的就是theme_bw()这个主题,之后在theme()中修改主题的参数

ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +geom_point(size = 1.2, alpha = 0.4, na.rm = T)+  # 设置点的大小和透明度scale_color_manual(values = c("seagreen", "darkgray","firebrick3"))+ # 设置颜色geom_vline(xintercept = c(-0.5, 0.5), # 给x坐标轴的-0.5, 0.5处添加竖线lty = 4, # lty参数设置竖线的形式(直线&#x
http://www.lryc.cn/news/328205.html

相关文章:

  • C++进阶,手把手带你学继承
  • Java自带的线程池及调用、ThreadPoolExecutor类(线程池的7大参数)、任务队列及底层原理
  • ThreadPool-线程池使用及原理
  • 高性能服务系列【十一】主题匹配
  • Vue 2 组件发布到 npm 的常见问题解决
  • p2p原理
  • 从供方协议管理到外部供方管理
  • 微服务demo(四)nacosfeigngateway
  • 2D与动画
  • Maven:构建现代化软件项目的强大工具
  • 脏牛提权(靶机复现)
  • 用html写一个贪吃蛇游戏
  • Topaz Gigapixel AI for Mac 图像放大软件
  • uniapp先显示提示消息再返回上一页
  • 【爬虫开发】爬虫从0到1全知识md笔记第2篇:requests模块,知识点:【附代码文档】
  • 【算法刷题day11】Leetcode: 20. 有效的括号、 1047. 删除字符串中的所有相邻重复项、150. 逆波兰表达式求值
  • 推荐算法策略需求-rank model优化
  • hadoop 常用命令
  • pdf在浏览器上无法正常加载的问题
  • 实时语音识别(Python+HTML实战)
  • x86_64 ubuntu22.04编译MetaRTC
  • FreeRTOS day1
  • SqlSugar快速入门
  • 基于el-table实现行内增删改
  • 《霍格沃茨之遗》推荐购买吗 《霍格沃茨之遗》不支持Mac电脑怎么办 crossover24软件值得买吗 crossover中文官网
  • 神经网络代码实现(用手写数字识别数据集实验)
  • 菜鸟笔记-Python函数-linspace
  • 为什么我们应该使用QGIS
  • 用Python实现办公自动化(自动化处理Excel工作簿)
  • BaseDao入门使用