当前位置：首页 > news >正文

链特异性文库是什么？为什么它在转录组测序中越来越重要？

news 2025/8/1 15:13:27

链特异性文库是什么？为什么它在转录组测序中越来越重要？

在现代分子生物学研究中，RNA测序（RNA-seq） 是一种广泛应用的技术，用于分析基因在不同条件下的表达情况。而在RNA-seq的众多技术细节中，有一个“隐秘但关键”的环节——链特异性文库构建（Strand-specific library preparation）。这项技术虽然听起来有些专业，但它对结果的准确性有着重要影响。本文将通俗地介绍链特异性文库的原理、作用、常见方法及数据分析注意事项。

1. 什么是“链特异性”？

DNA是一种双链螺旋结构，由一条正义链（+链）和一条反义链（–链）构成。转录过程中，通常是由DNA的反义链（–链）作为模板合成mRNA，从而使mRNA序列与正义链一致（除了碱基T被替换为U）。

而在传统的RNA-seq文库构建中，RNA被打断后逆转录成cDNA，再建库测序，这个过程不会记录RNA是来源于哪一条DNA链的信息。我们只知道这段RNA存在，但不知道其是源于正链还是反链。

链特异性文库构建的目标是，在建库过程中通过特定方法保留RNA原始的转录方向性信息，从而区分每一条RNA是由正链还是反链转录来的。
在这里插入图片描述

2. 为什么需要链特异性文库？

链方向的保留，在多种分析中具有不可替代的重要性：

区分重叠基因

部分基因在基因组中是反向重叠的，即它们位于同一个基因组区域的两条链上。如果没有链信息，无法准确判断这段表达信号来自哪个基因。

注释非编码RNA

例如lncRNA、反义转录本等非编码RNA，常与编码基因反向重叠。链信息是这些转录本精确注释的关键。

提高定量精度

当多个基因之间位置相近或有部分重叠时，链特异性测序可显著减少表达混淆，提高定量和差异分析的准确性。

3. 链特异性文库的实现原理

主流链特异性文库构建方法主要分为以下几类，它们的共同目标是在建库过程中保留或标记RNA的方向性信息。

方法一：dUTP法（Illumina常用方案）

dUTP法是目前最常用的链特异性建库策略，原理如下：

合成第一链cDNA（使用mRNA为模板）
合成第二链时，用dUTP代替dTTP，使第二链中含有尿嘧啶（dU）
使用**UDG（Uracil-DNA Glycosylase）**选择性降解含dU的第二链
仅保留第一链进行接头连接与PCR建库

此法操作简单、成本低、兼容性好，是Illumina TruSeq等商业试剂盒的推荐方案。

注意事项：

测序得到的read方向与原始mRNA方向相反
常用参数方向性为 RF（Read1为反义）

方法二：接头定向连接法（如 SMARTer、ScriptSeq）

通过在第一链cDNA末端引入方向性接头或模板切换寡核苷酸（TSO），实现链信息的标记。例如：

SMARTer法：只在第一链延伸出接头，方向性由其控制。适用于低输入甚至单细胞RNA。
ScriptSeq法：通过特定引物和接头组合区分方向，较早用于链特异性建库。

方法三：标签标记法（Ligation-based）

该法通过在cDNA两端连接不同标签序列来区分方向性，部分早期方案采用，但操作复杂，使用较少。

4. 如何判断文库是否为链特异性？

在测序实验前或数据分析时，应确认建库是否保留方向信息，可通过以下方法判断：

查看实验说明书或FastQC注释，如“stranded = yes”
使用RSeQC工具（infer_experiment.py） 判断read是否集中来源于特定链
检查比对软件中strand参数是否正确设置，避免方向误判

5. 链特异性数据的分析注意事项

分析链特异性RNA-seq数据时，需明确方向性设定：

分析步骤	重点参数	示例说明
比对软件	设置strand参数	HISAT2示例：`--rna-strandness RF`
featureCounts计数工具	设定链信息	`-s 1`为正链，`-s 2`为反链（dUTP法用-s 2）
HTSeq-count工具	设置为reverse方向	`-s reverse`
定量分析	匹配注释方向	lncRNA尤其敏感，方向错会导致显著误判

6. 建库方案选择建议与参数配置

建库方法建议

研究目标	建议建库方案	说明
mRNA表达分析	dUTP法（TruSeq）	成熟稳定、性价比高
非编码RNA分析（lncRNA等）	dUTP法或SMARTer法	保留方向，适合复杂转录本识别
单细胞或低起始量样本	SMARTer、NEBNext Ultra II	高灵敏度，适合微量RNA
全转录组/非polyA分析	rRNA去除 + dUTP法	可识别非polyA RNA转录本

实验参数配置参考（以dUTP法为例）

步骤	参数或建议
RNA输入量	100 ng – 1 µg，依样品而定
打断条件	94°C，4–8分钟，目标片段200–400 bp
第一链合成	使用SuperScript II或III等高效酶
第二链合成	用dUTP替代dTTP
降解第二链	使用USER酶去除含dU链
PCR扩增	控制在10–15个cycle内
文库质控	Bioanalyzer检测片段分布峰值约300 bp

7. 数据分析参数设置示例

HISAT2 比对示例

hisat2 -x genome_index -1 R1.fastq -2 R2.fastq --rna-strandness RF

其中 RF 表示链特异性双端测序，第一条read与mRNA方向相反。

STAR 比对配置

--outSAMstrandField intronMotif
--outSAMtype BAM SortedByCoordinate
--outFilterMultimapNmax 1
--twopassMode Basic

STAR支持链方向性，但后续需在featureCounts中设定方向。

featureCounts 示例

featureCounts -s 2 -p -T 8 -a annotation.gtf -o counts.txt aligned.bam

-s 2 表示反向链特异性，适用于dUTP建库。

HTSeq-count 示例

htseq-count -f bam -s reverse -r pos aligned.bam annotation.gtf

8. 如何验证链特异性是否有效

使用RSeQC工具包中的 infer_experiment.py 命令可以判断测序数据是否保留链信息：

infer_experiment.py -i aligned.bam -r ref.bed

结果会输出reads在不同链的分布比例。若某一类链向占比超过95%，说明链特异性建库成功：

Fraction of reads explained by "1++,1--,2+-,2-+": 0.958
Fraction of reads explained by "1+-,1-+,2++,2--": 0.042

9. 常见方法与参数汇总

方法类型	建库原理	分析参数方向性	适用场景
dUTP法	第二链含dUTP并降解	RF 或 -s 2	主流方案，Illumina推荐
SMARTer法	模板切换接头控制方向性	需自定义	低起始量或单细胞样本
Ligation-based法	接头序列标记方向性	需自定义	特殊需求项目，较复杂较少使用