ONT全长转录组十问十答
原创 百迈客生物 百迈客生物 今天
https://mp.weixin.qq.com/s/wCSILY8x-OlOL4u4ZBRh_w近些年,随着转录组测序技术的推广和普及,大家对测序技术本身的要求越来越高了,三代测序技术从最初的蛰伏到现在的高歌猛进,在解决转录本精确定量和“仿真”的结构分析方面确实是有质的飞跃,这技术平台的一小步,在科研圈是实打实的一大步。
ONT全长转录组的碱基质量,读长情况,比对率,转录本鉴定到底如何,我们根据真实项目的数据来看看。各个物种测序数据量从2G到10G不等,N50都在0.9Kb-1.5Kb,属于正常范围,质量值平均达到Q10,全长率基本在80%左右,与参考基因组的比对率基本在90%左右。
很多老师跃跃欲试,又有各种问题想要咨询。今天小编给大家整理了十个典型问题,一起来看看吧!
Q
1. ONT全长转录组以“全长”为特点,为什么还有N50这个指标呢?
A
答:N50只是对长度的一个评估指标,只是一种评估方式。N50指的就是将序列从长到短排序,将他们的长度相加,长度正好为总长度的50%时的那条序列的长度。我们认为N50越长,总体转录本长度越长。
Q
2.目标品种的基因组已公布,但这个基因组序列质量没有通用的模式品种基因组质量高,我该选择哪个基因组?
A
答:推荐尽量使用与测序数据相同品种的参考基因组进行分析。
Q
3.除了可以区分不同转录本,全长转录组还有什么其他优点?
A
答:与二代相比,ONT全长转录组不仅可以鉴定可变剪接类型,同时还能将不同剪接类型的全长转录本呈现出来,这是二代所不能比拟的,其在可变剪接、融合基因等结构分析鉴定,更为精确和丰富。二代测序的reads短,会导致转录本的定量不准确,而Nanopore数据因为序列长,转录本的定量就会更准确。
ONT检测到拟南芥复杂转录本
(Parker M T et al. Elife Sciences, 2020)
Q
4.原核生物没有可变剪切,还有没有必要做全长转录组?
A
答:目前三代的建库方式都是调取polyA的,所以暂不支持原核物种的测序。
Q
5.一个样品需要建几个文库?
A
答:一个样品只建一个文库,需要设置生物学重复,一般3个重复。
Q
6.nanopore的错误率太高,会不会对结果有影响?
A
答:Nanopore下机数据准确率为目前已经可以到90%,即碱基平均错误率为10^(-1)=10%左右。但这是单碱基错误率,后续分析时我们还会对数据进行矫正。我们在比对时用的是全长序列和参考基因组或参考转录组进行比对,序列越长比对时对于碱基错配度容忍越高,因此不会出现错误比对或对表达定量有影响。
Q
7.可变剪切结果是否也要结合表达数据?
A
答:可变剪切是从结构上分析基因的一个变化情况,表达量是分析不同可变剪切体的具体表达,二者结合去分析,可以将问题分析的更透彻。
Q
8.为什么ONT全长转录组测序数据量推荐2G,而二代转录组推荐6G?
A
答:ONT全长转录组测序一条reads即代表该转录本表达一次,而二代短reads需要非常多条才能覆盖一个转录本;Oxford Nanopore公司官方白皮书中数据显示:当相同数量的基因被覆盖达95%时,ONT所需要的reads数比Illumina约少50倍,所需要碱基数约少7倍,故而2G ONT数据能达到6G Illumina检测效果;针对同一样本进行的饱和度分析显示,2G ONT全长除表达量极低的(CPM<1)其他转录本都达到饱和了,二代Illumina 6G除表达量极低FPKM<1外的基因检测也饱和了,且前者更早趋向饱和;目前已发表的人鼠文献中ONT全长测序的数据量也不到2G 。
转录本覆盖度比较(Nanopore官方白皮书)
不同表达量转录本的饱和度
Q
9.全长转录组能准确测出poly结构的序列吗?
A
答:目前全长测序,通过读取polyA序列而识别哪里是APA位点,但是对于现有的分析流程,无法把polyA的长度(即A的位点个数)鉴定出来。
Q
10.为什么 PB 不能做定量,ONT 可以做定量?
A
答:PB 也是可以做定量的,但是由于芯片中 ZMW 孔数限制,需要较大的数量才能达到饱和,成本比较高,目前常用二代来辅助定量。而ONT 可以在较低数据量测到饱和,比较适合做转录本和基因的定量。
--
FROM 59.41.66.*