基因组分区研究(WGS和表观组学不一样)
原创 生信技能树 生信技能树 5天前
https://mp.weixin.qq.com/s/xD4WMk2xlBv0Wx4mKC8VWw基因组可以划分为基因区域和基因间区,其中基因区域有内含子,外显子,等等,基因间区有启动子,增强子。但是真正做完NGS测序,研究者往往会把基因组区域划分的更为细致,包括生物学功能划分。
我们这里简单介绍一下全基因组测序分区以及表观组学的分区例子,以后大家看文献的时候就需要多留意。
全基因组测序分区
主要是考虑变异位点的生物学功能倾向性,来自于文章:Landscape of somatic mutations in 560 breast cancer whole genome sequences,是非常值得模仿的分析方法,可以看到WGS数据的变异位点有被划分到了8个区域。
The genome was partitioned according to different sets of regulatory elements/gene features, with a separate analysis performed for each set of elements, including
exons (n=20,245 genes)
core promoters (n=20,245 genes, where a core promoter is the interval [–250,+250] bp from any transcription start site (TSS) of a coding transcript of the gene, excluding any overlap with coding regions)
5’ UTR (n=9,576 genes)
3’ UTR (n=19,502 genes)
intronic regions flanking exons (n=20,212 genes, represents any intronic sequence within 75bp from an exon, excluding any base overlapping with any of the above elements.
ncRNAs (n=10,684, full length lincRNAs, miRNAs or rRNAs)
enhancers (n=194,054)
ultra-conserved regions (n=187,057, a collection of regions under negative selection based on 1,000 genomes data
这里来一个学徒作业吧,根据这个文章,拿到这8个区域的bed文件,既然是人类数据,那就使用hg38的,可能需要耗费一点时间,因为要搞清楚文章研究者的思路,数据源。
表观测序分区
表观组学非常多,除了我们发在b站的ngs组学免费教学视频,比如学徒第4月,ChIP-seq数据分析实战训练:文档链接:
https://mubu.com/doc/11taEb9ZYg 密码:wk29
也为每个组学视频课程,设置了练习题:
学徒考核-计算wes数据的全部外显子的平均测序深度
肿瘤外显子视频课程小作业
ChIPseq视频课程小作业
基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导)
九月学徒ChIP-seq学习成果展(6万字总结)(上篇)
九月学徒ChIP-seq学习成果展(6万字总结)(下篇)
还有RNA m6A甲基化测序(MeRIP seq),DNA甲基化测序(MeDIP seq),DNA羟甲基化测序 (hMeDIP seq)等等,真的是五花八门!
而且也不是全基因组测序那样发布均匀,在部分地方reads覆盖超级多,就是所谓的peaks,是数据分析里面有意义的结果。但很多时候,也可以看看不同基因组区域的reads比例,作为一个数据质控手段,比如划分为下面的9个区域
CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k
根据reads在9种基因组功能元件上的分布就可以绘制饼图等等。
--
FROM 120.236.174.*