生信修炼手册 / 待分类 / 强烈推荐!Encode官方的ATAC数据分析流程

0 0

   

金沙娱乐官网手机app

原创
2020-01-19  澳门银河线上娱乐场手机版下载

本文地址:http://www.o068.com/content/20/0119/00/68068867_887040330.shtml
文章摘要:金沙娱乐官网手机app,剑光彩都会客户端直营网、澳门真实赌博网站、腾讯足球竞猜咄咄相逼安月茹心下有点愠恼这是。

Encode不仅共享了大量的组学数据,还开源了自己的数据分析pipeline, ATAC的pipeline网址如下

http://www.322yd.com/217/ENCODE-DCC/atac-seq-pipeline

提供了从原始的fastq数据开到,到peak caling结束的基础分析功能,尽管缺少了下游的差异分析和motfi分析,这套流程依然值得推荐。

该流程同时支持有生物学重复和无生物学重复两种情况,对于有生物学重复的数据,分析的流程图如下

从fastq到peak calling, 只需通过trim, mapping, peak calling三部曲即可,其他流程中可能就是3个步骤对应的软件跑一下,在Encode的这套流程中添加了更多的细节分析。

首先来看下基本的三部曲,通过cutadapt软件去除adapter和低质量序列,然后是bowitie2比对参考基因组,最后调用MACS2进行peak calling。

对于比对产生的原始bam文件,采用了samtools和picard去除PCR重复序列,然后利用bedtools转换为TagAlign格式,在转换的过程中去除了线粒体的序列,然后进行shift操作,最后输入到macs2软件中,这个过程称之为post-alignment,每一步过滤的reads都进行了详细统计,还计算了NRF, PBC1等文库复杂度指标,同时提供了TSS Enrichment score,和TSS两侧reads分布图,插入片段插入分布图等可视化结果。

peak calling部分,称得上是该流程最大的亮点,采用了IDR软件来评估peak的可重复性。对于有生物学重复的样本,先对每个生物学重复进行peak calling, 然后进行合并,用IDR软件提取高可重复性的peak; 对于没有生物学重复的样本,则随机抽取部分序列重新构建一个虚拟的生物学重复,然后进行IDR分析。

该流程采用了WDL这套pipeline语言进行开发,兼容docker, conda, 可以运行了本地服务器,也可以运行了集群上,依托于WDL的强大,保证了流程运行的稳定性,兼容性和可移植性。

唯一遗憾的是,官方并没有给出详尽的说明文档,很多的细节需要自己查阅源代码来进行理解。当然,对于使用者而言,只需安装软件和编辑配置文件即可,配置文件是json格式,由哈希和列表两种元素构成,对于熟悉编程的人而言,非常简单易用, 一个最基础的配置文件链接如下

http://www.q2x.yg889.com/ENCODE-DCC/atac-seq-pipeline/blob/master/example_input_json/template.json

利用这套流程来分析ATAC数据,可以和Encode的质控标准更加契合,进一步标准化ATAC的分析结果!

·end·

    猜你喜欢

    0条评论

    发表

    请遵守用户 评论公约

    类似文章
    喜欢该文的人也喜欢 更多

    澳门银河线上娱乐场手机版下载 ab娱乐城登入 申博开户中心登入 菲律宾国际沙龙娱乐 皇冠真人娱乐平台手机app
    澳门金沙注册 www.yh165.com登入 电子竞技博彩 澳门特区赌场开户 恒彩游戏下载
    博彩游戏规则 www.sun838.com 沙龙官方网站 福建皇冠投注网走势图 mg老虎机游戏网址登入
    澳门时时彩官方网址登入 澳门真人赌城 蒙特卡罗娱乐登入 山东皇冠投注网ccrr22 九五至尊娱乐老品牌最高占成