tophat
2017-04-06 13:52:07 0 举报
Tophat是一款基于Java的开源工具,主要用于RNA-seq数据中的转录本装配。它通过将测序reads比对到参考基因组,然后使用一种称为”顶帽”的策略来识别和连接同一条转录本上的多个reads,从而实现对转录本的完整组装。Tophat不仅能够提高转录本的覆盖度,还能够检测到新的转录本和剪接变体。此外,Tophat还支持多种比对工具,如Bowtie、BWA和STAR,以及多种输出格式,如SAM、BAM和CRAM。因此,Tophat是RNA-seq数据分析中不可或缺的工具之一。
作者其他创作
大纲/内容
执行前的校验
设置各文件、文件夹的变量
行4307
行4411
行4308~4337
针对左右两份read执行原bowtie
读取文件
1. /align_summary.txt2. /accepted_hits3. /unmapped4. /junctions.bed5. /insertions.bed6. /deletions.bed7. /fusions.out
行4369~4370
index路径
行4460~4502
新版逻辑
tmp/UNZIPPED.TXT,拆分成tmp/bt-part/下多个文件
1. tmp/segment.juncs2. tmp/segment.insertions3. tmp/segment.deletions4. tmp/segment.fusions
判断prefilter_multi
行4009~4016
检测bowtie和samtools设置
split_reads因上步忽略了unmap,所以实际不执行
按需生成bowtie_index
1. tmp/left_kept_reads.mapped.bam2. tmp/left_kept_reads.mapped.bam.index3. tmp/left_kept_reads_unmapped.bam4. tmp/left_kept_reads_unmapped.bam.index(实际忽略了3和4不生成)
1. prep_reads.info2. tmp/left_kept_reads.bam3. tmp/left_kept_reads.bam.index4. tmp/*.bwt.samheader.sam
重建hdfs上与tmp_dir对应目录
行4506~4509
行4516~4522
行4549~4572
bam2fastx
按需上传index文件和bwt.samheader.sam到hdfs
原版逻辑
tmp/left_kept_reads.bam
执行compile_reports
执行prep_reads
行4598
行2822
行4374~4457
发送集群执行bowtie | fix_map_ordering
segment_juncs
每个seg对应一份结果
gzip | bowtie | fix_map_ordering因上步忽略了unmap,所以实际不执行
执行spliced_alignment
1. index路径2. 1~2个fq read
行4574~4583
1个read只生成left2个read则对应left和right
行4350
1. index fa2. tmp/left_kept_reads.bam3. tmp/left_kept_reads.mapped.bam4. tmp/*.bwt.samheader.sam5. 上步生成的每个seg结果
生成/清空output_dir
行4587~4592
准备spliced_alignment
1~2个fq read
输出文件
行4019~4048
tmp/left_kept_reads_unmapped
把output_dir和tmp_dir转成绝对路径
拆分为多个tmp/left_kept_reads_seg*.fq.z
行4523~4545
内部逻辑
行4341~4348
执行bowtie函数
行2766~2777
行4070~4086
行3988~3999
1. index路径2. tmp/left_kept_reads.bam3. tmp/left_kept_reads.mapped.bam4. tmp/*.bwt.samheader.sam5. 每个tmp/left_kept_reads_seg*.fq.z
生成TopHatParams
删除tmp_dir
1. index fa2. tmp/left_kept_reads.bam3. tmp/*.bwt.samheader.sam
0 条评论
下一页
为你推荐
查看更多