t36_lengthstat.py
2016-06-21 09:43:22 0 举报
t36_lengthstat.py是一个Python脚本,用于计算和分析文本文件中不同长度的单词数量。该脚本首先读取指定的文本文件,然后使用正则表达式提取其中的单词。接下来,它遍历所有提取出的单词,并根据其长度将其归类到不同的组中。最后,脚本将每个长度组中的单词数量以及总长度进行统计,并将结果输出到一个文本文件中。通过这个脚本,用户可以轻松地了解文本中单词的长度分布情况,从而更好地分析和理解文本内容。
作者其他创作
大纲/内容
对len_list列表元素依次累加,如果大于n50_add,且flag=0,该len元素即为N50flag 赋值为1
导入SeqIO模块,对每个序列记录进行如下操作
对len_list进行逆序排序
如:n50_add = sum_No * 0.5
n90_add = sum_No * 0.9
all_fa为所有序列len_list为每个转录本的长度列表
统计每个区间列表元素数目即为基因数目
对len_list列表进行顺序排序
基因总数为len(len_list)总长度为len(all_fa)
输出各统计值
计算N50和N90对应的序列长度
每个长度区间的基因数目统计
基因长度最小值为第一个元素基因长度最大值为最后一个元素基因长度中值为列表中间元素len_list[seq_No/2] 下标为序列数目/2
0 条评论
下一页