词频权重分析流程图
2016-01-05 21:39:02 1 举报
词频权重分析流程图是一种用于计算文本中每个单词重要性的工具。它通常包括以下步骤:首先,对文本进行分词处理,将文本拆分成单个单词;然后,统计每个单词在文本中出现的次数,即词频;接着,根据词频计算每个单词的权重,常用的方法有TF-IDF、TextRank等;最后,根据权重对单词进行排序,得到最重要的单词列表。这个过程可以帮助我们更好地理解文本内容,发现文本中的关键词和主题。
作者其他创作
大纲/内容
ni 包含词汇j的文章数
否
计算每篇文章的词频最大值max[i]
是
i 文章编号j 词汇编号N 文章数M 词汇数
循环每个词汇jM
分词,去停用词保存所有词频frequency[j][i]词汇数组:word[j]
循环处理N篇文章iN
计算包含词汇j的文章数:ni
计算加权词频:frequency[j][i]/max[i])*log(N/ni)
N篇文章
开始
循环N篇文章iN
结束
0 条评论
回复 删除
下一页