短文本特征词提取流程图

2017-03-30 18:12:54 0 举报
仅支持查看
短文本特征词提取流程图主要包括以下步骤:首先,对原始文本进行预处理,包括去除停用词、标点符号和特殊字符等;然后,将预处理后的文本分词,可以使用分词工具如jieba、THULAC等;接下来,根据需求选择合适的特征词提取方法,如词频统计、TF-IDF、TextRank等;对于基于词频的方法,统计每个词在文本中的出现次数,并根据设定的阈值筛选出特征词;对于TF-IDF方法,计算每个词的词频和逆文档频率,得到TF-IDF值,然后根据设定的阈值筛选出特征词;对于TextRank方法,构建文本的词汇网络,通过迭代计算每个词的权重,最后根据权重筛选出特征词;最后,将提取到的特征词输出。
作者其他创作
大纲/内容
评论
0 条评论
下一页