TF-IDF MR过程
2016-12-15 12:25:21 0 举报
TF-IDF MR过程是一种用于信息检索和文本挖掘的常用算法。它通过计算每个词在文档中的重要性,来确定一个词对于一个文档集或一个语料库中的一个文档的重要程度。具体来说,TF-IDF MR过程包括两个步骤:第一步是计算词频(TF),即一个词在文档中出现的次数除以该词在文档集中出现的次数;第二步是计算逆文档频率(IDF),即log(文档总数/含有该词的文档数)。将这两个值相乘,即可得到该词的TF-IDF值。TF-IDF MR过程可以帮助我们快速地找到与查询相关的文档,并对这些文档进行排序。