LDA算法流程
2016-06-08 23:28:52 0 举报
LDA(Latent Dirichlet Allocation)是一种主题模型,它可以将文档集中的每篇文档的主题以概率分布的形式给出。LDA的基本思想是:每篇文档可以看作是由多个主题混合而成,而每个主题又可以看作是由多个词组成。因此,给定一个文档集合,我们的目标是找出每个文档的主题分布以及每个主题下的词分布。 LDA算法流程大致如下: 1. 对文档进行预处理,包括分词、去停用词等操作。 2. 确定主题数k。 3. 随机初始化每个文档的主题分布和每个主题下的词分布。 4. 迭代更新文档的主题分布和主题下的词分布,直到收敛。 5. 输出每个文档的主题分布和每个主题下的词分布。
作者其他创作
大纲/内容
调用model.tfidf_corpus语料库,构建LDA模型model.lda
是
否
participle()对原始文章库进行分词,构建model.corpus语料库
articles与dictionary是否存在?
inTFIDF()将词袋模型转为TF-IDF模型,构建model.tfidf_corpus
model.tfidf_corpus是否存在?
inBOW()构建词袋模型的语料库model.bow_corpus
synchronize()与模型层数据存储模块同步,存储模型
initialize()从模型层获取文章库,并建立dictionary词典
开始
结束
0 条评论
下一页