doc2vec
2016-11-29 09:53:47 0 举报
doc2vec是一种用于生成词向量的模型,它可以将文档表示为固定长度的向量。这种模型由Google在2013年提出,主要用于自然语言处理任务,如文本分类、聚类和信息检索等。doc2vec的核心思想是利用文档中单词的上下文关系来学习文档的语义信息。它有两种训练方式:分布式词向量(DBOW)和连续词袋模型(CBOW)。DBOW通过随机选择文档中的单词进行训练,而CBOW则通过预测单词的上下文来训练。doc2vec的优点是可以处理大量无标签数据,并且能够捕捉到单词之间的复杂关系。然而,它的训练过程需要大量的计算资源,并且对于长文本的处理效果不佳。
作者其他创作
大纲/内容
Classifier
w
Paragraph Matrix
Average/Concatenate
D
the
cat
Paragraph id
On
sat
0 条评论
下一页