结巴分词流程
2016-06-02 20:41:51 0 举报
结巴分词是一种基于统计的中文分词工具,采用基于前缀词典实现高效的词图扫描,生成候选分词列表,然后采用动态规划查找最大概率路径, 找出基于词频的最大切分组合。对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。同时加入了基于汉字成词能力的 HMM 模型的新词识别功能,可以有效地识别出新词。结巴分词提供了 Java、C++、Python 多种语言的实现。在许多自然语言处理任务中,如文本分类、命名实体识别、关键词提取等,都需要进行中文分词。因此,结巴分词是一个非常实用的工具。