jieba分词流程图

2016-11-27 16:00:16 0 举报
仅支持查看
jieba分词流程图描述如下: 1. 用户输入一段中文文本。 2. 将文本转换为jieba可以处理的格式,如UTF-8编码。 3. jieba对文本进行预处理,包括去除标点符号、数字、英文等非中文字符。 4. 根据用户设置的分词模式(精确模式、全模式、搜索引擎模式),jieba采用不同的算法对文本进行分词。 5. 对于新词,jieba会根据词典和大规模语料库对其进行识别和处理。 6. 分词结果以列表形式返回给用户。 7. 用户可以对分词结果进行进一步处理,如提取关键词、计算词频等。
作者其他创作
大纲/内容
评论
0 条评论
下一页