登录免费注册

首页  流程图  详情

Hmm 中文分词

2016-07-30 14:33:40   0  举报





仅支持查看

Hmm中文分词是一种常用的中文文本处理技术，它的主要目标是将一段连续的中文文本切分成一系列独立的词语。这个过程通常涉及到一些复杂的算法和模型，如基于字典的最大匹配法、基于统计的隐马尔科夫模型等。Hmm中文分词在许多领域都有广泛的应用，如搜索引擎、自然语言处理、信息检索等。通过Hmm中文分词，我们可以更好地理解和分析中文文本，提取出有用的信息，为后续的数据处理和分析提供便利。

作者其他创作

大纲/内容

编译汉字正则表达式1compile_re_1

创建空词典create_empty_dict

建立词典build_dictionary

汉字or标点符号等

用一阶隐马尔科夫模型寻找最优转移序列hmm_find

按行读入read_line

记录开始位置和结束位置record_start_end

将已经正确分词的文章也加入词典read_articles

正则匹配所有连续的不含标点符号的汉字块re_match

记录结果并写入输出文件record&output

结束

统计转移频率cal_trans_f

开始

汉字

测试集数据读入read_input_data

枚举每一个切割点寻找字典中存在的最长的汉字串lookup_dictionary

去掉头、尾部空格等分隔符split&strip

从已正确分词的文章中记录转移情况record_trans

直接跳过原符号输出skip

返回最优序列对应的汉字块return_ideograph

返回最长分词结果return_mx_segment

编译标点符号等表达式2compile_re_2

按行读入所给词典文件去掉空格等分隔符readline_split&strip

对所有匹配结果进行最大分词mx_length_segment

打开测试集文件open_input_file

整合本句所有分割结果寻找最优方案best_segment

设置发射频率setup_reflect_f

 收藏

立即使用

Hmm 中文分词

Online Shop Implement with PHP

 收藏

立即使用

Online Shop Implement with PHP

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



中文分词逻辑

理解分词法

blood耦合-中文

统计词频分词法

Monitor GFS 中文

细粒度分词