Hmm 中文分词
2016-07-30 14:33:40 0 举报
Hmm中文分词是一种常用的中文文本处理技术,它的主要目标是将一段连续的中文文本切分成一系列独立的词语。这个过程通常涉及到一些复杂的算法和模型,如基于字典的最大匹配法、基于统计的隐马尔科夫模型等。Hmm中文分词在许多领域都有广泛的应用,如搜索引擎、自然语言处理、信息检索等。通过Hmm中文分词,我们可以更好地理解和分析中文文本,提取出有用的信息,为后续的数据处理和分析提供便利。
作者其他创作
大纲/内容
编译汉字正则表达式1compile_re_1
创建空词典create_empty_dict
建立词典build_dictionary
汉字or标点符号等
用一阶隐马尔科夫模型寻找最优转移序列hmm_find
按行读入read_line
记录开始位置和结束位置record_start_end
将已经正确分词的文章也加入词典read_articles
正则匹配所有连续的不含标点符号的汉字块re_match
记录结果并写入输出文件record&output
结束
统计转移频率cal_trans_f
开始
汉字
测试集数据读入read_input_data
枚举每一个切割点寻找字典中存在的最长的汉字串lookup_dictionary
去掉头、尾部空格等分隔符split&strip
从已正确分词的文章中记录转移情况record_trans
直接跳过原符号输出skip
返回最优序列对应的汉字块return_ideograph
返回最长分词结果return_mx_segment
编译标点符号等表达式2compile_re_2
按行读入所给词典文件去掉空格等分隔符readline_split&strip
对所有匹配结果进行最大分词mx_length_segment
打开测试集文件open_input_file
整合本句所有分割结果寻找最优方案best_segment
设置发射频率setup_reflect_f

收藏
0 条评论
下一页