IKAnalyzer分词器
2017-04-09 17:48:07 0 举报
IKAnalyzer是一个开源的,基于Java语言开发的轻量级中文分词工具。它采用了基于前缀词典实现高效的词图扫描,生成有向无环图 (DAG) 并采用动态规划查找最大概率路径, 寻找最可能的分词组合。同时支持对专有名词的识别,适合进行中文文本的关键词提取。IKAnalyzer提供了对扩展自定义词典的支持,方便用户优化分词效果。其核心算法90%以上的时间都花费在文本预处理上,具有高效和省内存的优点。 IKAnalyzer适用于互联网、企业内部系统等大量文本数据的分词标注。
作者其他创作
大纲/内容
字母处理
数量词处理
词典检索
IK分词器
中文处理
词典文件
词典配置管理模块
词元处理子部分
相似度评估器
IK Segmentation主分析器
词典加载
IK Analyzer For Luenece 接口部分
查询分析器
0 条评论
下一页