毕业设计新词发现算法流程图
2017-04-20 14:58:47 0 举报
新词发现算法流程图主要包括以下几个步骤:首先,从大规模文本数据中抽取候选新词;其次,对候选新词进行过滤,去除常见的单字、标点符号等无效词汇;然后,计算候选新词的词频和共现频次,筛选出高频且具有一定共现关系的词汇;接着,利用词语的上下文信息,如词性标注、句法分析等,进一步优化新词列表;最后,将优化后的新词列表输出。整个过程旨在从海量文本中挖掘出具有实际意义和语言学价值的新词,为后续的自然语言处理任务提供支持。
作者其他创作
大纲/内容
将一阶词汇俩俩组合成二阶词汇并存入前缀树
计算每个二阶词汇的score值
开始
将所有得分排在前k位的二阶词汇作为新词输出
将二阶词语按照得分由高到低排序
计算每个二阶词汇的内部凝聚度、外部自由度、词频
HanLP分词,去除停用词、非中文词、标点符号
结束
利用噪音词语构词规则过滤噪音词语
收藏
0 条评论
下一页