dk词表生成过程
2016-11-27 09:12:34 0 举报
DK词表生成过程是一个将大量文本数据转化为词汇表的过程。首先,收集大量的文本数据,这些数据可以是书籍、文章、网页等。然后,对这些文本进行预处理,包括去除标点符号、停用词等。接下来,使用分词工具对文本进行分词,将文本切分成一个个独立的词汇。接着,对分词结果进行去重和排序,得到一个初步的词汇表。最后,根据实际需求对词汇表进行调整,如添加同义词、删除低频词汇等,最终得到一个满足需求的DK词表。这个过程可以帮助我们更好地理解和分析文本数据,为后续的自然语言处理任务提供基础。
作者其他创作
大纲/内容
生成各种词表
trans.jsn_to_mc.pytrans_jsn_to_mc.bda.py
获取dk线上日志
获取日志
......
生成基本词表
生成json格式词表
生成nuomi_listing.lognuomi_keywords.logkeywords_poi.log......
拷贝词表
拷贝到bn-as词表目录下,等待校验
词表格式转换
分离出每个接口的log
融入fuzz词表
gen_req_doorkeeper.sh
trans.doorkeeper.py
cq、gz、nj、sh、sz每个机房选一台线上机器12 17 18 21 01
json格式词表转为mcpack格式
生成均匀全量词表
0 条评论
下一页