流程图
2016-06-18 18:58:09 0 举报
nlp离线同义词提取
作者其他创作
大纲/内容
Hive 导出im问诊会话
List
疑问句规则
调整规则
list
清洗(调图片串,外链URL,繁转简,句子拆分(list))
预处理
分词
人工验证
重症规则匹配
模式匹配
词性标准
人工校验正确的keyword list
学习word2vec聚类词的阈值
关键词提取
规则自学习
标注的词库
医生校验(部分)
规则引擎
开源同义词软件,查找同义词
threshold
List wordAll
sure keyword
word2vec(大于阈值的相似词)
医生给出
否定意图的识别
标注句式语料
意图识别规则
业务给出的专业症状词/体征词/疾病词
Start
重症规则(医生线下给出)
单个重症规则命中100w问诊会话数量,每个科室比例,单个keyword出现概率
word,List
end
存储到本地文件List wordAll
疑问句式判断
word,list
consult问诊完整会话信息(doctor/user)
映射库(sy/simword,stander)
医生验证
keywordrelation
list word
否定意图识别规则
String word
分类算法mode
List content
单个重症规则命中100w问诊会话数量采样50-100im问诊会话
句法分析
重症规则
否定规则自学习
0 条评论
下一页