add_Match
2016-04-15 13:27:21 0 举报
matching
作者其他创作
大纲/内容
省市区+otherWord inverted index&search
sound distance for typo for otherWord (=2汉字数字字母)
直接全数据库fuzzymatch,太慢,先索引出一些candidate(索引 基于分词 拼音 1-gram[exclude len1 word] 2-gram )
爬虫 :机构公司学校名称db和query的地址补全功能
处理:英文转小写,繁体转简体,全角转半角只留下 数字字母汉字 其他不要
get structure of address
去掉对立的‘省’市 区 5w-2w(省市的结构rely on 分词) 去掉‘北京市海淀区’只有省市的
raw string
score &index&match
structure省市区represented by [geo]
get structure省市区+otherWord
将 db&query '北京'补全成'北京市'不建议去掉
mess
other word
remove useless word
string level feature
problem to be solved: 3)queryId加上
not segment
tfidf(string level 取决于分词) 最近的保留
fuzzy:1)typo2)missing charactor 3)abbrevation RD road HMM
geo location feature(有些地址没有经纬度但string匹配存在
denoise(remove word useless for location
处理+ segment
1km之外 或者没有经纬度的 如果string level partial match但经纬度say elsewise 听string level的(滨城路,xxx滨城路xxx) 字符串包含
收藏
0 条评论
下一页