nid流程图
2024-06-07 17:49:08 0 举报
nid流程图
作者其他创作
大纲/内容
oid-redislock
N
对title和content去除特殊符号和标签,并生成simhash
是否含有md5(topKSentence)进行最长子句排重
pic_hanming <= 10&&(title_jarcard >=0.7 ||(con_jardcard>=0.6 && 分词长度大于40))
获取图片排重取得内容最相似的那个docId
redis是否含有oid-nid缓存
三天前的新闻&&hanming<=3 && (title_jarcard>=0.70 || (title_jarcard>=0.5 && hanming==(0||1))
调用算法图片去重接口,计算图片simhash的汉明距离
存储oid、vid、simvideo与nid的映射到redis
开始
历史文章是最近三天的并且汉明距离小于10
是否含有md(title)索引对title进行去重
jarccard >= 0.50 && hanming<=8
redis是否含有md5(url)的缓存?
分别存储oid、url、title、sinvideo、vid与nid的对应关系到redis
建立索引
Y
释放锁
n
生成nid并建立标题、url、标题正文的索引
content_jarccard >= 0.6&&hanming<=6&&内容长度大于40
hanmin<=8
pic_hanming <= 3
召回
jarccard >= 0.60 && hanming<=3
(jarccard >= 0.70 && hanming<=4) || hanming==0 || hanming==1
是否含有vid-nid的映射缓存?
redis是否含有标题和内容的simhash 值的缓存?
是否含有simvideo-nid的映射缓存?
视频nid处理过程
redis是否含有simvideo的缓存?
计算nid
计算本文的simhash与历史文章的simhash的汉明距离
结束
计算历史文章与本文title的Jaccard值
计算内容的jarccard
通过KSentence获取正文最长的三句话topKSentence
通过simhash获取相似历史文章的simhash列表
取最相似的nid
redis是否含有md5(title)的缓存?
是否含有md(url)索引对url进行去重
通过内容排重成功
0 条评论
下一页