新闻去重流程
2016-05-24 18:09:01 0 举报
新闻去重流程通常包括以下几个步骤:首先,通过人工或自动方式收集新闻数据;其次,对收集到的新闻进行预处理,如去除无关信息、格式化数据等;然后,利用特定的算法或模型对预处理后的新闻进行相似度计算,以判断是否存在重复内容;最后,根据相似度结果对重复新闻进行去重处理,如删除、合并等。新闻去重流程旨在提高新闻数据库的质量,减少冗余信息,为用户提供更加准确、全面的新闻资讯。
作者其他创作
大纲/内容
爬虫程序
1爬取新闻
NC-API
4合并
切词
近义词
DB-API
请求
接口类型
10返回
存储队列
文档
9请求
3切词
11更新
8计算simhash
同义词
爬虫新闻库
又比又加
特征抽取
停用词
初始化接口
基于http协议
5输出
算法模块
关键词
simhash队列
新闻队列
2插入队列
ELB
7获取新闻
6输出队列
新闻内容队列
只比不加
算法新闻签名
simhash队列2
0 条评论
下一页