基础模板2
2016-12-06 17:46:08 0 举报
基础模板2是一种通用的、可调整的模板,用于创建各种类型的文档、报告或设计。这个模板的设计简洁明了,易于使用,适合所有级别的用户。它包含了所有必要的元素,如标题、子标题、段落、列表和图表等,可以满足大多数用户的需求。此外,基础模板2还具有高度的可定制性,用户可以根据自己的需求进行修改和调整。无论是创建一份商业报告,还是设计一个网站布局,基础模板2都是一个很好的选择。它的灵活性和易用性使得用户可以快速地创建出专业且吸引人的作品。
作者其他创作
大纲/内容
数据处理-庆龙/艾耕
是
前端通过服务端路径获取内容
数据展示-首页
实体关联规则:公司:根据项目名关联人:关联公司+姓名匹配
艾耕接口:是否情报判断
情报分发进入关联实体范围:优先主实体,主实体为空,选标题实体,最多分发四个实体
艾耕接口:摘要抽取
公司底部展示
存储阿里云oss
数据获取-光明
日均130w条
数据展示-情报tab
爬虫数据采集
匹配上
(只发搜狗,不发百度)
艾耕接口:实体抽取
进入实体主页
未匹配上
实体关联数据本身带有eid不重复匹配
进入eid对应人/公司/投资机构的情报tab
数据展示-公司主页底部
落地页展示
数据量:当日所有
采集触发机制:1、用户访问某个公司主页,触发新闻采集2、有人关注的公司一天采集一次
实体关联
小情报(公司主页新闻)优化流程 1209
大情报(首页资讯)处理流程
首页展示
(只存搜狗,不存百度)
召回率:70%,准确率100%导致:30%的数据存储了但是未展示
存储(数据存储:mysql索引:T_SearchNews所有数据都带上eid)
(搜狗百度都进行存储)
时效性:T+0
艾耕接口:判断是否情报
搜索方式:公司:公司简称+项目名 (取排名前5的项目并行搜5次)人:公司简称+人名
数据存储:mysql表:T_Medium_News
时效性:T+1
搜索
发送mq消息给庆龙
数据量:日均1300
进入对应人/公司/投资机构的情报tab
爬虫采集触发
数据存储:es索引:idx_bluebook_news/news
对去重后结果进行展示
排序:热度排序:热点/科技/财经24h时间片内按照热度取前18条时间排序:其他栏目按照时间排序,取前18条
艾耕10min推送一次去重情况
栏目分配:根据新闻来源进行绑定分配
数据获取
数据存储
展示新闻量:日均330
数据量:日均130w
数据入库,但是不展示
算法平台过滤(去重+判断是否该公司的新闻)
数据量:日均5000条
采集触发机制:事先定义好采集源,5分钟采集一次
根据规则进行分发
小情报(公司主页新闻)处理流程
0 条评论
下一页