数据流程
2023-03-28 10:00:22 126 举报
1111
作者其他创作
大纲/内容
conf_apider作用:1.传输数据;2.图片处理,3.格式转换,4.推送支线任务;5.去重(url)
情感识别
插件打标
正负面判定
数据转换快搜格式
匹配用户/图谱标签,打标,tag
放置rmq:data_ks_dowing_flt6
推送日志
阿里云redis
rmq:spider_rmq/data_xgks_twitter
数据路由回传:config_oversea_data 处理:原redis是多线程爬虫,转成单线程传输数据的redis,为进入rmq做准备
处理消费组:data_ks_dowing_flt6_g_rt
redis:cache1/spider_data
redis
新闻/资讯/汽车/旅游/行业/话题/问答数据采集配置
用户创建专题(接口或者界面)
rmq:spider_rmq /data_xgks2
redis:overse_redis/twitter_data
信源识别
redis:oversea_data_redis/z_oversea_data
ES库
数据路由回传:config_oversea_data 处理:原redis是多线程爬虫,转成单线程传输数据的redis
各自的redis
条件
hot_ES库
twitter数据采集配置
招投标/金融数据采集配置
数据压缩:aws_overse_data作用:压缩数据,节约成本
rmq:spider_rmq/data_raw_weibo
rmq:data_ks_dowing
招投标实体识别
根据专题id推送kafka
微信公众号文章排名
放置:yqms_rmq/twitter_data
匹配地域
地域词识别
redis:cache2/3 /sina_data
rmq:data_xgks_3
数据清洗
翻译
处理消费组:data_ks_dowing_g_flt6
评论数据采集配置
观点识别
哈希值计算
redis:cache1/twitter_data
命名实体识别
垃圾识别
rmq:spider_rmq/spider_data
redis:overse_redis/onerse_data
数据路由回传作用:去重、转换快搜格式名称:请备注
ks_es_spiser作用:转换快搜格式
信源媒体识别
搜索
spider 作用:除微博数据之外的,数据传输,打上数据来源和媒体类型的标签
微博话题识别
关键词提取
weibo_data作用:转换秘书格式
redis:cache1/oversea_aws_data
ks_es_weibo作用:转换快搜格式
redis:overse_redis/bulk_twitter_data
判断正负面
道丁搜索/dsearch
标记噪音
星光数据平台
处理消费组:g_data_es_xgks3_hot
xsearch/wsearch
处理消费组:g_data_es_xgks3
weibo_idc作用:写入rmq;数据去重(url)
1.翻译数据;2.数据传入rmq
子模块匹配
redis:cache1/oversea_aws_data2
网站等级识别
微信数据采集配置
全字段订阅推送查询
rmq:spider_rmq/twitter_data
消费组:g_data_xgks2_fit_xgks
文章摘要
非twitter数据采集配置
conf_apider1.传输数据;2.图片处理,3.格式转换,4.推送支线任务
境外地域识别
0 条评论
回复 删除
下一页