采集流程图
2023-07-05 17:32:33 0 举报
流程图
作者其他创作
大纲/内容
Redis
P2 开放平台(dyopen/ksopen)
计算完成taskProcess = 5
重试策略
cloud-job / xxl-job定时调度器
采集监控服务cmd-monitor
爬虫服务
日常采集任务
YES
入库服务rawdata
爬取异常
请求转发
检查是否开播
账号等级
补发直播报告
每4/10分钟(合作/非合作)
直播互动数据推送
P1 创作者平台(creator)
直播报告超时告警
MQ
视频
入库配置化
账号等级(监播频率)
开放平台
主播
查询成功
采集监听服务
数据入库服务
直播
spark
重发补采
异常批次告警
定时任务
数据更新日期
定时调度器
数据入库
查询需要采集的主播id/视频id
更新批次进度
授权时间是否晚于发起命令时间
授权任务
授权中台
基础数据服务
直播监播任务
实时直播数据(直播地图)查询
重试3次失败
每5分钟
异常情况
写入重试任务
监听直播报告
每4/10分钟(合作/非合作)
命令配置化
字段完整性
授权失效通知
按频率爬取数据
直播下播通知
NO
入库异常
Kafka(重试队列)
http检查直播状态
视频状态判断
命令服务cmd-worker
监播账号
数据入库服务(直播报告、互动)
命令服务
CK(删除记录表)
是否私密/删除
采集完成taskProcess = 3
获取Token最新授权时间
企微群告警(人工处理)
主播、视频
CK
拉取历史数据
计算数据
YES重新采集
监听
直播任务
NO更新授权状态:授权失效
基础数据服务(需要爬取账号)
spark online服务
开放平台(抖音、快手)
即时数据更新任务
直播MQ
批次统计定时任务
查询当天开播且未打标的直播
授权过期
是否修复视频状态
延时数据重采
任务批次内所有主播是否采集完成
实时直播数据处理服务afanti-crawler
MySQL重试任务表
采集任务失败taskProcess = -1
更新授权状态
Kafka延时重试队列
直播录屏通知
查询
直播报告超时
视频任务
data-center
每1分钟查询
群告警
P3 afanti自建爬虫cmd-worker
cmd-timely数据即时更新服务
业务端
0 条评论
下一页