Ebay平台大数据生产线流程
2016-01-15 11:06:14 7 举报
Ebay平台大数据生产线流程主要包括数据采集、数据清洗、数据存储、数据分析和数据可视化五个环节。首先,通过各种渠道收集用户行为数据、商品信息等原始数据;其次,对收集到的数据进行清洗,去除重复、错误或无关的数据;然后,将清洗后的数据存储在数据库中,以便后续处理;接着,利用大数据分析工具对数据进行深入挖掘,发现潜在的规律和趋势;最后,将分析结果以图表、报告等形式呈现给用户,帮助用户更好地理解市场动态。整个过程旨在为Ebay平台提供有价值的信息,以提高用户体验和平台的运营效率。
作者其他创作
大纲/内容
节点一
节点三
专线服务器
节点二
1.任务一:效率最高的Ebay平台的卖家评论数据爬虫优化,部署,维护2.任务二:节点一不断产生的卖家数据源的实时对接,接收帐号排序的消息队列任务,启动爬虫任务(优先考虑ActiveMQ)3.任务三:根据卖家的评论数据异步进行帐号优先级排列,按帐号注册地纬度进行关联数据清洗,分配海外仓和国内仓的帐号lisitng抓取任务,发送帐号listing抓取的消息队列任务(优先考虑ActiveMQ)
业务任务分解
1.任务一:针对节点二的Ebay国内仓帐号,按优先级进行listing数据抓取目的:获取国内仓listing产品数据2.任务二:针对节点二的Ebay海外仓帐号,按优先级进行listing数据抓取目的:获取海外仓listing产品数据涉及的帐号:节点二的国内仓和海外仓卖家帐号涉及的lisitng数据:listing产品相关的所有数据涉及的页面:listing列表页面(不屏蔽),listing详情页面(不屏蔽)
节点四
海外服务器
1.任务一:针对节点三的Ebay国内仓帐号listing产品,进行筛选过滤,抓取listing销售记录目的:获取按各个需求维度筛选后的国内仓listing产品销售记录2.任务二:针对节点三的Ebay海外仓帐号listing产品,进行筛选过滤,抓取listing销售记录目的:获取按各个需求维度筛选后的海外仓listing产品销售记录涉及的listing:节点三的国内仓和海外仓listing数据涉及的页面:销售记录页面(屏蔽)
1.任务一:效率最高的Ebay平台的listing数据爬虫优化,部署,维护2.任务二:节点二不断产生的卖家数据源的实时对接,接收帐号listing抓取的消息队列任务,启动爬虫任务(优先考虑ActiveMQ)3.任务三:海量listing数据存储优化方案设计,实施(优先考虑MYCAT))
1.任务一:针对节点一已经归类的Ebay帐号数据进行帐号优先级排序并根据卖家帐号的注册地进行二次归档目的:Ebay帐号优先级排序和二次归档涉及的帐号:节点一归类的卖家帐号涉及的卖家帐号数据:卖家帐号的总评论数,(1,6,12)个月(好评数,中评数,差评数),好评率,帐号注册地涉及的页面:卖家评论页面(屏蔽)
1.任务一:效率最高的Ebay平台的销售记录数据爬虫优化,部署,维护2.任务二:对接节点三产出的国内仓和海外仓lisitng数据,开启销售记录爬虫抓取任务(因不确保后续数据分析出的有效listing产品数据量,所以这里采取数据库直接对接,方便更改调试)3.任务三:对接启动海外仓和国内仓的数据分析工作流
1.任务一:效率最高的Ebay平台的listing数据爬虫优化,部署,维护2.任务二:海量listing数据存储优化方案设计,实施(优先考虑MYCAT)3.任务三:根据海量listing数据,按卖家帐号纬度进行站点关联数据清洗,发送帐号排序的消息队列任务(优先考虑ActiveMQ)
技术任务分解
Ebay平台大数据数据采集生产线任务分解乔旻浩2016-01-15
0 条评论
回复 删除
下一页