IP比对数据处理整体流程架构
2016-08-25 16:20:53 0 举报
IP比对数据处理整体流程架构主要包括数据收集、数据预处理、特征提取、相似度计算和结果输出五个步骤。首先,通过各种手段收集大量的IP地址数据;然后,对收集到的数据进行清洗和格式化,去除无效和重复的数据;接着,从清洗后的数据中提取有用的特征,如地理位置、网络类型等;然后,利用相似度计算方法,如余弦相似度、Jaccard相似度等,计算两个IP地址之间的相似度;最后,根据设定的阈值,将相似度高的IP地址归为一类,输出比对结果。这个流程架构可以有效地处理大量的IP地址数据,为网络安全、欺诈检测等领域提供支持。
作者其他创作
大纲/内容
/database-dataprocess/result/ql/dx/2/
/home/ftpfile/import_data/ql/dx/2
覆盖数据
ES入库服务器
规划段数据处理方式规划段数据只有四个运营商有 文件名称为2.csv第一步下载文件:import_data/ql/dx/2.csv -- /home/ftpfile/import_data/ql/dx/2.csv第二步上传到HDFS: /home/ftpfile/import_data/ql/dx/2.csv ---/database-dataprocess/sourcess/ql/dx/2/1.csv 备份目录 /home/ftpfile/import_data_back/ql/dx/版本号/2.csv第三步Spark对原始数据进行格式化:/database-dataprocess/sourcess/ql/dx/2/2.csv ---- /database-dataprocess/process/ql/dx/2/第三步Spark对数据进行比较获取全量数据/database-dataprocess/process/ql/dx/2/ 和目录 /database-dataprocess/new/2.csv ------------------- /database-dataprocess/result/ql/dx/2/ 第四步更新数据,入库ES:从/database-dataprocess/result/ql/dx/2/ 下载数据到 /home/ftpfile/import_data_es/ql/dx/版本号/2.csv删除数据/database-dataprocess/result/ql/dx/2/ 和 /database-dataprocess/process/ql/dx/2/ 和 /database-dataprocess/sourcess/ql/dx/2/把数据 /home/ftpfile/import_data_es/ql/dx/版本号/1.csv 上传到 /database-dataprocess/new/2.csv 和通过FTP上传到ES入库目录/home/ftpfile/import_data/ql/dx/2/
/home/ftpfile/import_data_es/ql/dx/版本号/2.csv
/home/ftpfile/import_data_back/ql/dx/版本号/2.csv
/home/ftpfile/import_data_es/ql/dx/版本号/1.csv
/database-dataprocess/sourcess/ql/dx/2/2.csv
/home/ftpfile/import_data/ql/dx/2.csv
/database-dataprocess/process/ql/dx/2/
/database-dataprocess/new/2.csv
import_data/ql/dx/1.csv
来源数据处理方式来源数据只有四个运营商有 文件名称为1.csv第一步下载文件:import_data/ql/dx/1.csv -- /home/ftpfile/import_data/ql/dx/1.csv第二步上传到HDFS: /home/ftpfile/import_data/ql/dx/1.csv ---/database-dataprocess/sourcess/ql/dx/1/1.csv 备份目录 /home/ftpfile/import_data_back/ql/dx/版本号/1.csv第三步Spark对原始数据进行格式化:/database-dataprocess/sourcess/ql/dx/1/1.csv ---- /database-dataprocess/process/ql/dx/1/第三步Spark对数据进行比较获取全量数据/database-dataprocess/process/ql/dx/1/ 和目录 /database-dataprocess/new/1.csv ------------------- /database-dataprocess/result/ql/dx/1/ 第四步更新数据,入库ES:从/database-dataprocess/result/ql/dx/1/ 下载数据到 /home/ftpfile/import_data_es/ql/dx/版本号/1.csv删除数据/database-dataprocess/result/ql/dx/1/ 和 /database-dataprocess/process/ql/dx/1/ 和 /database-dataprocess/sourcess/ql/dx/1/把数据 /home/ftpfile/import_data_es/ql/dx/版本号/1.csv 上传到 /database-dataprocess/new/1.csv 和通过FTP上传到ES入库目录/home/ftpfile/import_data/ql/dx/1
/database-dataprocess/process/ql/dx/1/
/home/ftpfile/import_data_back/ql/dx/版本号/1.csv
/home/ftpfile/import_data/ql/dx/1.csv
/database-dataprocess/result/ql/dx/1/
/database-dataprocess/new/1.csv
import_data/ql/dx/2.csv
/database-dataprocess/sourcess/ql/dx/1/1.csv
/home/ftpfile/import_data/ql/dx/1
0 条评论
下一页