四川舆情相似度分析流程
2016-08-10 14:14:52 0 举报
四川舆情相似度分析流程主要包括以下几个步骤:首先,收集和整理四川地区的各类舆情数据,包括新闻报道、社交媒体评论等;其次,对收集到的数据进行预处理,如去除停用词、标点符号等,以便于后续的分析;然后,利用文本挖掘技术提取出文本的关键信息,如关键词、主题等;接着,通过计算文本之间的相似度,可以得出不同文本之间的关联程度;最后,根据相似度结果,可以对舆情进行分类和聚类,从而更好地理解和掌握四川地区的舆情动态。这个过程需要结合自然语言处理、数据挖掘等多种技术,以实现对大量文本数据的高效处理和分析。
作者其他创作
大纲/内容
是
登录鉴权
MySQL查询接口
防火墙
网安系统
结果入库
Hive数据仓库
业务IP池
Impala查询接口
安全审计(账号审计、IP审计)
任务调度器任务调度器定时判断正在执行的任务队列数是否小于并发配置数、如果小于并发配置数就去待执行列表取待执行的任务N个(并发数-正在执行任务数)把提取的待执行任务数放入执行队列中
接口日志功能(汇聚数据网关各种操作日志)
有
HDFS分布式文件系统
MySQL
查询结果二次检索
规则校验器(返回的结果量)
需要二次检索
NoSQL
指令优化器(SOAR)
数据中心
查询指令
拓展
数据中心内部网络
指令鉴权
文件下载
文件下载接口
正在执行任务数<并发数?
待执行任务队列
获取待执行任务
数据管理
任务进入到待执行任务列表
没有,等待下一次调度
任务停止模块
认证功能
数据加密解密
开始
分割线
IP比对系统
不是
Elasticsearch检索系统
指令调度分发模块
业务系统
创建索引和TYPE、Mapping
指令执行器
Hbase查询接口
FTP文件系统
文件敏感数据检查
任务调度引擎
ES查询接口
启动Impala任务执行线程
任务执行引擎
元数据管理
待执行任务列表
大数据日志采集模块
数据网关
申请认证
Oracle查询接口
待执行任务进行执行队列
IDC
数据输出(数据缓存、文件检查)
Impala底层查询
任务指令
。。。。
根据任务Level取待执行任务
结果入库ES任务表
Oracle
日志审计功能
不需要
Hive查询接口
Hbase存储
权限管控(权限分配、认证管控)
工控系统
结束
正在执行任务队列
0 条评论
下一页