情报平台
2016-11-19 15:23:12 0 举报
情报平台是一个集成了多种信息收集、分析、处理和展示功能的软件系统。它能够实时监控全球范围内的各类信息源,包括新闻、社交媒体、论坛、博客等,通过先进的自然语言处理技术,对收集到的信息进行深度挖掘和分析,从而为用户提供有价值的情报。此外,情报平台还具有强大的数据可视化功能,可以将复杂的情报信息以图表、地图等形式直观地展现出来,帮助用户快速理解和把握情况。无论是企业决策、市场研究,还是政府监管、公共安全,情报平台都能发挥重要作用。
作者其他创作
大纲/内容
y
getWordCount()
过滤
intro.py1.删除当天记录2.clean_news获取记录3.公司匹配4.插入表
预测文本
1:source == 'i黑马' and author == '静静'2:source == '互联网研究家' and author == '广告'
数据库操作
clean_news获取数据,以天分割
是都为 2类(互联网)
基于来源和作者
1.1加载自定义词库(随时扩充)1.2加载停用词库(根据数据扩充)
判别为2类 已经训练的关于2类的二分类器
获取整个news_keyword表的记录
微信端指定来源的关键词过滤
二分类模器训练步骤: 取2017-12-01到2017-12-21的标注数据为训练样本 取词频1且1类词频大于0类的词频作为训练特征 get_bi_fea()构造训练数据 make_bin_data()模型选择和测试 tun_model()确定模型与预测 predict()
基于标题过滤
3.1分词3.2计算tf-idf,并倒排序3.3截取前10个名词或者自定义词
if result =1:删除title1所对应的记录if result =2 : 删除t_keyword分别在clean_news和news_keyword记录,news_keyword插入title1所对应记录else : 将title1的id和分词结果插入news_keyword表
4.遍历关键词: 词的tf-idf值*来源权重*100
是都为 1类(行业资讯)
Compare()
1:news_filter_contion表获取过滤字符串2:如果title以news_filter_contion中出现字符串开头delete
history.py1.news_doc_\"+stat1表获取数据2.调取过滤模块3.调取关键词提取+热度模块4.调取去重模块
删除title1对应id在news_keyword的记录
文章如果小于150个字就delete
n
1:news_filter_source表获取不需要过滤的来源source2:news_word_company获取关键词wordif 新闻来源是微信: if 新闻来源不在source内: if 新闻内容不包含Word:delete
去除标点和指定字符串
基于文章内容过滤
背景:http://note.youdao.com/noteshare?id=eb340473baa5899ccff0d39491aa1b78
getSourceByDay()
结果操作
clean_news全量表
关键词提取+热度计算1.分词词库加载2.新闻内容预处理3.关键词提取4.热度计算
display_news_intro企业观察表
遍历原始结果集(title1是某一条记录)
预测为0( \t都不是)
判别为4类 标题中包含 (投资 融资 投融资)
判别为3类(方法论)
判别为1类 已经训练的关于1类的二分类器
去重
display_news_doc7日展示表
2.1去掉新闻内容标点字符2.2截取新闻内容2/6到5/6
display.py脚本stat1是每天的时间变量1.news_doc_\"+stat1表获取数据2.调取过滤模块3.调取关键词提取+热度模块4.调取去重模块
判别为4类(投融资)
0 条评论
下一页