商务智能
2022-06-13 13:21:27 11 举报
AI智能生成
好好学习
作者其他创作
大纲/内容
基础
支持决策
数据与信息(决策=信息+知识+冒险)
个人目标
技术
系统架构
系统组成 P29
数据集成
数据仓库
数据仓库P36
数据集市
元数据
ETL
抽取、转换、清洗
数据储存
在线分析处理
数据挖掘
概念、数据预处理
聚类分析 P95
算法
聚类分析
k-means P99
基于划分、簇、距离
给定K,从n个对象中随机选择K个对象作为初始聚类中心
对剩余对象,计算其与聚类中心之间的距离,根据距离划分不同簇
重新计算每个簇的平均值,求出新的聚类中心,直到聚类中心不在发生变化
k-modes P102
根据分类属性值的出现频率更新聚类中心、相异度
预先定义K个类,确定每个类的初始类模式Q
根据Q把每个对象赋予最相临的类,更新Q、直到Q不在变化
子主题
DBSCAN P105
密度
核心点、边界点、噪声点
标记
核心点、边界点、噪声点
概念、特点
相异度
统计量
距离
欧几里德距离
离群检测
离群因子
应用
招商引资、生物基因聚类、PS抠图、住房区的空调需求特征
分类分析
训练样本集
贝叶斯分类器 P109
决策树 P113
信息增益(ID3/C5.0)
贪心算法
熵值、纯度、分支数学:gain最大
gain(A)= I - E(A)
gini指数
不纯度、分支依据:最小
X²检验
过拟合、修建
关联分析
关联规则
支持度、置信度、提升度
强关联规则
最长频繁项集
Apriori P139
频繁项集——强关联规则——最小支持度、最小置信度
大量候选集、重复扫描
项目从
FP增长树 P143
数据库D——1频繁项集及其支持数
按支持数降序排列,并记录结果L
创建FP树根节点(null)。依照D,按L中次序排列每个事务的路径
从而得出:前缀路径、条件FP树、产生的频繁项集
应用
商品推荐、景点推荐、科技研发关联、跨界合作.
回归分析
多元回归分析(见实验P355)
子主题
子主题
子主题
应用
工作亮点
工作不足
web挖掘
内容挖掘
TF-ID3
文档特征值(关键词)权重计算的方法、词频*反文档频率
子主题
子主题
结构挖掘
使用挖掘
下一阶段工作计划
0 条评论
下一页