第1章集合论基础
集合概念
集合符号
全集(论域)Ω
集合A所包含元素个数称为该集合的基数或势。记为|A| 或 card(A)
A \ B = x属于A但不属于B = A - B
集合的运算
幂等律
交换律
结合律
分配律
恒等律
互补律
德摩根律
吸收律
双否律
集合关系
第2章 信息表知识表达系统
知识概念
给定一组数据(集合)U和等价关系集合R,在等价关系集合R下对数据集合U的划分,称为知识,记为U / R
U/R表示U上由R导出的所有等价类。[x]R表示包含元素x的R的等价类.
一个知识库就是一个关系系统K={U,P},其中U是论域,P是U上的一个等价关系簇。如果有一等价关系Q属于P且Q不为空,则Q也是一个等价关系,记作IND(Q)
信息表知识表达系统 S = < U, R, V, f > 。其中U是对象的集合,R = (C∪D)是属性集合,C是条件属性,D是决策属性,V是属性值域,f: U X R -> V 是一个信息函数。
第3章 Rough集理论基础
基本概念
基本集
可定义集(精确集):由任意多个基本集构成
不可定义集(粗糙集 Rough集)
下近似集(正域):对每个概念X和不分明关系B,包含于X中的最大可定义集:根据知识B,U中所有一定能归入集合X的元素构成的集合
上近似集(负域):对每个概念产X和不分明关系B,包含于X中的最小可定义集:根据知识B,U中所有一定能和可能归入集合X的元素构成的集合
边界域:是某种意义上论域的不确定域,边界域中的元素既不能肯定地属于集合X,也不能肯定地不属于X
Rough度与分类质量
集合X的边界区域越大,其确定性就越小。
B的精度 = card(B的下近似集) / card(B的上近似集)
B的Rough度 = 1 - B的精度
Rough集X的不确定度
如果B的下近似集不为空且B的上近似集不为U,则称X为B Rough可定义的
如果B的下近似集为空且B的上近似集不为U,则称X为B 内不可定义的
如果B的下近似集不为空且B的上近似集为U,则称X为B 外不可定义的
如果B的下近似集为空且B的上近似集为U,则称X为B 全不可定义的
近似分类的精度
近似分类的质量
Rough集代数性质
Rough集关系
可变精度Rough集模型 VP-RS
条件概率
相关程度
第4章 知识获取
概念:知识获取是识别出存在于数据库中有效的、新颖的、具有潜在效用的乃至最终可理解的模式的非平凡过程。
(1)理解领域知识和相关的先验知识,明确系统目标
(2)创建相关的目标数据集(原始样例库)
(3)数据整理和预处理
(4)数据约简和投影,寻找依赖于获取目标的表达数据的有用特征
(5)选择一种知识获取方法:分类、综合、回归、聚类
(6)选择知识获取算法
(7)实施知识获取算法,得到分类规则或聚类等形式来表达的感兴趣的模式
(8)解释得到的模式
(9)巩固得到的知识
基于Rough集的知识获取
可辩识矩阵,由斯科龙(Skowron)教授提出
决策规则
规纳学习
A -> B的逻辑含义称为决策规则,A称为规则前件,B称为规则后件,它们表达一种因果关系
公式A中所包含的原子公式中只有决策表中的条件属性
公式B中所包含的原子公式中只有决策表中的决策属性
在决策表S中,如果对于所有实例,A->B为真,则称决策规则A->B在决策表S中是协调的,否则是不协调的
如何从决策表中最大限度地获取到协调规则就是基于Rough集的知识获取所需要研究解决的问题
第5章 知识系统不确定性表示与处理
知识表示概念
知识表示方法
逻辑模式
框架
语义网络
产生式系统
(1)一个规则库,每条规则是一个“条件 - 行动”产生式
(2) 工作存储器
(3)解释程序是一个决定下一步做什么的程序。根据工作存储器选择规则,核实条件,激活并控制行动
剧本
不确定知识系统的几种推理方法
概率模型
可信度模型
证据理论
模糊推理
决策表的不确定性度量
决策规则的不确定性表示与度量
可信度定义:决策规则A->B的可信度CF(A->B)
不确定性定义:A->B|(α, β)
决策表度量公式
规则集度量公式
第6章 数据预处理
概念
决策表补齐
简单地将存在空缺(遗漏)属性值的实例记录删除
将空缺(遗漏)属性值作为一种特殊的属性值来处理
采用统计学原理,对遗漏值进行估计补充
根据Rough集理论中数据不可分辨关系来对不完备的数据进行补齐处理
算法
Mean Completer算法
Combinatorial completer算法
基于rough集理论的不完备数据分析方法(ROUSTIDA)
决策表离散化
非参照性的离散化算法
参照性的离散化算法
Rosetta软件
Naive Scaler算法
Semi Naive Scaler算法
Nguyen H.S. 和 Skowron提出的布尔逻辑和Rough集理论相结合的离散化算法
离散化算法介绍
等距离划分算法
等频率划分算法
Naive Scaler算法
Semi Naive Scaler算法
Nguyen H.S. 和 Skowron提出的布尔逻辑和Rough集理论相结合的离散化算法
基于断点重要性的离散化算法
基于属性重要性的离散化算法
第7章 决策表属性约简
对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析
要根据决策表中的数据信息分析得到条件属性对决策属性的分类规则,需要研究条件属性集合相对于决策属性的相对约简
概念:在保持条件属性相对于决策属性的分类能力不变的条件下,删除其中不必要的或不重要的属性
S K M Wong和 W Ziarko已证明找出一个决策表的最小约简是个NP-hard问题。主要原因是属性的组合爆炸问题。
决策表属性约简的信息熵表示
决策表属性约简算法
一般约简算法
基于可辨识矩阵和逻辑运算的属性约简算法
归纳属性约简算法
基于互信息的属性约简算法——MIBARK算法
基于特征选择的属性约简算法
不完备信息系统的属性约简
容差关系
非对称相似关系
量化容差关系
第9章 逻辑推理系统
知识表示系统的不一致性
(1)决策表中包含冲突样本
(2)决策表中没有冲突的情况,在决策表化简过程中产生的不一致
(3)决策表只包含了所有可能中的一部本,即待识样本和决策表中的样本冲突
不一致推理策略
加权综合法
试探法
高信任度优先法
多数优先原则
少数优先原则
第11章 Rough集理论的实验系统
工具软件:Rough Enough, Rose, Rosetta, KDD-R, LERS等
其它的系统:Rough Set Library, Grobian, Datalogics, K-Days, Rough Analysis等
Pawlak的基本Rough模型、Ziarko的可变精度Rough集模型