- 相关推荐
智能决策支持系统中的知识表示及基于粗集的知识推理
摘要:当前,智能决策支持系统的实现研究已成为众多学科领域的研究热点,特别是伴随人工智能的发展,不断有新的理论和方法用于智能决策支持系统的实现。本文探讨在智能决策支持系统中的知识表达,讨论了属性在知识表达系统中的作用,决策表格形式的知识表达系统的性质、作用以及根据粗集理论分析处理海量信息中信息的有用特征,通过分析、推理产生最小决策规则。本文最后以EDUDSS中农村小学布局决策为例作实例分析。关键词:智能决策支持系统;粗集;依赖度;知识推理
一引言
知识推理是智能决策支持系统中的核心,即根据所获得的信息通过数据分析、推理,从而产生合理的决策规则形成有用知识的过程。为了处理智能数据,就需要对知识进行符号表示。知识表达系统就是研究将对象的知识通过指定的对象的基本特征和特征值来描述,以便通过一定的方法从大量浩如烟海的数据中发现有用的知识或决策规则。粗集理论(RoughSet)作为智能信息处理技术的一个新成果,是由波兰科学家Z.Pawlak教授提出来的对不完整数据进行分析、推理、学习、发现的新方法。根据粗集理论的方法,知识推理就是给定知识表达系统的条件属性和结果(决策)属性,求出所有符合该知识的最小决策算法。这里以EDUDSS为例讨论如何利用粗集理论从现有小学布局数据中发现适合当地实际情况的决策规则,并用于小学布局的决策。
二粗集理论的基本概念。
粗集理论是基于一个机构关于一些现实和它分辨某些特点、过程、对象等的能力的知识,该理论以观察和测量所得的数据进行分类的能力为基础,它认为知识是基于对对象分类的能力,知识直接与真实或抽象世界有关的不同分类模式联系在一起,这里称之为论域U(Universe)。
假定给定一个感兴趣的对象的论域U,对于任何子集可称为U中的概念或范畴,并且U中的任何概念族称为关于U的知识。这些概念也构成了特定论域U的分类。一个U上的分类族定义为一个U上的知识库,这样,知识库表达了一个或一组智能机构的各种基本分类方式。通常情况下,用等价关系来代替分类的概念。
令,且R为一等价关系,当X为某些R基本范畴的并时,称X是R可定义的,否则X为R不可定义的。R可定义集是论域的子集,它可在知识库K中被精确定义,而R不可定义集不能在这个知识库中被定义。R可定义集称为R精确集,而R的不可定义集称为R粗集。粗集可以近似地定义,为达到这个目的,使用两个精确集(粗集的上近似和下近似)和边界来描述。
X关于R的下近似
X关于R的上近似
X关于R的边界
posR(X)=R_(X)称为X的R正域,把negR(X)=U-R_(X)称为X的R负域。简单地说,正域posR(X)或X的下近似就是那些对于知识R能完全确定地归入集合X的对象的集合。类似地,负域negR(X)是那些对于知识R不属于集合X的元素的集合,它们是X的补集。边界域是从某种意义上论域的不确定域,对于知识R属于边界域的对象不能确定地划分是属于X或-X。X的上近似是由那些对于知识R不能排除它们属于X的可能性的对象构成,从形式上,上近似就是正域和边界域的并集。
三知识的表示及基于粗集的知识推理及化简
知识的表示、简化及核
知识表示可通过知识表达系统来完成,知识表达系统的基本成分是被研究对象的集合,关于这些对象的知识是通过指定对象的属性和它们的属性值来描述的。
一个数据表知识表达系统S可表示为S=<U,C,D,V,F>
其中:U表示论域;
C∪D=A是属性集合,子集C和D分别称为条件属性和结果(决策)属性;
V=Vα1×Vα2×Vα3×…Vαn表示属性A的值域,Vα表示原子属性α的值域;
F:U×A→V表示从V×A到V的信息映射,定义Fα:U→Vα。
设属性集合
定义映射FB:U→VB表示关于属性B的属性值。
论域U关于条件属性C上的R的商集,记为U/RC;
论域U关于决策属性D上的R的商集,记为U/RD;
定义U/RB中的等价类为事件,则U/RC为条件事件,U/RD为决策事件。
则决策事件关于条件属性的上近似为
则决策事件关于条件属性的下近似为
设有两集合族G、R,其中r是R中的某一等价关系,如pos(R-{r})(G)=posR(G),则称r是关于G可省略的,否则为G不可省略的。
如R中的任意元素是不可省略的,称R是独立的。设,H是独立的,若posH(G)=posR(G),则称H为R的G简化(Reduction),从定义可知,G关于H和R的下近似是相同的,即维持了与R相同的分类能力。R中所有不可省略关系的交集,称为R的核(Core),记为core(R),即core(R)=∩red(R).核中的属性是影响分类的重要属性。
事件依赖性的度量
Ci为U/RC中的条件事件,Dj为U/RD中决策事件,设决策事件依赖于条件事件的程度为映射CFij:Ci→Dj,且CFij=card(Ci∩Dj)/card(Ci)
如条件事件Cj属于或包含于决策事件Dj的下近似C_(Dj)时,CFij=1;
如条件事件Cj属于或包含于时,CFij=0。
基于粗集的知识推理
根据前面的介绍,知识表达系统将论域描述为一个二维表格,每一行描述一个对象,每一列描述一个属性,属性分别为条件属性和决策属性。知识推理的过程,首先要进行条件属性的化间,消去重复行,然后对每一决策规则进行冗余属性的简化。一般情况下,一个知识表达系统的简化不止一种,这些简化都维持了与原有条件属性相同的分类能力,因此要得到使用意义上的最小决策规则就要合理地选择有效属性来正确或近似地表征研究的论域。
普通情况下,决策者会拥有对各条件对象的属性权重的先验知识,权重用来衡量属性的相对重要性。在不同的决策环境下,相同的属性对决策输出会有不同的影响,即权重对环境敏感。粗集理论中的属性依赖度即表达了在当前的数据环境下属性对决策规则的影响,但它不能反映决策者的先验知识,因此,将二者结合作为选择有效属性的准则不失为一种合理的解决方案。
具体实现步骤如下:
Step1:提出论域中各条件属性和决策属性组成二维数据视图即决策规则表;
Step2:确定数据分类标准,将各属性值以标准化方式表达,消去冗余属性;
如果该知识表达系统的决策规则不相容,则可将它分为两个子表,一个表为相容决策表;另一个表为不相容决策表.不相容决策表是由当前信息不能被推理的知识,所以只处理相容决策表。
Step3:计算各属性在当前数据信息环境下的重要性,及属性的依赖度;
对于每一子属性的依赖度,可由前面定义的决策条件事件依赖度取得。
当然,也可以考察posB-{a}(C)与posB(C)之商的形式来表达属性a的重要性。
Step4:依赖度为0的属性表示去掉该属性时,分类U/C的正域不受影响,因此,根据先验权重的排序,消去依赖度为0的且先验权重最小属性;
Step5:计算每一决策规则的核和可能的简化;
Step6:根据一定规则选择有效决策规则的属性简化表,取得最简规则;
在实际系统中,每一规则可能都会有几种简化形式,它们的组合可能会是一个很大的规则集合,对于这样庞大的解集,在实际系统种使用起来非常麻烦,除非是针对特定案例进行决策。因此,须考虑选择最有效的属性子集来进行简正确或化近似地表达该论域。从实践经验中可知,人们在现实中考察一个对象时,往往最愿意取得的属性是根据先验知识认为的权重最大的属性,所以,应从各规则的简化规则中尽可能选择包含的权重较大的属性的简化来表征该论域的决策规则。这里给出这样一种实用有效的求解办法:
设化简后的决策表属性集为{a1,a2,…,am},它们先验权重为p(a1),p(a2),…p(am)
规则i有k种可能的简化形式,定义每种简化形式的权重为
其中如果简化形式中aj为指定值,则O(aj)=1,aj为非指定值则O(aj)=0。取每种权重最大的简化形式组合得到实用有效的简化决策规则集。
四.EDUDSS中农村小学布局知识推理
农村小学的布局问题是涉及教育办学方针和本地实际情况,决策者需要根据现有的信息,通过数据分析、推理、从而产生合理的决策方案。因此我们开发的EDUDSS软件中,采用了以粗集为主的方法作为知识推理的手段。
下面以一个简化的例子讨论如何用粗集方法对小学布局数据视图的化简,从而得出当地小学布局的最小决策算法,用于考察该地其他学校的布局合理性。
根据专家确定的分类标准,将某一地区的六班型小学主要考察指标按下述分类方法标准化,消去重复项,得表1.
平均班额:0:[0,25),1:[25,35),2:[35,55),3:[55,∞);
生师比:0:[0,15),1:[15,25],2:[25,∞);
平均就学距离:0:[0,1.5],1:[1.5,3],2:[3.5,∞];
覆盖人口:0:[0,500],1:[500,1500],2:[1500,∞];
学校U
平均班额a
生师比b
平均就学距离c
学校覆盖人口d
学校分类e
1
0
0
0
2
-
2
0
1
1
1
-
3
1
0
1
1
-
4
1
1
1
1
+
5
1
2
2
0
-
6
2
1
0
2
-
7
2
1
1
1
+
8
3
1
0
2
+
9
3
2
1
1
-
10
3
0
0
2
-
表1
根据决策者和专家先验知识,得到各属性权重如下:a=0.35,b=0.3,c=0.2,d=0.15
下面逐一考察各属性得依赖度,看其是否可省略;
命C={a,b,c,d},D={e},得到D对于C的依赖度CF=card(C∩D)/card(C)=1,可见该数据视图是相容的。对于属性a,可得D对于属性a的依赖属性为CFa=card(Ca∩D)/card(Ca)=5/8。同理,可得CFb=1/2,CFc=0,CFd=0,根据各属性的权重信息,可得属性c比属性d在决策中占的权重更大,因此,保留属性c消去属性d。
对消去属性d的数据视图,可发现各项属的依赖度均大于0,因此,各项均不可省略,但是,要得到简化的决策规则,还须去掉每一决策规则中的不必要条件,即求每项规则的核值。
对于决策规则1,有
F={[1]a,[1]b,[1]c}={{1,2},{1,3,10},{1,6,8,10}},即有[1]{a,b,c}={1},
[1]e={1,2,3,5,6,9,10}。为求出规则1的可省略属性和可能简化,下面每次去掉一属性,看其余属性子集的交是否在决策属性子集[1]e之中。
[1]a∩[1]b={1},[1]a∩[1]c={1},[1]b∩[1]c={1,10},于是可得决策规则1的核为空,它有三种简化形式a(1)=0,b(1)=0和b(1)=0,c(1)=0以及a(1)=0,c(1)=0。
同理,可求出其他各条规则的核和可能的简化形式,列于表2和表3
学校U
平均班额a
生师比b
平均就学距离c
学校分类e
1
X
X
X
-
2
0
X
X
-
3
X
0
X
-
4
1
1
X
+
5
X
X
X
-
6
X
X
X
-
7
2
X
X
+
8
X
1
X
+
9
X
X
X
-
10
X
X
X
-
表2
学校U
平均班额a
生师比b
平均就学距离c
学校分类e
1
X
0
0
-
1’
0
X
0
-
1’’
0
0
X
-
2
0
X
1
-
2’
0
1
X
-
3
X
0
1
-
3’
1
0
X
-
4
1
1
X
+
5
X
2
2
-
5’
1
X
2
-
5’’
1
2
X
-
6
X
1
0
-
6’
2
X
0
-
7
2
X
1
+
8
3
1
X
+
9
X
2
1
-
9’
3
X
1
-
9’’
3
2
X
-
10
X
0
0
-
10’
3
X
0
-
10’’
3
0
X
-
表3
由表3可以看到,决策规则4、7和8只有一种形式的化简,决策规则2、3和6有2种形式的化简,而决策规则1、5、9和10有3种形式的化简。这样,该知识表达系统的化简有(1×1×1)×(2×2×2)×(3×3×3×3)=648种解。
根据前面所述的实用有效的原则,可以得到各规则的各可能简化权重最大的分别为1’’、2’、3’、4、5’’、6’、7、8、9’’、10’’于是,可得到该地区小学六班型学校布局的如下简化的实用决策规则:
a0b0∨a0b1∨a1b0∨a1b2∨a2c0∨a3b2∨a3b0→-
a1b1∨a3b1∨a2c1→+
五结束语
本文探讨了智能决策支持系统中通过条件-决策表来表达一个信息系统的知识,在此基础上利用粗集理论结合决策者的先验知识进行分析、推理,得到可能的简化决策规则,然后应用实用有效的原则求得一组合理的决策规则集,从而有效地解决了智能决策支持系统中决策规则的获取问题。
参考文献
Pawlak,Z.RoughSets.InternationalJournalofInformationandComputerScience,1982,11
Pawlak,Z.RoughSets:TheoreticalAspectsofReasoningaboutData.KluwerAcademic,1991.
曾黄麟.粗集理论及其应用.重庆大学出版社,1996
王珏,苗夺谦,周育健.关于RoughSet理论与应用综述.模式识别与人工智能,1996.9.
陈挺.决策分析.科学出版社,1997
Lin,T.Y.,andCercone,N.,Eds.RoughSetsandDataMining.KluwerAcademic.1997.
Mrozek,A.,andPlonka,L.Roughsetsinindustrialapplications.InRoughSetsinKnowledgeDiscovery,Vol.2.L.PolkowskiandA.Skowron,Eds.PhysicaVerlag,1998.
[8]韩祯祥,张琦,文福诠.粗集理论极其应用综述.控制理论与应用,1999,4.
【智能决策支持系统中的知识表示及基于粗集的知识推理】相关文章:
基于物理知识在初中数学教学中渗透的思考08-19
基于GP算法的知识发现系统08-06
基于GP算法的知识发现系统08-06
人工智能在知识付费产业中的应用研究08-19
对联中的文史知识08-13
基于SMBus的智能电池系统08-06
基于新木桶理论的虚拟团队知识共享机制08-07
决策中,品味幸福08-13
粗集方法在KDD系统中的应用与研究08-06