基于集值信息系统的改进粗集模型

2010-05-31 03:27李桂秋
中国民航大学学报 2010年6期
关键词:约简粗糙集信息系统

陶 志,李桂秋

(中国民航大学理学院,天津 300300)

基于集值信息系统的改进粗集模型

陶 志,李桂秋

(中国民航大学理学院,天津 300300)

提出了一种新的带有参数的改进容许关系,并讨论了基于该容许关系的粗糙集扩充模型,证明了相关定理。理论分析表明,通过合理设置参数值,可使新扩充模型比以往模型具有更好的分类效果,从而提高了对数据预测、分类的准确度。实例分析进一步验证了改进容许关系及其扩充模型的优越性。

粗糙集;不完备信息系统;集值信息系统;改进容许关系

经典粗糙集理论[1-2]是在20世纪80年代初由波兰数学家Z.Pawlak提出,主要用于研究完备信息系统。而在实际问题中,由于种种原因,某些对象的属性值可能是无法得到的、或是不完整、不精确的,也就是说现实中不完备信息系统是普遍存在的。处理不完备信息系统,目前主要有两类方法:一类是间接处理方法,其特点是通过一定的方法(通常是基于概率统计)把不完备信息系统转化为完备信息系统,即数据补齐;另一类是直接处理方法,其特点是对经典粗糙集理论中的相关概念在不完备信息系统下进行适当扩充[3]。集值粗糙集模型涵盖了以上两类方法的核心思想,用该方法研究不完备信息系统,即是先对未知属性值赋值(在这里认为未知属性值取相应属性值域中的某个子集),把不完备信息系统转化为集值信息系统,然后再将经典粗糙集理论在集值信息系统下进行扩充。

本文列出了已有的几个典型集值信息系统粗集模型,并分析了其优缺点,在此基础上提出一种改进的集值粗糙集模型,该模型中引入了两个参数α和β,实际问题中可通过合理地设置参数值,提高分类精度,克服了上述几个典型集值粗集模型中可能存在的分类过于粗糙和不合理的缺陷,从而使不完备信息系统集值粗集模型能在更广泛的背景下得到应用。

1 基本概念

定义2 称(U,A,F)是集值信息系统,若U={x1,…,xn}为对象集,每个xi(i≤n)称为一个对象;A={a1,…,am}为属性集,每个al(l≤m)称为一个属性;F={fl∶l≤m}为对象属性值映射,其中fl∶U→P0(Vl)(l≤m),Vl是属性al的值域,P0(Vl)表示Vl的非空子集全体[4]。

2 粗糙集模型

设(U,A,F)是一个集值信息系统,任意属性子集B⊆A。

变精度容许关系同样没有考虑两个对象取值明确且相等的属性个数对相似性的影响,这样就容易把两个没有任何相等属性值的对象认为是不可区分的。例如,对象 xi=({1,2},{2,3},{1,2,3},{1,2,3,4,5})与xj=({1,2},{2,3},{1,2,3},{1,2,3,4}),这两个对象没有任何一个取值明确且相等的属性值,而在关系下xi与xj却很可能是相容的,这同样不太符合人在数据处理中的直观感觉。

事实上,两个对象的相似程度既要考虑未知属性对对象之间相似程度的影响,又要考虑两个对象间取值明确且相等的属性占整个属性的比率,这样才能使对象间的分类更趋合理。上述几种关系都没有考虑到取值明确且相等的属性对两对象间相似性的影响,过分看重未知属性的影响,因而会造成分类过于粗糙和不精细。

3 一种改进的集值粗糙集模型

为了全面均衡地考虑已知和未知属性对相似性的影响,克服上述模型的不足,本文提出一种改进的容许关系,改进的容许关系可通过控制参数阈值来调整分类精度。

在实际问题中,可根据需求调整α和β的值,以期得到主、客观一致的结果。

定义4 设(U,A,F)是一个集值信息系统,X⊆U,B⊆A。则X的上、下近似集、正域、负域、边界分别定义为

4 改进集值粗集模型的相关性质

5 实例分析

在表1所示的不完备集值信息系统中,U={x1,x2,…,x10},X={x1,x2,x4,x6,x10},A={a1,a2,a3,a4,a5}。利用本文提出的改进的集值粗糙集模型分析如下。

表1 不完备集值信息系统Tab.1 Incomplete information system of set valued

析结果如下

6 结语

将不完备信息系统转化为集值信息系统,为处理不完备信息系统提供了新的有效方法。本文提出了一种基于改进容许关系的新的集值粗糙集模型,此模型克服了二元关系限制性太强和相容关系太过宽松的缺陷,同时也弥补了变精度容许关系未考虑取值明确且相等属性对相容度影响的不足。依据改进容许关系所得的分类结果更加符合实际情况以及人在数据处理过程中的直观感觉。从文中分析还可以看出,只要合理地设置阈值α和β,新建立的粗集模型比以往各种拓展粗糙集模型分类更趋合理,大幅提高了同类对象间的相似程度和分类精度。下一步工作应该是在本文提出的改进容许关系的基础上,进一步研究不完备系统中属性约简和规则抽取算法,为实际应用系统开发奠定理论基础。

[1]PAWLAK Z.Rough Sets:Theoretical Aspects of Reasoning About Data[M].Boston:Kluwer Academic Publishers,1991.

[2] PAWLAK Z.Rough set theory and its application to data analysis[J].Cybernetics and Systems,1998,29(9):661-668.

[3] 王国胤.Rough集理论在不完备信息系统中的扩充[J].计算机研究与发展,2002,39(10):1238-1243.

[4] 张文修,梁 怡,吴伟志.信息系统与知识发现[M].北京:科学出版社,2003.

[5] 宋笑雪,李鸿儒,张文修.集值信息系统的知识约简与属性特征[J].计算机工程,2006,32(22):26-27,36.

[6] 宋笑雪,解争龙,张文修.集值决策信息系统的知识约简与规则提取[J].计算机科学,2007,34(4):182-184,191.

[7] 陈子春,秦克云.集值信息系统基于变精度相容关系的知识约简[J].计算机工程与应用,2008,44(9):20-23.

Improvement of Rough Set Model Based on Set Valued Information System

TAO Zhi,LI Gui-qiu
(College of Science,CAUC,Tianjin300300,China)

This paper puts forward an improved tolerance relationship which has parameters,discusses the new expanded rough set model based on the relationship,and proves the correlative theorems of the new model.Theoretical analysis shows that the new model,by setting parameters reasonably,has better classification ability than other rough set models.The new model enhances the accuracy of data predication and data classification.The case analysis further validates the advantages of the improved tolerance relationship and the expanded rough set model based on it.

rough set;incomplete information system;set valued information system;improved tolerance relation

TP18

A

1674-5590(2010)06-0045-04

2010-05-12;

2010-07-16

国家自然科学基金委员会与中国民用航空总局联合资助项目(60672178);中国民航大学校级科研项目(2010kys01)

陶 志(1963—),男,辽宁沈阳人,博士,教授,研究方向为复杂系统建模、粗糙集理论及其应用.

(责任编辑:李侃)

猜你喜欢
约简粗糙集信息系统
粗糙集与包络分析下舰船运行数据聚类算法
企业信息系统安全防护
基于Pawlak粗糙集模型的集合运算关系
基于区块链的通航维护信息系统研究
近似边界精度信息熵的属性约简
实值多变量维数约简:综述
信息系统审计中计算机审计的应用
广义分布保持属性约简研究
一种基于粗糙集理论的社交网络潜在路径研究
基于ADC法的指挥信息系统效能评估