基于粗糙集的首台套重大装备信息系统数据挖掘关键技术研究

2014-09-06 00:56朱柏青

机械设计与制造工程 2014年10期

关键词：约简粗糙集数据挖掘

朱柏青，赵红，何非

(1.南京工程学院经济管理学院，江苏南京 211167 )(2.南京理工大学机械工程学院，江苏南京 210094)

基于粗糙集的首台套重大装备信息系统数据挖掘关键技术研究

朱柏青1，赵红2，何非2

(1.南京工程学院经济管理学院，江苏南京 211167 )(2.南京理工大学机械工程学院，江苏南京 210094)

网络化项目信息管理过程中产生大量异构数据，采用传统方式对此类数据集进行分析和处理往往存在特征提取不充分、数据疏漏等问题。面向首台套重大装备信息系统项目管理数据关键技术研究，构建了结构化数据收集和规则的提取方法，并应用粗糙集理论和算法进行数据挖掘分析，提出了若干决策规则，可为项目评价和管理辅助决策提供依据。

粗糙集；数据挖掘；重大装备；信息系统

随着企业网络信息、装备技术的不断发展，现代制造业特别是高端装备制造管理积累了大量的历史数据，这些数据中蕴含着对生产制造和装备管理具有很高价值的知识和信息，同时隐藏着为首台(套)重大装备的认定管理提供决策依据的信息。

各种网络技术的应用使得信息共享成为当前提高工作效率的有效途径，无纸化办公及各种数据、文档的电子化，在方便办公的同时也产生了极其庞大的电子数据，随着时间的推移，数据也不断产生混乱与冗余[1]，想要从中及时找出所需要的各种信息成为一件大费周折的事。而政府部门作为信息的主要掌控者，面临着如何科学有效地处理这样庞大数据的问题。就目前江苏省内首台(套)重大装备申报管理项目的数据而言，由于其管理信息的广泛性、复杂性使得数据具有如下特点：

a.多维性。由于重大装备管理信息是源自江苏省范围内不同区域的装备制造企业的不同年份的数据资源，因此这些数据具有时间和空间属性。

b.数据类型的多样性[2]。随着网络信息技术的不断发展，首台套重大装备申报管理数据也产生了大量不同的数据类型，并进行数字化存储。现有的数据中包含由数字值或字母值的字段组成的表格、单据等结构化数据；由申请报告、Web文档构成的半结构化数据；由多媒体记录的可视化文件，如录像等形成的非结构化数据。这些数据有2种出口，一种是从数据走向数据垃圾；另一种是从数据走向信息并最终形成知识。

c.多源性。现有的数据资源来源不同，有来自之前的历史材料，有手工录入的数据，还有来自各地方经信部门汇总的EXCEL表等，数据获取方式不同，统计方式不同，描述形式不同使得数据之间存在着很多差异。

这些问题的存在，使得在现有数据状况条件下想要及时获取所需信息的难度越来越大。针对以上问题，利用数据挖掘工具，对各种数据进行分析处理，提取用户所需的关键信息。首先搜集数据，对数据进行整合分析处理，然后通过建模挖掘，挖掘出相关的信息，为用户评价项目的决策制定提供辅助支持。使得系统具有良好的决策支持能力，又有良好的交互能力[3]，从而使得重大装备的推广应用与相关决策的制定更为高效。

1 数据挖掘

数据挖掘是一个多阶段递进的、循环往复的、多次进行人机交互的过程[4]。挖掘过程示意图如图1所示。首先在源数据的基础上通过数据采集获得数据集，在一个或多个数据集上进行数据选择实施聚焦，接下来使用特定的算法去除其他不相关数据。为达到减少变量的目的，对有联系和有特征的数据进行编码变换，根据不同的特征选用相应的数据挖掘算法挖掘出潜在的有用信息，通过对挖掘结果的表达和解释转化为人们所需的信息。

图1 数据挖掘过程示意图

1.1数据准备

在数据挖掘的过程中，数据的准备是至关重要的，如果没有恰当地搜集和预处理数据，或者对问题的表述不够清晰明确，则数据挖掘的结果可能是毫无意义的[5]。

a.数据搜集。

数据的搜集会影响到结果的最终解释，因此数据的来源是很关键的。数据挖掘过程中的数据可分为结构化数据、半结构化数据和非结构化数据。通常情况下，数据的产生搜集有两种方式，一种是数据产生过程在计划控制范围内的，即“有计划的实验”，也称作主动搜集；二是数据的产生是随机的，即“观察法”，也称作被动搜集[6]。本文的数据是结构化数据(所谓结构化数据是指由定义明确的包含数字值或者字母数字值字段组成的数据)，且源自于主动搜集。为从大量数据中选定出相关评价指标，并从中发现省内装备制造行业发展情况，需对该行业及企业情况进行了解分析，从而确定出可能具有相关性的信息。表1是根据需要上报于系统中的表单的部分数据项(结构化数据)。

表1 系统表单(部分)

b.数据预处理。

由于实际系统中的数据可能存在不完整、冗余、混乱等问题，在此条件下不能很好地满足数据挖掘的要求，影响数据挖掘的执行效率，因此在进行数据挖掘之前对数据进行预处理已成为基本要求。数据预处理包括数据集成、数据清理、数据转换、数据简化[7]。

(1)数据集成。数据的产生方式不同，且数据由不同的载体存储，有文本、MSExcel电子表格等，需要将这些来自不同数据源的数据集成起来。在本系统中，将所有的数据都集成到MySQL数据库中，利用MySQL对数据进行多角度、多粒度的整合。

(2)数据清理。集成后的数据有许多问题，如有空缺值、错误数据等。因此在进行清理时，将有空缺值的数据分为有多属性空缺和少部分空缺，对于有多属性空缺的值，将其去除，少部分空缺值则采用统一规范标准的数据进行填补。对于明显错误的数据给予剔除或进行改正，如表1中的百分比(R&D占比)只需要填写数据即可，有些用户在书写时会添加单位；又如利润总额(万元)23 500，某些用户会写成23 500万美元，还有用户会填写-23500或235,00，诸如此类的问题需要按要求进行统一化处理。

(3)数据转换。数据表中可能会出现表示的内容相同命名却不同的字段，如所属行业领域、所属细分行业这2个名称均为同一内容，表述方式的不同可能导致数据冗余，对此需要了解挖掘的数据类型及相关含义，从而对数据进行转换减少冗余。

(4)数据简化与离散化。识别数据库中重复的数据，利用MySQL数据库中检测重复数据技术将重复的数据予以剔除，同时数据库中的数据多为连续型数据，需要按一定的阈值进行数据离散化(见表2信息表属性说明)。

1.2数据挖掘

1.2.1粗糙集相关定义

定义1 令X⊆U，定义K=为一信息系统，其中：U为论域，是对象的有限集合，U={x1,x2,…,xn}；A为属性的全体，A={a1,a2,…,an}；V为属性的值域，V={v1,v2,…,vn}；f为信息函数;属性A=C∪D，C为条件属性集，D为决策属性集。

定义2 对X⊆U，U为论域，R为U上的等价关系，有序对A=(U，R)称为一个近似空间，若P是R的子集，且P≠Ø,则∩P为P中全部等价关系的交集也是一个等价关系，并且称为P上的一个不可区分关系，记为Ind(P)[8]。

定义3 定义信息决策表为T=，其中U={x1,x2,…,xn}，C={c1,c2,…,cm},D={d},则决策表可构造如下对应的可辨识矩阵ST：矩阵ST的每一列分别对应一个属性，共有y列，每一行与论域中的一个对象对(xp，xq)对应，且d{xp}≠d{xq}，即xp，xq属于不同的决策类。设矩阵中某一元素y((p,q)1)所在的行对应对象对(xp，xq)，所在列对应条件属性ci，则

定义4 定义T=为一个决策系统，其中C的约简集C′是一非空子集，如果：

Ind(C′,D)=Ind(C,D)

不存在C″⊂C′,使得Ind(C″,D)=Ind(C,D)。C的约简记为RedT(C)；所有约简集的交集称为核，记为CoreT(C)。CoreT(C)=∩RedT(C)。

1.2.2决策表的建立

本实例算法程序采用Java语言编程，使用Eclipse编程平台，运行环境为jre1.7.0,使用tomcat7.0作为运行服务器，系统环境为Windows Server 2008。测试机硬件环境配置：硬盘1TB，内存2GB。本实验数据来源于江苏省首台套重大装备及关键部件跟踪应用推广系统。

系统中决策表的建立是基于评价体系基础上的，列出所有的条件项，得到初步的判定表，进而对判定表进行化简和属性简约，以提高计算效率。根据现有数据建立决策表S=。以2010年的数据为例，建立相关决策信息表并对属性进行说明，令论域U={x1,x2,…,x10},表示10个不同的对象；C={c1，c2，c3,…,c16}，16个属性分别表示与首台套相关的专利数量、发明专利数、实用新型专利数、上年度销售收入、出口总额、利润率、负债率、技术开发费/销售收入、研发及产业化投入、申报装备市场占有率、申报装备销售单价、平均年销售量(台/套)、累计实现销售收入、预期3年经济效益、(同一年度)该设备销售量/该地区该类产品总销售量、专家意见，见表2，由此建立决策属性表见表3。

表2 信息表属性说明

表3 信息表

1.2.3属性约简

在经过数据准备过程，对数据进行预处理后，本文在数据挖掘过程中运用粗糙集理论对数据进行属性约简，粗糙集中属性约简可分为属性约简和属性值约简，在属性约简时，人们总希望找到属性的最小约简，但这是个NP难题，粗糙集的属性约简提供了分辨矩阵，只需要找到较优解即可[9]。利用数据挖掘理论对数据样本进行约简，减少数据量，从而得到属性约简。属性值简约是针对每条决策规则，去掉表达规则的冗余值，进而使决策算法最小化。算法如下：

Step1,搜集相关数据形成相应的决策信息系统。

Step2,根据相关定义计算分辨矩阵。

Step3,由上步分辨矩阵得出相应的核属性，并将所有符合核属性的元素归为0。

Step4,对于所有为非0和1的元素，计算其出现的频率，将其归到CoreS(C)中，并将包含此属性的元素归为0。

Step5,CoreS(C)即为核心属性。

根据上节分辨矩阵指标约简过程，经相关计算可得到T的分辨矩阵，由分辨矩阵可得系统的核属性。约简后的信息表中CoreS={c2,c4,c5,c6,c7,c10,c11,c12,c16}，即发明专利数、出口总额、利润率、负债率、销售收入、市场占有率、销售单价、年均销售量、专家意见，见表4。

1.2.4规则提取

根据约简后的信息表，就可以进行决策规则提取，由以上基于粗糙集的算法得到规则，可表达为：

规则1，企业经营状况正常的情况下(负债率低于70%)，企业销售收入大于2亿元，具有一定的技术研发投入，利润率高于10%，且产品有出口，有3个以上首台套相关发明专利，且同一年度该设备在本地区销量比重大于10%，且专家意见为优秀，即说明该产品技术创新程度较高，具有一定的市场竞争力。评价决策：接受。

表4 约简后的信息表

规则2，企业经营状况正常的情况下(负债率低于70%)，企业销售收入大于2亿元，具有一定的技术研发投入，利润率高于10%，无出口，有1个以上首台套相关发明专利，且同一年度该设备在本地区销量比重处于6%～10%，且专家意见为优秀，即说明该产品在该领域具有一定的创新性，且占有一定的市场份额。评价决策：接受。

规则3，企业经营状况正常的情况下(负债率低于70%)，销售收入在100万元～500万元之间，具有一定的技术研发投入，有2个以上首台套相关发明专利，产品有出口，在国内外市场占有一定份额，专家意见为良好。评价决策：待定。

规则4，企业负债率大于70%，无发明专利，利润率均处于5%～10%，产品销售单价高于100万，说明企业经营不善，且利润率不高，产品技术创新一般。评价决策：拒绝。

规则5，企业经营状况正常的情况下(负债率低于70%)，利润率低于10%，有发明专利，说明此产品只能属于高新设备，并不能算是高端装备。评价决策：待定。

规则6，企业经营状况正常的情况下(负债率低于70%)，利润率高于10%，有发明专利，产品年均销售量低于50台/套，有产品出口，专家认定意见为良好，说明产品具备高端装备条件，但是产品市场容量不足。评价决策：接受。

规则7，企业经营状况正常的情况下(负债率低于70%)，无发明专利，产品无出口，利润率较低，专家评定意见为一般，说明产品不符合首台套标准。评价决策：拒绝。

2 结束语

本文介绍了基于数据挖掘的信息系统关键技术及其数据挖掘算法，并以粗糙集理论为基础，以省内装备制造业相关信息为基础数据进行数据挖掘，从而得出相关决策规则，为相关评定推广工作提供决策依据。

[1] 王晓海，吴志刚. 数据挖掘：概念、模型、方法和计算[M].北京：清华大学出版社,2013.

[2] 杨霞.基于粗糙集的数据挖掘的应用研究[J] .乐山师范学院学报，2007(12)：67-69.

[3] 张文超.基于数据挖掘的高校学科建设支持系统研究与实现[D].北京：北京工业大学,2013.

[4] 易俊宏.基于数据挖掘的湖南省政府债务风险预警研究[D].长沙：湖南大学，2012.

[5] 李璠.银行数据挖掘的运用及效用研究[D].武汉：武汉大学，2012.

[6] 马跃峰，赵予. 一种基于粗糙集理论的数据挖掘算法的研究[J].洛阳大学学报，2006(2)：56-60.

[7] 印勇. 粗糙集理论在其数据挖掘中的应用[J].重庆大学学报，2004(2)：44-46.

[8] 梁循.数据挖掘：建模、算法、应用和系统[J].计算机技术与发展，2006(1)：1-4.

[9] 张震，刘芬.基于数据挖掘的金融决策支持系统[J].技术应用，2008(6)：66-68.

Themajorequipmentinformationsystembasedonroughsetsandkeytechniquesofdatamining

ZHU Baiqing1, ZHAO Hong2, HE Fei2

(1.Nanjing Institute of Technology, Jiangsu Nanjing, 211167, China)(2.Nanjing University of Science & Technology, Jiangsu Nanjing, 210094, China)

Network project information management process produces a large number of heterogeneous data, the traditional way for such data analysis and processing exist such problems as inadequate feature extraction, data breach. Based on key techniques of information system project management data, it presents more data collection and feature extraction method, applies rough set theory and algorithms for data mining analysis, puts forward some decision rules. This provides the basis for project evaluation and auxiliary decision-making management.

rough set; data mining; major equipment; information system

10.3969/j.issn.2095-509X.2014.10.012

2014-09-13

2013年度江苏省首台套重大装备课题研究计划( ZB20130920)

朱柏青(1963—)，女，湖北荆州人，南京工程学院副教授，主要研究方向为制造业信息化。

TP311

2095-509X(2014)10-0054-05