科研绩效评估中的数据挖掘研究

2010-11-27 05:38段秋红何永强
关键词:科研成果科研人员职称

秦 勤,段秋红,何永强

(1.河南工程学院 计算机科学与工程系,河南 郑州 451191;2.河南商业高等专科学校 人事处,河南 郑州 450044)

多年来,高校在科研管理中积累了很多数据,但这些数据是通过统计或排序的数据信息,在高校的科研决策中并没有得到充分利用,几乎是停留在传统的管理水平上.如何充分利用这些数据,为科研管理部门和学校管理者提供决策支持,是当前科研管理领域亟待解决的问题[1].数据挖掘技术能够从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现有用知识,通过客观公正的统计与分析,发现隐藏在数据中的规律,找出隐含的模式,准确掌握未来的动态.因此,可以考虑将数据挖掘技术引入科研管理领域,进行科研绩效评估,从科研绩效评估数据中提取出隐藏在数据之中的有用信息.将关联规则分析法应用于科研绩效评估中,来进一步探讨影响科研绩效的主要因素以及科研绩效与科研人员的教育背景、学历、职称之间的联系,从而合理配置科研团队,引导科研人员更好地开展科研工作,提高科研能力,为科研决策提供依据.

1 科研绩效评估模型

根据绩效评估模型,使用科学的测量和评价方法,是确保量化评价结果准确性的基础.结合多所高校的科研绩效评估实际,通过调研、分析和讨论,确定其主要量化指标为:学术论文、科技奖励、科研成果、专利授权及相关知识产权、学术著作、科研经费与项目、科研交流与活动、人才队伍、科研平台、学科建设和人才培养.

科研人员绩效评估指标可以由多个指标“类”构成,这些“类”又可以分解为若干个“项”,每个“项”还可根据需要进一步细分,如此可层层分解下去.因此,量化评价系统具有不确定多属性评价的一般特点.为了便于分析和描述,本文将这种具有多层次递阶结构的评价框架进一步抽象成一般的多属性量化评价模型,如图1所示.理论上讲,每个属性都可以分解成无限多个层次水平,层次的多少以继续分解不能带来更多的精确性、而分解太少又容易造成评价中的主观性和不精确性为界定原则.在量化评价中,处于同一层次上的属性可以具有不同的重要性[2].

图1 多属性量化评价模型Fig.1 Multi-attribute quantitative evaluation model

以往对科研人员绩效评估的指标都是定性的描述,根据量化评价的特点,为了更好地描述科研成果的定性特征,需要把定性描述转化为定量数据.同时,对于科研成果不能单纯地考虑数量,还要考虑到科研人员在科研成果中的排名.排名顺序对科研人员的绩效评估起着至关重要的作用,为了科学、客观地进行评价,根据科研人员在科研成果中的排名顺序对科研成果实际数量和标准数量进行了换算.

因此,量化模型定义为:

(1)

其中,A为科研人员绩效评估的量化得分,th,sh分别为某科研人员符合量化指标Kij…x的科研活动h中人员数和排序,Kij…x为某科研人员满足量化指标Kij…x的科研成果的实际数量,Wij…x为某科研人员满足量化指标Kij…x的量化指标值.

2 数据准备

2.1 数据选择

数据选择就是确定发现任务的操作对象,根据用户需要,从原始积累的数据库中提取相关数据,进一步形成目标数据.科研绩效评估是根据科研目标和效果,系统地收集信息,对科研过程和结果给予价值判断的过程.科研绩效评估数据的分析与挖掘主要针对科研成果和科研效果展开,再结合人员的档案数据,重点选择科研人员的教育背景、学历、职称等信息,结合科研绩效评估结果进行分析,充分挖掘这些数据中隐含的有用信息,为推进科研团队建设、提高科研能力提供帮助.

2.2 数据预处理

数据预处理是对数据选择所提取的数据进行简单处理,使之符合数据挖掘的要求.数据预处理的主要工作有检查数据拼写错误、去掉数据重复记录、补上数据不完全的记录、推导计算缺失的数据、完成数据类型的转换等.数据预处理主要是研究数据的质量问题,寻找质量符合要求并可进行有效挖掘的数据集,为进一步的分析做准备[3].

当前,数据的质量问题已经成为影响数据挖掘应用的重要因素,由于错误、不完整、冗余、稀疏、与挖掘目标无关联的数据存在,使得数据挖掘结论的可信度大大降低.由于原始数据采集时,工作人员态度不认真或理解有误等因素的影响,常常会产生异常数据,这时就必须对这些异常数据先进行剔除和清洗,否则不能进行数据挖掘,即使是进行挖掘,结论的准确性也会很低,没有太大的应用价值.数据清洗的一个重要任务就是通过清洗脏数据,使数据质量达到可以有效挖掘的要求,根据上面的数据选择,对科研绩效评估数据和科研人员档案数据进行数据完整性、一致性、正确性和与目标关联度等一系列的数据清洗.

3 科研绩效评估数据的数据挖掘

3.1 关联规则分析法

设I={i1,i2,…,im}是m个不同的项目的集合.给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T⊆I, T有唯一的标识符TID.关联规则是形如X⟹Y的蕴含式,其中X⊂I,Y⊂I,X∩Y=Φ,关联规则成立的条件是:

(1)支持度S, 其中D 中至少有S%的事务包含X∪Y, 即Support(X⟹Y)=P(X∪Y);

(2)置信度C,也就是在D所包含X的事务中,至少有C%的事务同时也包含Y.即Confidence(X⟹Y)=P(X|Y)关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足最小支持度Smin和最小置信度Cmin的关联规则[4-5].

3.2 科研绩效评估的关联规则分析

为了说明关联规则的数据挖掘方法在科研绩效评估中的应用,结合实践过程,随机抽取科研人员科研绩效评估表300份,将绩效评估分数和教育背景、学历、职称等信息结合起来,忽略其他信息,通过数据挖掘技术找出绩效评估分数和教育背景、学历、职称之间的关系,部分科研绩效评估信息数据如表1所示.

表1 科研人员档案数据表Tab.1 File data table of researchers

表1中,教育背景、职称和评价结果都属于是类别属性,需进一步化为布尔类型.结合科研绩效评估的实际情况,对教育背景、职称、评价结果的范围作如下限定,职称分为:J1正高,J2副高,J3中级,J4初级;教育背景分为:E1博士,E2硕士,E3学士,E4其他;评定等级分为:Dl优秀,D2良好,D3中等,D4差,转化后部分数据如表2所示.

表2 转化为布尔类型数据Tab.2 Boolean type data

根据关联规则分析科研绩效与教育背景、职称之间的关联关系,评定等级为优秀时,表示科技绩效评估结果好,利用前面的挖掘技术,通过关联规则算法挖掘出科研绩效评估结果为好的科研人员的状态特征.通过搜索原始数据信息,得到评估结果为优的记录共80条,设Smin=4%,Cmin=18%,经过挖掘,可以得到初步的关联规则,如表3所示.

表3 关联规则Tab.3 Association rules

从以上规则可以得出下列评价结果:

(1)拥有博士学位和硕士学位的人员具有丰富的科研经验,评定分数的支持度和可信度较高.加强科研团队建设,应该吸收学位低的人员参与科研活动,丰富他们的科研经验,提高他们的科研能力;

(2)具有高级和副高职称的人员科研经验丰富,评定分数的支持度和可信度较高.培养职称低的人员的科研能力是学校科研队伍建设的重要任务,因为他们是以后科研的主力军.

4 结 语

将数据挖掘应用于科研绩效评估,有助于发现目前通过传统的科研绩效评估所不能获得的有用信息.本文主要针对科研绩效评估数据和科研人员档案数据,研究了科研绩效与科研人员的教育背景、学历、职称等之间的关联性,发现了教育背景和职称是影响科研绩效评估结果的主要因素.

参考文献:

[1] 何永强,米 捷.基于工作流的科技成果统计系统设计[J].河南工程学院学报(自然科学版),2008(4): 55-58.

[2] 贺金凤.质量绩效评价模型与方法研究[D].西安:西北工业大学,2006.

[3] 方耀楣,何万蓬.可拓数据挖掘在高校教学质量评价中的应用[J].数学的实践与认识,2009(4):82-87.

[4] PAOLO G.实用数据挖掘[M].北京:电子工业出版社,2004.

[5] 王长娥.数据挖掘技术在教育中的应用[J]. 科技信息,2007(11):68-69.

猜你喜欢
科研成果科研人员职称
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
科研成果转化
科研人员揭示油桃果实表皮不长毛的奥秘
科研人员破译黑猪肉特征风味物质
六部门:职称评聘向乡村教师倾斜
中国科研成果震撼全球
广东公安科研人员风采
加强医疗科技自主创新和科研成果转化
审批复杂 科研成果落地难
申请科研项目,不应以职称论高下