Apriopri算法在网上招聘系统中的应用

2012-01-24 12:25陈君
电子设计工程 2012年24期
关键词:项集求职者数据挖掘

陈君

(渭南师范学院 数学与信息科学学院,陕西 渭南 714000)

目前网上招聘已进入高速发展阶段,网上招聘系统也日趋完善,网上招聘系统为用人单位提供优质人才,为应聘者提供合适职位,已成为当今社会招聘的主要形式之一。因此对网上招聘系统的研究与分析就显得尤为重要。

以往,对网上招聘系统的研究与分析,更多地借助于传统的分析方法,文中通过引入数据挖掘中的Apriori算法来挖掘其中的关联规则。网上招聘系统的数据分析是通过对计算机中所存储的应聘者发布的个人简历中的信息,利用关联规则算法,进行分析、对比,从中发现求职者的被录用规律。例如:国有企业更多的选择了学习那些专业的求职者,而独资企业与三资企业又选择了学习那些专业的求职者;那些公司或者职位会优先考虑有那些固定特长的求职者;有工作经验的求职者更容易被优先录取;学习那些专业的求职者更容易找工作等。

1 数据挖掘技术

1.1 数据挖掘概述

数据挖掘[1-2](Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、却又潜在有用的信息和知识的过程。数据挖掘涉到的领域广、学科多。引起不同领域的关注,例如数据库技术、可视化技术、人工智能技术、数理统计、并行计算等方面。数据挖掘流程图如图1所示。

图1 数据挖掘流程图Fig.1 Flow chart of data mining

1.2 数据挖掘方法

数据挖掘是将数据库技术、统计学、机器学习、模式识别等领域有效结合起来,发觉数据中的内在模式。数据挖掘的方法主要有以下几种:统计分析方法(Analytic Method)、关联规则 (Association rules)[3]、 联机分析处理 (OLAP-On Line Analysis人工神经网络 (Neural Network)、 决策树(Decision Tree)遗传算法(Genetic Algorithms)[4]、近邻算法(K-nearest)、Processing)、数据可视化(Data Visualization)[5]、粗糙集(RSTRough Set Theory)[6]。

2 Apriori算法

Aprior算法[7]是Agrawal等人于1994年提出的一种挖掘顾客交易数据库中项集间的关联规则的方法,核心是基于两阶段频繁项目集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。所有支持度大于最小支持度的项集称为频繁项目集,简称频集。

2.1 算法的基本思想

Apriori算法主要分2步:1)找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样;2)由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。

2.2 Apriori核心算法分析

为了生成所有频集,使用递推方法如下所示:1)L1={large 1-itemsets};

2)for(k=2;Lk-1¹;F;k++)do begin

3)Ck=apriori-gen(Lk-1);//新的候选集

4)for all transactions tÎ;D do begin

5)Ct=subset(Ck,t);//事务 t中包含的候选集

6)for all candidates cÎ;Ct do

7)c.count++;

8)end

9)Lk={cÎ;Ck|c.count³;minsup}

10)end

11)Answer=Ck∪Lk;

首先产生频繁1-项集L1,接着产生频繁2-项集L2,直到产生一个频繁r-项集Lr使得Lr为空,算法停止。在第k次循环中,先产生候选k-项集的集合Ck,Ck中的每一个项集是对2个只有一个项不同且属于Lk-1的频集做(k-2)-连接所产生的。Ck中的项集用来产生频集的候选集,最后一个频集Lk必须是Ck的子集。Ck中的每一个元素都必须在交易数据库中进行验证从而决定其是否加入Lk[8-9]。

3 网上招聘系统原型

3.1 网上招聘系统模块

3.1.1 企业信息模块

主要包括企业名称、企业性质、企业人数、企业类型、企业地址等。

3.1.2 招聘信息模块

主要包括招聘企业对求职者学历、性别、职位类型、工作经验、外语等级及语种等要求。

3.1.3 求职者信息模块

主要包括姓名、学历、专业、年龄、工作经验、薪金要求等。

3.1.4 应聘信息模块

记录求职者对招聘企业发布的求职信息或招聘企业对求职者发出的招聘信息。

3.1.5 数据挖掘模块

对招聘企业的招聘过程进行挖掘,得出相关挖掘结论。

3.2 系统设计

文中的系统采用三层架构B/S模式,第一层为表示层,招聘企业进行注册同时发布招聘信息和浏览求职者信息,求职者进行注册可浏览招聘企业发布的信息,同时发布求职信息。第二层为业务逻辑层,实现的业务处理包括企业信息模块,招聘信息模块,求职者信息模块,应聘信息模块,数据挖掘模块。第三层为数据层包括数仓库和存储过程,数据库系统存储业务逻辑层处理的各种数据并对业务逻辑层进行通讯、传递信息和数据。

3.3 挖掘模块具体实现

3.3.1 数据净化

对企业的招聘信息数据进行处理,企业的招聘信息主要包括企业性质、企业人数、企业类型、性别要求、工作经验、学历、外语语种,外语等级、专兼职、职位类型、职位种类等。表1给出了其中一条用户的记录。

表1 字段名含义Tab.1 Meaning of fields name

3.3.2 数据清理

数据清理主要包括对脏的、不完整的、不一致的和无用的记录进行剔除,并将处理后的数据保存在数据表中。

用户识别和数据集成

表2为关系数据库属性值与事务数据集中的项目对应关系,表3为将其进行数据转换后的事务数据。

表2 关系数据库属性值与事务数据集中的项目对应关系Tab.2 The relationship betweent the relational database attribute value and transaction data centralized project

表3 转换后的事务数据Tab.3 The converted transaction data

3.3.3 利用Apriori算法进行数据挖掘

利用Apriori算法对网上招聘系统中的数据进行挖掘,数据的输入为“事务数据”数据表及最小支持度;输出为频繁项集,即“频繁项集”数据表。

3.3.4 模式分析

利用Apriori挖掘算法找出招聘公司和求职者感兴趣的模式和规则。关联规则挖掘的任务为给定一个事物数据库D求出所有满足最小支持度和最小置信度的关联规则。设定最小支持度为δ=5%,最小置信度为γ=20%。挖掘结果如表4所示。

表4 数据挖掘结果Tab.4 Results of data m ining

从表4的规则A中可得出:国有企业所录用的求职者中,具有大学本科学历的较多;从规则B与C中可得出:独资企业和三资企业所录用的求职者中,大专学历的应聘者被录用的人数较多;从规则D可得出:有2~5年工作经验的求职者被录取的几率更大;从规则E可得出:具有英语特长的求职者更加受到招聘企业的青睐;从规则F可得出:招聘市场销售人员的企业较多;从规则G与F可得出:应聘者中本科学历的求职者比专科学历的求职者更容易被录用。

4 结束语

数据挖掘技术是一门具有广阔前景的数据处理与分析技术,它可以应用于各种行业之中,也将会在网上招聘系统中发挥不可估量的作用。文中利用Apriori算法对网上招聘系统中的数据进行挖掘分析,从中发现用人单位的录用规律为求职者及有关部门提供有价值的信息。

[1]HAN Jia-wei,Kamber M.数据挖掘概念与技术 [M].范明,孟小峰,译.北京:机械工业出版社,2001.

[2]范波.数据挖掘技术在电力数据集成应用的研究[J].陕西电力,2010(9):47-49.FAN Bo.Application of data mining technology in data integration of power system[J].Shaanxi Electric Power,2010(9):47-49.

[3]赵卫绩,赵文正,刘井莲.基于SQL的Apriori改进算法[J].科学技术与工程,2006,96(17):2759-2761.ZHAO Wei-ji,ZHAO Wen-zheng,LIU Jing-lian.An improved apriori algorithm based on SQL[J].Science Technology and Engineering,2006,96(17):2759-2761.

[4]吉根林,杨明,宋余庆,等.最大频繁项目集的快速更新[J].计算机学报,2005,1(1):128-135.JI Gen-lin,YANG Ming,SONG Yu-qing,et al.Fast updating maximum frequent itemsets[J].Chinese Journal of Computers,2005,1(1):128-135.

[5]刘大有,刘亚波,尹治东.关联规则最大频繁项目集的快速发现算法[J].吉林大学学报,2004(4):212-215.LIU Da-you,LIU Ya-bo,YIN Zhi-dong.Fast algorithm for discovering maximum frequent itemsets of association rules[J].Acta Scientiarium Naturalium Universitatis Jilinensis,2004(4):212-215.

[6]林杰斌,刘明德,陈湘.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003.

[7]桂海霞,孟祥瑞.一种基于Apriori的高效关联规则挖掘算法的研究 [J].安徽理工大学学报:自然科学版,2009(4):55-58.GUI Hai-xia,MENG Xiang-rui.Research on efficient algorithm of association rules mining based on apriori algorithm [J].Journal of Anhui University of Science and Technology:Natural Science Edition,2009(4):55-58.

[8]庹文利,姚勇.基于FP_tree的最大频繁项目集增量式更新算法[J].计算机工程与应用,2009,45(19):117-119.TUO Wen-li,YAO Yong.Incremental updating algorithm of maximum frequent itemsets based on FP_tree[J].Computer Engineering and Applications,2009,45(19):117-119.

[9]何志勇,赵瑞国,袁军社.传感器数据库管理系统设计[J].火箭推进,2010(6):62-67.HE Zhi-yong,ZHAO Rui-guo,YUAN Jun-she.Design of database management system for transducer[J].Journal of Rocket Propulsion,2010(6):62-67.

猜你喜欢
项集求职者数据挖掘
起初为娱乐,现在做招聘:直播帮中国求职者找工作
探讨人工智能与数据挖掘发展趋势
不确定数据的约束频繁闭项集挖掘算法
加纳移民局招聘:有妊娠纹不行
民生表情
基于并行计算的大数据挖掘在电网中的应用
面试中的12个禁忌
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*