基于大数据的人才画像技术应用研究

2021-06-24 07:24郭建龙方院生黄钦伟商震雷周青云

微型电脑应用 2021年6期

郭建龙，方院生，黄钦伟，商震雷，周青云

(1. 广东电网有限责任公司培训与评价中心;2. 广东电网有限责任公司电力科学研究院，广东广州 510520；3. 广东电网有限责任公司，广东广州 510520)

0 引言

大数据技术能够令人们更容易采集信息，还可通过数据应用需求，利用数据分析技术为企业提供更多的服务，而人才画像技术为大数据技术的主要应用之一，人才画像技术的目标为从多维度角度建立针对人才的代表性标签属性[1-2]。通过建立标签属性对人才多个角度的特征进行描述。

人才画像技术的发展是在用户画像技术的基础上实现的，传统用户画像技术采用的数据只源于业务系统、事件系统以及关系信息等，有很多种类的信息是缺失的，无法得到准确全面的人才画像[3-4]。在大数据环境下，可采集的数据维度更多，信息更加充分健全，而且随着互联网与物联网的逐渐发展，能够通过各种渠道采集信息，可建立全方位人才画像。本文主要将大数据技术应用于人才画像技术中，根据聚类分析方法和网络爬虫的清洗数据作用，构建人才画像技术应用模型，对企业掌握现阶段领域杰出人才情况具有重要意义。

1 基于大数据的人才画像技术

基于大数据的人才画像技术能够帮助企业发现人才特质和岗位需求间的匹配关系，为人才与企业提供更好的建议。将人才画像数据作为基础，构造动态分层的分段调整体系，改进人才培养目标，发挥真实数据的充分作用，提高人才招聘质量与效果[5]。

1.1 人才画像数据分析依据

人才画像技术的主要依据为二层数据仓储设计，第一层为原始数据采集与预处理，通过人才数据后台、网络访问的方式采集数据并完成汇总，对采集数据进行清洗处理，将冗余数据删除；第二层为分析结果，主要负责对数据集成后的标签进行保存，构建人才画像。其中标签可设计成内容与权重两个部分，对人才提取的标签内容并非一直不发生改变，其权重随时间的改变而改变。利用标签能够对人才提出有针对性的选择方案。

1.2 人才画像数据信息采集与预处理

在大数据环境下，可挖掘的人才数据信息很多，应利用数据分析技术对人才用户特征标识数据进行采集，人才画像主要数据信息标识如图1所示。

图1 人才画像数据信息图

(1) 用户层次。人才用户层次主要有中高端人才、白领人才、蓝领人才和应届毕业生[6-7]。中高端人才想要找到更加广阔的的空间，对薪资有更高的要求；白领人才更加注重用户体验与高效率；蓝领人才对网络的掌握程度较差，流通性相对较高，更加关注信息的及时性。应届毕业生对流通信息的掌握能力尚有很大的提高空间，对信息及时性要求更高[8]。

(2) 地域分布。依据网络人才分布的区域，显示各个年龄段人才用户对全国不同地域的求职需求，并且便于为企业招聘提供准确的信息。

(3) 人才学历。人才学历也就是学历、专业、毕业院校等标签。

(4) 性别。也就是男女性别标签，利用发送电子简历对男女人才对各个职业的偏好性进行判断。

(5) 行为特点。行为特点也就是在招聘网站中人才点击应聘职位的次数标签，可依据人才浏览行为与用户活跃度获取。

(6) 社交网络。社交网络也就是通过注册登录的社交网络以及企业平台标签。

(7) 专业技能。专业技能就是人才在所处领域中可体现自身能力的凭证，包括资格证书、专利等。

采集的数据中有很多冗余、重复和错误数据，为了提高数据的准确性，防止对标签挖掘和决策产生不利影响，应通过数据分析算法对采集的原始数据进行清洗处理，防止冗余标签干扰挖掘操作。

箱形图如图2所示。

图2 箱形图

主要用于对数据分布情况进行统计，用于对数据整体分布状态进行观察[9-10]。通过中位数、上四分位数、下四分位数、上下边界统计量表示数据的分布[11]。经统计，形成箱体图，箱体涵盖了绝大多数正常数据，处于箱体上下边界范围外的即为异常数据。

2 构建人才用户画像

人才画像构建即在有限时间范围内的人才求职行为与内容构建临时人才画像，同时令该人才画像求职行为与内容和描述性标签属性匹配，在有效时间范围内人才求职行为与内容标签属性不匹配的情况下，需在临时人才画像中建立新的标签属性[12]。

2.1 人才画像模型

(1) 数据标准化。构建人才画像应分析不同媒介中资源整合的能力，构造统一标准实现对完整人才画像的构建。

(2) 人才信息整合。对人才资料进行统计分析，提取主要因素，通过数据分析算法清洗处理采集到的原始数据。

通过职位内容和主题的相似度对主题网络爬虫进行设计，通过词语或短语特征词表示主题，内容也可被划分成词语与短语，从而通过向量空间模型对主题与网页进行描述。为了形成描述主题的特征向量，把若干个与主题有关的网页进行关键词提取，则可获取该主题特征向量和向量权重[13-14]。通过向量空间模型，可把内容描述成词频向量，如式(1)。

CTF=(TF1,TF2,…,TFn)

(1)

式中，TFi表示描述第i个内容在网站中的词频。

本文通过余弦间隔对网站的相关度进行衡量，在夹角是0°的情况下，相似度最高，为1，也就是内容和主题最相关。反之，在夹角是90°的情况下，相似度最低，为0，也就是网页内容和主题不相关[15]。相似度计算如式(2)。

(2)

式中，t表示描述体现主题的词语集合；s表示描述主题链接文本集合；ωsk表示描述集合中特征词的关联度;ωtk表示描述集合中特征词针对某主题的关键性，具体计算如式(3)。

(3)

式中，TFtk表示描述主题出现的频率；N表示描述文档集中全部文档数量；nk表示描述出现的文档数量。

通过爬虫对招聘网站进行清洗处理，对内容进行分析，通过式(1)、式(2)求出主题相似度，将得到的结果与既定阈值相比，若相似度超过阈值，则认为内容和主题有关，需进行内容提取。

(3) 标签挖掘。利用部署环境平台对标签进行加工与处理，针对爬取数据完成结构化操作，通过聚类分析方法进行数据挖掘。

聚类分析方法属于数据挖掘，聚类主要是为了在无先验知识的情况下，按照数据相似程度把数据聚类为不同种类，令同一类型的元素尽量类似，而不同种类元素尽量不同，也被称作非监督分类，聚类方法主要有统计学方法与机器学习方法，本节选用K-means算法，该算法是一种典型算法，其聚类目标为在既定分组数k(k≤n)的情况下，利用聚类依据聚类成都将样本点划分为几个簇，在相同簇中，数据相似度很高，但簇间相似度很低。也就是针对簇集合A={A1,A2,…,Ak}，在数值模型中针对下式计算最小值，其中μi用于描述分类Ai的均值，如式(4)。

(4)

详细流程如下。

① 针对采集的n个人才数据对象，将k个对象当成初始聚类中心；

② 按照各聚类对象均值求出各对象和上述中心的不同程度，把上述元素依次划分至差异度最低的簇；

③ 对所有改变了的聚类均值进行重新计算；

④ 重复运行步骤(2)与步骤(3)，直至所有聚类均不出现改变；

⑤ 输出结果。

将人才属性组成记录，得到有n条数据记录的集合(x1,x2,…,xn)，同时所有xi都是d维向量，也就是xi(xi1,xi2,…,xid)，其中xi1—xid代表人才标签。

通过K-means算法对经清洗后的数据进行挖掘，把相同种类的数据集合在一起，对人才标签进行挖掘。至此，人才画像技术应用可视化模型构建完成。

(4) 标签验证。利用实际案例对挖掘标签结果的准确性进行验证，使得与标签相应的处理结果达到预期结果。

2.2 人才画像应用注意事项

(1) 结合业务。在建立人才画像的过程中需考虑实际业务场景或所属领域，防止过于抽象，在相同环境下标签的名称在很大程度上有不同的意义，应分别对待。

(2) 控制粒数。画像粒度并非越细越好，分割标签也并非越多越好，分割的标签数量越多，涵盖的人数越少，描述性能越差，越可能为伪特征。

(3) 动态变化。不可盲目采用人才画像，人才画像绝大多数是静态特征，人才特征也会随时间与空间的改变而发生改变，也有一定的动态人才画像信息，例如人才在招聘网站上的访问路径与时间等。

3 基于大数据的人才画像技术应用算例分析

下面把基于大数据的人才画像技术应用于制造领域杰出人才特征分析中，为制造企业招聘杰出人才提供依据。我国的制造领域一般包括基础的工业部门如机械、建材、轻纺等以及一些新兴的工业部门如航空航天工业、汽车工业等，以我国2017—2018年政府数据网内全部制造企业为数据样本，因部分企业不具有代表性，所以排除3—5线城市制造业；排除第一产业联动制造业；排除无应用价值的国内外合资企业；排除存在股权不稳定等无法正常管理因素的制造业，剩余企业369家，将其按照制造业生产方式分为智能机器人、数控机床与增材制造3种。

现对3种分类制造业样本进行人才数据画像分布情况测试，以图测试本文应用研究实用性。将实验指标设为杰出人才年龄、杰出人才所处机构、杰出人才专利数量、杰出人才地理分布4种。

3.1 杰出人才年龄分布情况

杰出人才年龄分布情况匹配情况如表1所示。

表1 智能制造杰出人才年龄分布

由表1可知，绝大多数制造领域杰出人才年龄处于50—59岁范围内，从智能机器人、数控机床与增材制造三个制造领域杰出人才的年龄组成分析，增材制造领域杰出人才呈中年、青年、老年的年龄梯队，智能机器人与数控机床领域均需补充青年人才。

3.2 杰出人才所处机构分布特征

本节把制造领域人才所处机构划分成高校、研究院、行业协会3类，人才所处机构分布情况如表2所示。

表2 智能制造杰出人才机构分布

由表2可知，在研究的3个领域中，研究型人才的数量最多，主要来源于高校与研究所，一些来源于企业，说明高校与研究所应列为制造企业招聘的重点。

3.3 杰出人才专利数量分布特征

在制造领域杰出人才专利数量分布情况如表3所示。

表3 制造杰出人才专利数量分布

综合看来，高校与研究所人才专利数量相对较多，而协会人才专利数量相对较少，可以认为高校与研究所应列为制造企业招聘的重点。

3.4 杰出人才地理分布特征

此次测试的369家企业人才分布在以下10个省份，智能机器人、数控机床以及增材制造人才在各省的人才数量，如表4—表6所示。

表4 智能机器人杰出人才地区分布

表5 数控机床杰出人才地区分布

表6 增材制造杰出人才地区分布

分析表4可知，智能机器人领域人才大部分分布于北京、陕西与江苏地区；数控机床人才主要分布在北京、辽宁与陕西，北京最多；增材制造人才主要分布在北京、陕西与江苏。综合看来，企业在招聘制造领域人才的过程中，可主要考虑北京、陕西地区。

3.5 标签验证

在经过杰出人才年龄、杰出人才所处机构、杰出人才专利数量、杰出人才地理分布4种实验结果的算例分析后，将得到的分析结果进行证明本文模型的准确性判断即标签验证，如式(5)

(5)

式中，(MF1,MF2,…,MFn)表示分割的标签总数量；K表示标签数据拟合个数。具体验证结果如图3所示。

图3 标签验证结果

由图3可知，本文算例分析的挖掘结果可在最大程度上符合企业要求与社会实际情况，说明本文应用模型可有效挖掘出大数据下的人才画像，是人才画像技术的突出应用。

4 总结

本文进行了基于大数据的人才画像技术应用研究，并将该技术应用于制造领域杰出人才画像构建中，在杰出人才年龄、杰出人才所处机构、杰出人才专利数量和杰出人才地理分布4个方面进行本文模型准确度验证，研究结论为：从整体分析，制造业杰出人才年龄主要在50—59岁范围内，学术型人才相对较多，可重点考虑高校与研究院，从地域的角度分析，主要集中于北京。为了有效发展制造领域，智能机器人企业与数控机床企业应招聘中青年专业杰出人才，增财制造企业应增加有专利技术的杰出人才，经过标签验证后的处理结果说明本文模型人才画像挖掘程度可达到企业要求。

本文的创新主要体现在应用基于大数据的人才画像技术为某个领域与企业提供杰出人才群体特征，便于该领域发展。同时，其设计的网络爬虫具有可迁移性和代表性，说明构建的人才画像应用模型可被应用于各领域中。