基于招聘信息的智慧物流人才需求文本挖掘

2023-06-15 11:11刘彩娜路健封逍遥
无线互联科技 2023年2期
关键词:词库词频分词

刘彩娜 路健 封逍遥

摘要:随着大数据、云计算、人工智能等技术的出现,我国物流产业正向智慧物流转型升级,企业对智慧物流人才的需求大大增加。文章以前程无忧网站上收集的1 685条智慧物流相关招聘信息为数据来源,运用文本挖掘技术,通过词库优化、分词优化、词频统计等方法获取智慧物流人才需求的关键词,并绘制词云图进行可视化展示。对提取的关键词进行分析,进一步从业务知识、信息技术和基本素质等方面总结智慧物流人才需求的详细特征,为智慧物流人才培养提供参考。

关键词:智慧物流;文本挖掘;人才需求

中图分类号:TP3  文献标志码:A

0 引言

随着大数据、云计算、人工智能和物联网的发展,传统物流业不断向智慧物流转型升级,条形码、射频识别技术、传感器、无人技术、全球定位系统等先进的信息技术在物流企业中广泛应用,大大提高了仓储、包装、分拣、装卸、运输以及加工配送等物流各环节的效率[1]。智慧物流为企业带来高效的同时,企业对物流人才的需求也发生变化,智慧物流人才需求越来越多,要求也越来越高,但当前多数高校的物流人才培养目标与社会发展脱节,因此各高校应以物流企业需求为导向来确定人才培养方案,选择有效的人才培养路径[2]。本文对智慧物流相关工作岗位的招聘信息进行了挖掘,并提取招聘信息里词频较高的知识和技能,以便为高校智慧物流人才的培养、课程的设置提供建议。

1 智慧物流招聘信息采集

1.1 选择招聘数据源

本文采集的数据源自2021年10月到2021年11月的前程无忧网站中关于智慧物流相关行业的招聘信息。前程无忧招聘网站发布的招聘信息主要包括两个部分,第一部分是企业相关信息,包括企业的名称、介绍、类型、规模、所属行业等;第二部分是岗位相关信息,包括招聘岗位、薪资、所在地、工作经验、学历、所招人数、福利标签、职位信息、上班地址等。其中职位信息主要描述岗位的主要职责、任职要求等信息,这部分内容是文本分析的重点内容。

1.2 信息采集步骤及规则

本文的数据采集过程分为两步骤,一是使用爬虫工具对前程无忧以“智慧物流”为关键字对全国的数据进行采集;二是对采集到的招聘信息进行筛选、去重等整合处理,剔除部分不良样本和无关样本。

1.3 数据采集结果汇总

从前程无忧招聘网站发布的招聘信息中共采集到1 954条智慧物流相关数据,通过对数据的整合处理,主要包括剔除无效数据、筛选、去重等操作,共保留了1 685条数据,以便进行下一步的数据处理和分析。本文采集到的数据包括的字段为:关键词、城市页码、城市网址、招聘岗位、薪资、所在地、工作经验、学历、所招人数、发布时间、福利标签、职位信息、上班地址、公司、公司介绍链接、公司信息、公司类型、上市公司、公司规模、所属行业、页面网址和采集时间。对于处理好的数据,写入MySQL数据库。

2 智慧物流招聘信息文本挖掘

智慧物流招聘信息文本挖掘主要包括规范语料库和分词挖掘,具体步骤包括:数据预处理,分词词频统计,分词抽取出包含智慧物流的候选词并加入语料集,再次处理招聘信息语料集,优化分词结果,最终生成智慧物流词云图。具体过程如图1所示。

2.1 中文分词

2.1.1 文本预处理

采集到的职位信息的文本格式不符合分词要求,需要的是不含有换行、回车、水平制表符的单行文本,并且此文本还存在网页空格变成乱码的问题,因此需对职位信息进行文本格式化。前面问题的根源在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312,Unicode等并没有这样的字符,因此如果简单地进行编码转换,生成的GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件,就会把问号直接写入。因此使用replaceAll()把这个特殊的空格替换为普通的空格,再用正则表达式去掉所有换行、回车、水平制表符。

2.1.2 基于前缀字典的分词

本文通过调用Java版本的Jieba方法实现中文文本分词,Jieba分词Java版本有两种模式精确模式(Search)和全模式(Index),本文主要使用精确模式。

Jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式[3]。Jieba词库自带包含349 045条词汇的词典,可以实现中文文本的基本分词。本文采集的文本是智慧物流岗位的职位信息,其中包含了大量的专业词汇。例如,“智慧物流”一词在分词模块会将其分为“智慧”和“物流”,这改变了文本原本想要表达的意思。为了这一问题,本文在使用Jieba库时选择添加包含40 760条词汇的自定义词典。根据本文采集数据的特点,分别添加搜狗细胞词库中ERP软件、阿里巴巴产品词汇-交通运输、常用计算机技术词库、高校专业、计算机专业词库、物流货运专业术语、物流词汇大全等词库,有效地提高了招聘文本分词的精确度。

2.2 去停用词

分词完毕后统计词频时与期望值不符,由于高频词汇常常是“的”“和”等一些没有实际意义的词,蕴含有价值的信息非常少,而且分词之后含有大量的标点符号,使得文本的维度增多,因此需要将这类词剔除[4]。对于停用词的选择,本文选择的是Jieba自带的停词表,经过分词与停用词后,发现仍然包含一些高频出现但是很少体现招聘信息语境的詞语,比如每条招聘信息都包含“工作内容”“微信分享”,因此根据文本自身情况扩充了一些停用词。并且还发现剔除停用词之后缺少例如“c”和“R”与编程语言相关的单字英文词,因此对算法进行优化防止剔除与智慧物流相关的词汇。经过分词、去停用词处理后的文本语料去除文本中的助词、连词、特殊字符、标点符号等无意义的词汇及符号,保留下来的词汇能够比较好地传递文本信息中蕴藏的招聘需求。

2.3 分词结果降维

基于上述方法对每条招聘信息进行分词后得到223 844个分词,再经过对分词进行汇总和统计词频后发现仍存在8 589个分词。欲直观了解与智慧物流招聘信息直接相关的信息还是比较困难的,可以使用前期准备的智慧物流自定义词典作为筛选标准,只有自定义词典中存在的分词才会被保留,再次处理后保留了1 158个分词。经过词频排序,排名靠前的词为“负责”“物流”“客户”“能力”“产品”“系统”“供应链”等,观察发现词频较高的大部分为两字词。不能很好地表达具体需求,比如“能力”包括“表达能力”“思维能力”“管理能力”等,不同的能力对应不同的要求,如果片面地要求“能力”不能很好地说明智慧物流具体所需,所以需要进一步优化智慧物流词库。

2.3.1 优化物流词库

首先用SQL查询语句找出分词为两个字的词,为了让招聘信息尽可能分出所有词,避免只按照自定义词典进行分词,所以采用Jieba分词的Index模式对招聘信息重新进行分词。在原招聘信息中含有大量具有实际意义的4字词,如“性格外向”,如果仅以Jieba词库来划分,最终只能得到“性格”和“外向”,通过Index模式进行分词,将所有可以成词的词语切分开。

对分词进行去除停用词,词频统计后。使用SQL的模糊查询语句对出现的两字词进行查询,对查询到的词剔除两字词就得到了包含更具体的“能力”等的词语,如“能力”“学习能力”“抗压能力”“能力强”“表达力”的词频分别为2 167,188,130,106,89。将这些词写入智慧物流自定义词典中,使得词库更加丰富全面,提高分词精度。

2.3.2 优化分词

使用優化后的智慧物流词典以Jieba分词的Search模式重新进行分词,在剔除与智慧物流无关的分词时也使用优化后的词典。在词频统计排序后,使用SQL语句筛选出分词大于两个字的词,为了防止剔除英文分词,只进行筛选中文分词,英文不做处理。最终得到部分分词,如智慧物流、自动化、供应链、客户需求、大客户、JAVA、物流管理、计算机、抗压能力、物流服务 、团队合作精神、销售经理、WMS、供应商、数据分析、智能制造、商务谈判、自动化系统、协作精神、资源整合、数据库等。

3 智慧物流人次需求分析

3.1 智慧物流人次需求关键词提取

选取优化后分词结果中词频最高的前600个关键词,并利用绘图工具绘制词云,如图2所示,图中词的大小表示关键词出现的频次高低。

3.2 智慧物流人次需求分析

根据前文利用分词技术与词频统计,得到的智慧物流领域招聘相关的前600个关键词,经人工筛选可发现关键词主要集中在业务知识、信息技术和基本素质3个方面。

(1)业务知识需求分析。

从词云图可以看出,物流产业本身相关的物流业务知识仍是企业需求的一个重要方向。主要包括立体仓储管理、物流专员、物流服务、配送规划与设计、企业资源规划、供应链管理、销售方案规划等。因此,高校在确定智慧物流人才培养方案的目标时,应包含物流业务方面的内容,在课程体系设置上应包括诸如运输管理、仓储与配送管理、物流系统规划与设计、ERP、供应链管理等专业必修课程。

(2)信息技术需求分析。

智慧物流相关岗位要求的信息技术方面的技能包括数据分析、数据库、自动化系统、软件开发、智能制造、系统集成等,说明企业希望应聘者拥有一定的计算机、人工智能、自动化、软件工程、数学等相关知识背景,具有较强的编程能力,一定的机器学习、深度学习等算法基础。因此,高校在确定智慧物流人才培养方案的目标时,应包含信息技术方面的内容,在课程体系设置上应包括计算机基础、数据库原理、管理信息系统、数据挖掘技术、数据分析等专业必修或选修课程。

(3)基本素质需求分析。

除了物流业务和信息技术上的核心技能外,员工  的基本素质也是企业招聘时非常关注的因素。从词云图中可以看到,学习能力、抗压能力、团队合作精神、表达能力、敬业精神等关键词出现频率较高,说明企业对应聘者的综合素质也有一定的要求。因此,高校在确定智慧物流人才培养方案的目标时,应包含基本素质培养方面的内容,在课程体系设置上应包括思想道德修养、社会调查、ERP沙盘模拟、大学生职业规划、口才与表达等专业基础课程。同时,增加学生竞赛、学生集体活动、社会活动、创新创业活动等第二课堂以锻炼学生的基本素质。

综合上述分析,高校对物流人才的培养应及时做出调整,以企业对物流人才业务知识、信息技术和基本素质的需求为导向,以培养满足智慧物流新要求的物流人才为目标,构建物流业务知识和信息技术知识有效融合的课程体系,搭建“校内实训+校校互通+校企合作”的智慧物流实践平台,提升智慧物流人才实践能力和综合素质。

4 结语

在智慧物流的大背景下,高校应以企业需求为导向,深入剖析物流行业相关岗位需求,获取企业对物流人才的新需求,提出物流人才培养的新标准。本文在深刻理解智慧物流内涵的基础上,探索满足智慧物流需求、助力区域经济发展的物流人才培养新路径,提出将大数据、人工智能、物联网、云计算等元素融入智慧物流人才培养全过程,旨在促进教学与未来职业需求相结合,使学生所学与就业衔接,提升学生的核心竞争力,实现高质量就业。

参考文献

[1]钟茂林,孙君.智慧物流趋势下物流管理人才培养再定位与新路径[J].无锡商业职业技术学院学报,2019(6):84-87.

[2]孙学军,齐俊景,阚曲欣.基于招聘数据挖掘的高职人才培养方案构建研究—以物流类专业为例[J].职教论坛,2019(8):159-164.

[3]张长华.大数据视域下网络招聘数据信息挖掘的研究[J].科学技术创新,2021(10):114-115.

[4]楊静.基于文本挖掘的网络招聘信息分析[D].济南:山东师范大学,2019.

(编辑 沈 强)

Text mining of intelligent logistics talent demand based on recruitment information

Liu  Caina, Lu  Jian*, Feng  Xiaoyao

(Huaxin College,Hebei GEO University, Shijiazhuang 050070, China)

Abstract:  With the emergence of technologies such as big data, cloud computing, artificial intelligence, etc., Chinese logistics industry is transforming and upgrading to intelligent logistics, and enterprises demand for intelligent logistics talents has increased greatly. This paper is based on 1685 intelligent logistics related recruitment information collected from 51job.com, uses text mining technology, obtains the keywords of intelligent logistics talent demand through thesaurus optimization, word segmentation optimization, word frequency statistics and other methods, and draws a word cloud map for visual presentation. The extracted keywords are analyzed, and the detailed characteristics of the demand for intelligent logistics talents are further summarized from the aspects of business knowledge, information technology and basic quality, so as to provide a reference for the cultivation of intelligent logistics talents.

Key words: intelligent logistics; text mining; demand for talent

猜你喜欢
词库词频分词
基于词频分析法的社区公园归属感营建要素研究
分词在英语教学中的妙用
一“吃”多用
词库音系学的几个理论问题刍议
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
论英语不定式和-ing分词的语义传承