基于市场需求的BIM职位文本挖掘

2020-04-20 11:31郭蓓蓓
价值工程 2020年7期
关键词:市场需求

郭蓓蓓

摘要:在大数据环境下,采用网络爬虫技术从招聘类网站获取近期发布的10512条BIM职位的招聘广告,运用文本挖掘的方法,通过建立LDA模型,对BIM职位的市场需求特征进行分析研究;同时收集5461篇BIM有关的期刊论文进行研究结果验证,共得出12类基于市场需求的BIM职位能力类型。研究获得的结论可以为BIM职位求职者能力匹配、企业制定招聘和培训和大学开发与BIM相关的课程提供一定参考。

Abstract: In the big data environment, the web crawler technology was used to obtain the recruitment advertisements of the 10,512 BIM positions recently released from the recruitment website. Using the text mining method, the LDA model was established to analyze the market demand characteristics of BIM positions. A total of 5,461 BIM-related journal articles were collected to verify the results of the research, and a total of 12 types of BIM positions based on market demand were obtained. The conclusions of the study can provide a reference for BIM job seeker competency matching, corporate development recruitment and training, and university development and BIM-related courses.

关键词:BIM职位;市场需求;LDA模型

0  引言

BIM技术作为一种多维信息模型集成技术,在我国建筑行业提高建造效率、提升建筑质量等方面起着重要的推动作用。我国住建部印发的《2016-2020年建筑业信息化发展纲要》中将BIM视为十三五期间建筑业重点推广的信息技术之首,并明确指出要加快BIM的普及应用,着重增强BIM的集成应用能力,BIM在建筑行业内越来越受到重视[1]。此外,根据BIM中国网的统计,BIM行业的发展趋势一直呈上升状态,通过对近年来我国的建筑业信息化率、BIM项目比率等进行分析,预测到2023年我国BIM市场规模将会达到22.81亿元,可见BIM的行业前景十分广阔[2]。根据Transparency Market Research(透明度市场研究)的报告—《2015-2022年BIM全球市场分析,规模,信息,增长,趋势以及预测》,2014年全球BIM软件的市场价值27.6亿美元, 到2022年,预计将到达115.4亿美元,复合年增长率将保持在19.1%。文献调查报告显示,在未来两年30%以上的项目中应用BIM技术的施工企业增长预测中,中国施工企业高达108%[3]。BIM市场的快速增长,导致市场对BIM人才的需求也变得更加迫切,但BIM人才对市场需求的不适应性严重制约着BIM的深入推广。有研究表明,缺乏熟练的BIM人员是实践中限制BIM实施的主要障碍之一,也是建筑行业进入信息化建设时代的瓶颈之一[4,5,6,7]。

此外,随着时代的发展,信息数据爆炸式地扩张,人们对大数据这个词已不再陌生,大数据使衡量以前無法衡量的一些现象、事物等成为可能。大数据不仅仅是一种新技术,更是一种新的思维方式[8]。大数据时代的到来也改变了学术研究的诸多方面,思维方式的转变成为科研方法变革的推动力,科研领域呈现出数据密集型特征,相比于过去受限于收集、分析数据的工具而只好尽可能地减少数据量,现在研究人员有了一系列可利用的新工具,如机器学习、数据挖掘等技术,因而不必做过多的精减,可以利用充足的数据来描述和分析研究对象。刘耘、袁华提出了一个基于大数据的人才培养方案,该方法是基于互联网上海量的招聘信息,并从中获取该类别岗位的能力需求特征[9],刘睿伦、叶文豪通对大数据工作岗位需求文本进行挖掘,根据聚类结果发现大数据岗位的一些特点,例如对学历要求不高、企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等[10]。林佳瑞、张建平采用综述分析与文本挖掘分析相结合的方法对我国BIM政策发展现状趋势及现状进行了综述[11]。在建筑行业的人才培养方面,尚未有人采用大数据方式进行研究。

1  研究方法

从市场需求的角度出发,通过互联网上发布的BIM相关职位的招聘数据的挖掘、处理、分析来展开研究,并通过主题模型建立来获得相关关键词,总结归纳出市场上BIM人才需求的特点。并同步收集期刊论文进行结果的验证,科研话题往往可以很好地反映该行业或领域的发展现况和趋势,因为科研的聚焦点经常会落在市场需求和行业前沿上,所以通过对有关BIM的研究文献进行文本分析,提取其中的主题,得到的实验结果可以间接地反映市场上的BIM需求,用于验证BIM招聘数据模型的实验结果。通过比较一些常用的中文数据库,如中国知网、万方、维普等,发现中国知网收录的期刊数量较多,并且提供了收录论文的详细数据,所以选取中国知网上的期刊论文数据作为实验数据。主要的研究步骤见图1。

第一步:寻找并获取反映市场BIM需求的信息数据,信息分为两部分,一部分是直接反映市场需求的企业在线招聘信息,另一部分是可以间接反映行业BIM市场需求的BIM相关论文的研究问题,并通过爬虫技术实现网页信息的抓取和存储;

第二步:对取得的信息数据进行预处理,图1研究包括转换数据格式、去除无关信息、整合训练模型所需的数据,再借助Jieba分词工具进行中文分词,同时过滤停用词、标点符号、英文、数字等;

第三步:利用Python建立LDA主题模型,通过对模型输出的主题词信息进行相关分析,总结归纳出市场上对BIM相关职位人才的具体需求。具体过程见以下1.1-1.3的详细内容。

1.1 数据收集

首先是BIM相关职位的在线招聘数据收集,使用“BIM”作为职位的搜索关键词,从目前国内常用的一些招聘网站上收集在线招聘数据,将招聘数据的地域范围设置为全国。最终选取的招聘数据来源于国内6个主流的招聘网站:智联招聘网、前程无忧、拉勾网、猎聘网、BOSS直聘和建筑英才网,其中建筑英才网是专门针对建筑行业的一个招聘网站,其它属于综合性的招聘网站,从这6个招聘网站中总共获取了10512条招聘数据。

其次是BIM相关的期刊论文数据收集,以“BIM”作为主题检索词进行搜索,共获取5461篇论文详情页的xml文档数据。

文本预处理:

完成数据的收集后,为了使后续的主题识别更精确、更可靠,还需要对收集的数据做进一步处理,这也是使数据满足主题模型输入要求的必要步骤。主要包括整合数据资料、中文分词、去停用词等预处理操作,从而得到满足LDA主题模型输入条件的数据集。

1.2 整理数据资料

在对收集到的BIM相关职位的招聘数据和中国知网的期刊论文数据进行预处理之前,先进行必要的数据整理工作,主要包括删除无关数据、转换数据格式等。

对于BIM相关职位的招聘数据,从MongoDB数据库中提取实验需要的相关数据,即职位描述。由于MongoDB数据库具有支持查询的特点,则可以利用Python来提取数据,并将结果另存为txt格式文档。然后再对提取出来的职位描述进行处理,删除无关数据,如公司介绍、公司福利等与研究问题无关的内容,只保留职位职责描述的核心内容部分。

对于BIM相关的期刊论文数据时,对得到的xml文件数据格式进行解析,提取出需要的文本数据,并存为txt格式文档。

1.2.1 中文分词

选用的方法是Jieba分词,Jieba分词是基于词频度统计用Python开发的一种中文分词模块,速度较快,精度也较高[12]。Jieba分词主要包括三种模式:精确模式、全模式和搜索引擎模式。精确模式适合文本分析,该模式是将语句以最精准的方式地切开;全模式速度很快,能把句子中所有可能组合在一起的词都扫描出来,缺点是不能解决歧义的问题;搜索引擎模式比较适合用作搜索引擎分词,它是在将语句精确地切分开的基础上,对较长的词再一次进行切分,提高了召回率[13]。因此选择采用Jieba分词的精确模式对两部分文本数据进行分词,得到两个词集合。

1.2.2 去停用词

在得到分词结果的基础上,使用停用词表过滤文本数据中的停用词,这是计算机辅助文本分析时的典型预处理步骤。停用词表中包含了一些常见的停用词,但还需要针对具体的应用情况进行必要的补充。因此在对招聘文本数据进行处理时,在其使用的停用词表中人工添加了与本次研究有关的停用词,例如公司、负责、有限、工作、相关等词语,由于招聘数据中存在大量无关数据,所以去停用词处理十分有必要。而对期刊论文去停用词时,除了在其使用的停用词表中也人为地添加了一些停用词,如下载、收稿、关键词、参考文献等对本次研究而言无意义的词语,还删除了文本数据中的英文,因为论文中基本都包含一段英文摘要,而本次研究内容仅限于中文,英文摘要的存在会对实验的结果造成一定的影响。

在實际的操作过程中,中文分词和去停用词这两步预处理是通过一段代码同时进行的,遍历语料库,将每一行或是每一篇文本数据进行分词和去停用词,得到两份更有效的词集合,招聘数据和期刊论文预处理后的部分结果分别如图2、图3所示。

1.3 LDA主题模型建立

收集的BIM相关职位招聘数据和有关BIM的研究文献经过上述处理之后,下一步就可以通过得到的词集合建立LDA主题模型,进而挖掘语料库中文档的潜在主题。

1.3.1 确定模型参数

在使用LDA主题模型来获取文档主题数据的时候,需要人工指定主题数量K,主题数量会影响主题的识别效果[14]。研究主要通过查阅目前一些BIM教材的章节数来初步确定主题数K,根据查阅结果,BIM相关教材平均在10章左右,所以K初步定为10,在后续训练模型过程中根据主题的识别效果再进行调整。

文档迭代次数n暂定为1000,一般迭代次数在1000以上模型才会较好地收敛达到一个理想的效果。LDA模型训练的其他超参数α和β一般可以根据经验进行设置,如"α="  "50" /"K"  ",β=0.01" ,K为主题数量。

1.3.2 训练模型

确定了模型参数后,利用Python中的第三方模块LDA来训练LDA模型。将文本中的词语转换成词频矩阵,矩阵元素a[m][n]表示第m个文档中第n个词的词频,招聘数据的词频矩阵为10512×11516的矩阵,期刊论文的词频矩阵为5461×84012的矩阵,得到词频矩阵后再使用Python的LDA模块训练LDA模型。在训练招聘数据LDA模型时,发现通过词频矩阵训练的模型结果并不理想,结果难以很好地进行解释,推断是因为招聘数据属于短文本的缘故。主题模型的目的是通过一组具有代表性的词语来推断文档的深层含义,LDA主题模型是依靠文档中词共现来挖掘文档潜在的主题,而对于短文本,数据的稀疏性会影响模型的效果[14]。因此通过计算TF-IDF值为词集合中的词赋予权重,以提高识别主题词的准确度,进而提高实验结果的可解释性。

在训练过程中通过不断调整主题数量K和迭代次数n来优化主题识别效果,发现主题数量为15,迭代次数为2000时的实验效果较好。最终得到了招聘数据和期刊论文的主题-词分布,分别选取了每个主题的分布概率较高的10个关键词来进行下一步分析。

2  结果及分析

2.1 招聘数据模型结果分析

通过建立LDA主题模型对10512条在线招聘数据进行文本分析,共得到在线招聘数据相关的15个主题,选取15个主题的前10个主题词来做进一步分析,招聘数据的主题-词分布如表1所示。

2.2 主题相似度计算

通过对在线招聘数据进行主题挖掘,得到表1所示的主题-词分布后,对各个主题进行文本相似度计算,文本相似度计算的目的是为了衡量两个不同文档之间的差异大小。文本相似度的计算有很多算法,通常采用的是基于向量空间模型的方法,包括余弦相似度、欧式距离、曼哈顿距离等等,因为该类方法原理简单,易于实现[15],本研究采用的是余弦相似度算法来计算主题词频率向量之间的相似度,从而来衡量这15个主题之间的语义相似度。它是通过向量A,B之间的夹角来衡量向量相似度的,余弦值范围在0到1之间,余弦值越大,两向量之间的夹角越小,说明两个词向量间的语义越接近、越相似。余弦相似度计算公式如式1所示,θ表示向量A,B之间的夹角:

■(1)

余弦相似度的部分计算结果如表2所示:

根据表2所示的余弦相似度的数值大小,可以看出实验得到的15个在线招聘数据主题之间的相似度整体都较低,具有较好的相互独立性。余弦相似度数值在0到1之间,当两文本的余弦相似度为0时,文本语义不相关;而当两文本的余弦相似度为1时,说明两文本完全相同。在实验得出的15个主题中,相似度最高的是主题5和主题15,相似度为0.30。对于有一定相似度的主题,将在后续分析总结时对其做适当的合并处理。

2.3 期刊论文模型结果分析

对有关BIM的期刊论文进行了文本分析,以5461篇期刊论文作为输入语料,训练LDA主题模型后得到期刊论文的主题-词分布,如表3所示,根据这些主题词分析得出的期刊论文主题,可以用以辅助解释招聘主题数据并对其起着必要的补充说明作用。

通过表1和表3的对比,可以看出两者的主题中有许多十分相近的含义,如管线碰撞检查、创建三维模型、施工组织设计、工程造价、成本管理等,验证实验结果是具有可信度的。

2.4 BIM职位市场需求分析讨论

以表1中招聘数据的主题-词分布为分析对象,借助得到的各个主题之间的余弦相似度和期刊论文的主题数据来辅助分析、解释招聘数据主题,最后总结得出12个市场上的BIM需求数据,如图4所示。

据图4所示的BIM相关职位的12个市场需求特征,结合BIM实施现状,得出以下三个观点:

2.4.1 BIM职位的需求涉及多个领域及行业

BIM职位的需求涉及建筑行业、动画制作、软件开发、培训、教育、咨询、营销等多个领域和行业。BIM的应用开始趋向于产业化发展趋势,不仅涉及建筑行业,并开始向多个应用领域扩展,同时开始衍生和带动相关上下游关联产业,例如软件开发、咨询、教育、培训、动画制作等[16]。

2.4.2 BIM职位需要更多复合型人才

BIM职位需求更多需要复合型人才,软件只是相应的工具,更多需要有专业背景开展专业的应用和管理工作。有研究也表明,BIM技术的应用和推广,需要大量的BIM专业人才,这些人才不仅需要拥有施工技术、项目管理等工程领域的知识,还需要懂计算机软硬件管理、软件操作等计算机知识;BIM从业者既要熟练掌握BIM的相关理论和实际操作技能,還需要具有工程专业背景和工程项目相关实践经验。既要掌握核心的多种BIM软件,又能够结合企业和项目的实际需求制订BIM应用方案和技术标准。做好BIM相关工作,需要更多的复合型BIM人才,但现阶段这些人才在我国建筑业企业中是相当匮乏的[3,17]。目前我们一方面要进行的是企业人员的BIM能力提升,并以BIM技术和管理人才为引领建设和培养一批精通信息技术业务并且熟悉团队管理的复合型BIM人才队伍[5],另一方面高校要加快加大BIM人才的培养。

2.4.3 BIM职位向专业化、资质化阶段发展

建筑行业已经开始对BIM从业人员有证书相关要求。在对BIM障碍的研究中,解决对策中也提出政府要加大支持力度,完善BIM应用的外部环境,并进一步推行BIM技术职业资格考试及认证制度,加大宣传力度[18]。当前我国已经推行了BIM考试认证,工信部、图学学会、建设教育协会等均开展了相关的资质认证工作,为行业专业人才培养和认证提供了国家渠道,提升了我国专业人才的能力[19],但目前由于BIM的标准化未进行统一,全国的资质认证工作尚未实现统一,从其他行业的发展来看,BIM行业从业认证是必然趋势。

3  结语

首次在建筑行业人才培养领域采用大数据分析的方法,从网络挖掘获取海量的BIM相关职位的招聘信息,结合各种数据挖掘方法挖掘出基于市场的BIM人才需求。从而使企业、高校、求职者从中掌握BIM相关职位的人才需求特征,为行业人才的培养提供支持,为高校洞察企业需求,做出及时而有效的人才培养方案提供参考。

虽然研究取得了一定的成果,但仍存在一些地方需要优化和改进:

①招聘数据来源于在线招聘网站,各招聘网站的信息发布格式参差不齐,在数据整理过程中造成很多困难;研究采用的期刊论文来自中国知网,由于各种制约因素,难免会导致获取的论文数据不够完整,可以考虑通过其他中文数据库来对数据进行补充,提高数据的完整性。

②采用LDA主题模型时需要人为设定主题数K,更优的做法是通过数学方法来确定主题数K,从而提高LDA模型的质量和实验效果。

参考文献:

[1]住房城乡建设部.关于印发2016-2020年建筑业信息化发展纲要的通知[N].(2016-08-23)http://www.mohurd.gov.cn/wjfb/201609/t20160918_228929.html.

[2]前瞻产业研究院.2023年我国BIM市场规模可达22.81亿应用推广之路任重道远[N].(2018-01-24)http://www.cnBIM.com/2018/0124/4774.html.

[3]祝连波,李鑫,黄一雷.我国大型施工企业BIM技术发展模式研究——基于SWOT分析[J].建筑经济,2018,39(06):78-82.

[4]秦旋,MANCINI Mauro,TRAVAGL

INI Agnese,吕坤灿,王敏.基于市场推广视角的BIM技术采纳障碍因素中意对比研究[J].管理学报,2016,13(11):1718-1727.

[5]郭庆军,郝倩雯,闫竑宇.建筑业转型过程中人才队伍建设与培养分析[J].建筑经济,2017,38(11):11-14.

[6]李梦梦,赖芨宇,姚超,孙晓丹.基于SEM的BIM应用推广阻碍因素分析及对策研究[J].武汉工程大学学报,2018,40(04):462-467.

[7]许炳,朱海龙.我国建筑业BIM应用现状及影响机理研究[J].建筑经济,2015,36(03):10-14.

[8]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究2016,34(02):166-170,202.

[9]刘耘,袁华.基于大数据的需求驱动的职业能力培养研究[J].电子科技大学学报(社科版),2018,20(02):8-14.

[10]刘睿伦,叶文豪,高瑞卿,唐梦嘉,王东波.基于大数据岗位需求的文本聚类研究[J].数据分析与知识发现,2017,1(12):32-40.

[11]林佳瑞,张建平.我国BIM政策发展现状综述及其文本分析[J].施工技术,2018,47(06):73-78.

[12]于重重,操镭,尹蔚彬,张泽宇,郑雅.吕苏语口语标注语料的自动分词方法研究[J].计算机应用研究,2017,34(05):1325-1328.

[13]李莹.面向企业需求的专家推荐算法研究[D].北京交通大学,2018.

[14]Malek Hajjem,Chiraz Latiri. Combining IR and LDA Topic Modeling for Filtering Microblogs[J]. Procedia Computer Science,2017,112.

[15]王春柳,杨永輝,邓霏,等.文本相似度计算方法研究综述[J].情报科学,2019,37(03):158-168.

[16]何清华,杨德磊,郑弦.国外建筑信息模型应用理论与实践现状综述[J].科技管理研究,2015,35(03):136-141.

[17]张江波.BIM的应用现状与发展趋势[J].创新科技,2016(01):83-86.

[18]许云萍,徐晨.BIM对工程项目管理的影响及应用障碍分析[J].建筑经济,2017,38(03):35-37.

[19]高雄.基于BIM的工程造价精细化管理方法[J].价值工程,2019,38(12):70-73.

猜你喜欢
市场需求
麻纺标准紧贴市场需求
市场需求不旺 红枣行情暂稳
全球磷肥市场需求减弱
全球磷肥市场需求减少
2025年,单一材料塑料包装全球市场需求将达到710亿美元
复合肥市场需求清淡 价格平稳运行
涵盖技术、市场需求以及客户服务 ISE 2018面面观
载货车行业:市场需求持续增长
服装设计与市场需求的关系
关于民办高校人才培养适应市场需求的研究