我国航海教育研究热点近二十年之变迁
——基于知网论文的文本分析

2021-06-23 10:54于卫红
航海教育研究 2021年2期
关键词:航海文档词语

于卫红

(大连海事大学 航运经济与管理学院,辽宁 大连 116026)

一、引言

高等航海教育指的是“培养高级航海专门人才的学校教育”,其育人功能主要体现为培养航海人才, 其社会功能主要体现为传承航海文明、传播航海文化[1]。国家的“海上丝绸之路”“海洋强国”“航运强国”等战略的实施意味着应将航海教育置于优先发展的地位。

培养目标的特殊性及管理模式的特殊性[2]使得航海教育成为高等教育的一个特殊存在。这一特殊性也导致高等航海教育的研究和发展未受到普遍的关注。与其他领域的教育研究相比,航海教育研究相关文献无论在数量上还是在质量上都存在明显的不足。比如在中国知网上以“经济教育”为主题,检索类别设定为“SCI来源期刊”“北大核心”“CSSCI”“CSCD”,时间不限,检索出5068条期刊文献;而在同样条件下,以“航海教育”为主题,只检索出125条结果。同时,对于已发表的航海教育研究成果,也缺乏全面的研究热点梳理和变化趋势分析。

基于此,本研究从中国知网上获取近20年以“航海教育”为主题的期刊论文,从阶段性特征词比较和主题建模分析两个途径对我国近20年航海教育的研究热点、主题分布和主题演化趋势进行了全面分析,其意义在于:一是加强社会各界对航海教育及航海教育研究与发展的认知与关注;二是总结航海教育研究的历史成果、预测未来的研究趋势,为我国航海教育的长足发展以及航海人才的高质量培养提供参考。

二、研究思路

本文研究思路如图1所示。

图1 研究思路

1.数据获取

在中国知网平台上以“航海教育”为主题,检索时间范围为2000年至2020年,检索类别为全部期刊,剔除“年会综述”“期刊重点选题”等篇目后,获取到研究文献1259篇。之后,从这些文献中抽取出题目、摘要和关键词,进行整合后形成本研究的语料文件。

2.数据预处理

首先在R语言环境下,使用字符串处理程序,以分号为分隔符将每篇文献的关键词拆分成一个个词条,去重后保存成用户自定义词典文件,这样做的目的是保留航海教育领域的专有名词、专业术语等在分词时不被拆分,使得分词结果更加合理;然后使用jiebaR数据包中的相关函数基于用户自定义词典对语料文件进行分词,并进一步使用百度停用词表去掉无意义的虚词,以得到高质量的词条数据。

3.数据分析

从词语和主题两个层面进行研究热点识别及研究主题变迁分析。在词语层面,将所获取的文献按照发表时间分为两类:发表于2000—2010年的文献归为一类,发表于2011—2020年的文献归为另一类。然后使用卡方检验算法进行显著性检验,计算不同词语对不同类别文献的贡献度,继而根据词语贡献度的大小识别出不同类别文献的特征词,通过比较两类文献特征词的差异,分析出前后两个阶段航海教育研究热点的变化。在主题层面,使用STM(Structural Topic Model,结构性主题建模)算法挖掘出近二十年航海教育研究的热点主题,继而以主题分布矩阵为因变量、文献的发表年度为自变量、文档元数据为协变量进行回归分析,探测出基于时序的主题演化趋势。

三、基于词语粒度的研究热点变化分析

使用R语言编程,将发表于2000—2010年的文献归为一类(类别标记为pre2011,以下简称“前10年”),将发表于2011—2020年的文献归为另一类(类别标记为post2011,以下简称“后10年”)。然后使用卡方检验进行文本特征选择。

1.卡方检验用于文本特征选择的基本方法

卡方检验是目前公认的效果最好的文本特征选择算法之一。

卡方检验的基本思想是通过观察实际值与理论值的偏差来确定理论是否正确。进行卡方检验时,常常首先假设两个变量确实是独立的,然后观察实际值与理论值的偏差程度(理论值指的是在“两者确实独立”的情况下应该具有的值)。如果偏差足够小,则接受原假设,认为两者确实是独立的;如果偏差大到一定程度,则否定原假设,接受备择假设。

在文本特征选择方面,可以通过使用卡方检验度量词语与文档类别之间的相关程度来为某一类别的文档确定特征词[3]。

根据卡方检验的基本原理,首先建立原假设H0和备择假设H1。

H0:词语t与文档类别f不相关

H1:词语t与文档类别f有关联

使用公式(1) 计算词语t对于文档类别f的卡方值chi2 (t,f)。

(1)

在公式(1)中,A代表类别为f的文档集合中包含词语t的文档数;B代表类别不为f的文档集合中包含词语t的文档数;C代表类别为f的文档集合中不包含词语t的文档数;D代表类别不为f的文档集合中不包含词语t的文档数。

卡方值越大说明词语t与文档类别f的关联性越强。计算完各词语的卡方值后,对词语按照卡方值的大小从大到小排序,取前N个词作为文档类别f的特征词。

2.不同阶段文本特征词的变化分析

通过卡方检验,得到前后两个10年研究文献特征词的差异,如图2所示。

图2 前后两个10年文本特征词的差异

这些特征词具有鲜明的时代特色,可以看出,前后两个10年航海教育研究热点主要发生了如下几点变化:

(1)关注的教育类型发生变化(“高等航海教育”→“高职院校”)

前10年的研究主要关注的是以培养高级航运技术管理人才为主要任务的“高等航海教育”[4-5],后10年研究的关注点向“高职院校”的航海教育转变[6]。这一转变体现了我国航海教育在分类、分层的教育宏观管理体系下,尊重学生个体差异与人才需求的多样性,实现按需培养、因材施教的教育理念。

(2)依托的时代背景发生变化(“WTO”→“一带一路”“海洋强国”)

前10年,我国航海教育研究主要在我国加入“WTO”的时代背景下展开[7],研究热点包括:加入“WTO”后我国高等航海教育的机遇与挑战、航海教育“国际”化的策略、航海教育“立法”以及中国海员走向“国际船员劳务市场”和“航运人才市场”的对策;后10年,我国航海教育研究依托“一带一路”“海洋强国”的时代背景,视野越来越宽,格局越来越大,“人才培养模式”改革的研究成为热点[8-9]。

(3)教育的培养目标发生变化(“国际”“船员劳务市场”“航运人才市场”→“创新创业”)

前10年的研究主要关注如何面向“国际”、面向“船员劳务市场”和“航运人才市场”,培养合格的航海类人才[10]。可以看出,当时阶段的航海教育以培养满足航运业要求的合格的就业者为基本目标。后10年的研究中一个显著的变化是引入了“创新创业”教育[11],从传统的就业教育到“创新创业”教育的转变,说明:近年来,我国航海教育顺应新形势,革新教育观,在培养过程中不仅仅是把学生培养成一名合格的就业者,更加有意识地帮助学生发展创新思维,培养学生的自我价值感和自我实现能力。

(4)航海教育的优化重点发生变化(“素质教育”“人文教育”→“航海文化”)

前10年的研究主要关注如何通过“素质教育”和“人文教育”提升个体人才的培养质量[12],后10年研究的转变在于强化“航海文化”建设[13-14]。“观乎天文,以察时变;观乎人文,以化成天下”,“航海文化”自信是航海教育不断进步的源泉,“航海文化”教育是提升航海教育质量的软动力机制。从个体素质的优化到整体教育氛围的优化,这一转变体现了航海教育研究中对航海文化的认同、重视、开发与利用。

(5)履约机制发生变化(“STCW78/95公约”→“STCW公约马尼拉修正案”)

履约是颇具航海教育特色的词语,指的是航海教育与培训必须履行《海员培训、发证和值班标准国际公约》(STCW公约)。STCW公约对航海类人才培养具有重要的指导和评价作用。近20年来,航海教育领域经历了从“STCW78/95公约”到“STCW公约马尼拉修正案”的重大转变,这一转变意味着航海教育在向新公约过渡、转制和接轨过程中必须对航海类“人才培养模式”的调整和优化进行深入研究[15]。

(6)教育资源建设发生变化(“精品课程”→“慕课”“课程体系”)

在教育资源的建设方面,前10年的研究主要关注“精品课程”的建设[16],后10年的研究转变为对“慕课”建设[17]以及“课程体系”构建的关注[18]。这一转变体现出:我国航海教育适应“互联网+”的时代要求以及教育技术前沿的发展要求,通过积极地研究“慕课”的建设、推广与应用,更好地发挥航海教育的社会责任,推动优质教育资源的共享和教育公平。

四、基于主题建模的研究热点识别及研究热点演化趋势分析

1.STM主题建模的基本原理

一篇文档通常由若干主题按照一定概率组成,而一个主题又由若干词语按照一定概率组成。主题建模就是指以非监督学习的方式,利用统计分布,从文档集合中挖掘出潜在的语义结构。传统的主题建模主要使用David Blei等人提出的LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)算法。LDA算法基于贝叶斯算法,利用主题的先验分布和词语的先验分布对文本数据进行似然估计,最终得到主题和词语的后验分布[19]。

STM算法是对LDA算法的一种改进[20],它允许在主题和词语的先验分布中加入研究感兴趣的辅助变量[21],如论文的发表时间、作者单位,这些辅助变量作为一种附加信息,在统计推断过程中重新“构造(Structure)”了主题模型中的先验分布,故称该算法为Structural Topic Model(结构性主题建模)。由于在主题建模的过程中引入了论文的发表时间等附加信息,在得到最终的主题分布矩阵后就可以通过建立标准回归模型分析出主题随时间的变化趋势。

2.研究热点主题识别

(1)最优主题数的确定

主题建模需要预先设定好主题的个数,确定最优的主题数至关重要。比较常见的确定最优主题数的方法是让主题数K在一定的范围内递增变化,每变化一次就生成一个主题模型,评估不同主题数下主题模型的性能指标。最常用的两个评价指标是困惑度和一致性。如:陆敬筠等[22]在高校网络舆情监测方法的研究中,以高校百度贴吧为数据源提取其中的热门主题,取困惑度值最小且为拐点时所对应的主题数为最优主题数等;陈嘉钰等[23]在基于LDA主题模型的社交媒体倦怠研究中使用了一致性这一主题性能评价指标。

主题困惑度可以理解为所训练出的主题模型对于词语隶属于哪个主题的不确定程度,很显然,主题困惑度越小越好。主题困惑度是通过将数据集分成两部分来计算的——一个训练集和一个测试集,使用训练集训练一个主题模型,然后在测试集上测试该模型。测试集在英文中常用“held-out dataset”来表示,对测试集计算其对数似然值,这一指标就被称为“held-out likelihood”,主题困惑度就是主题对数似然的一种数学变形,二者在本质上是一样的,主题对数似然越大越好。

主题困惑度或主题对数似然的缺点之一是它们并不捕捉主题中词语之间的语义关系以及文档中主题之间的语义关系。而语义关系对人类的理解却非常重要。因此,学者们又开发了其他方法试图捕捉文档中的语义关系,通过计算条件似然而不是对数似然来衡量主题中词语间的共现关系。主题一致性指标就是这种思想的体现,它通过计算主题中高分词之间的语义相似度来评价单个主题,主题一致性的分值越高越好。

但是,单纯依靠任何一个指标来判断一个模型的好坏都是不全面的,极易出现过拟合现象。因此,本研究中综合考虑了主题对数似然和主题一致性这两个指标,同时引入了模型残差(残差越小越好)。

主题模型评估结果如图3所示,综合考量后认为主题数为16时的主题模型性能最优。

图3 主题模型评估结果

(2)主题识别的结果

使用STM算法,挖掘出近20年“航海教育”研究相关文献的16个研究热点主题,见表1所列。

表1 近20年航海教育研究的主题

经过统计计算,得到各主题的总体分布情况,如图4所示。

图4 主题的总体分布情况

主题识别结果表明:近20年,航海教育领域围绕教育者、受教育者、教育内容、教育手段、教育途径和教育环境等要素开展了颇具航海特色的多方位研究,其中主题6占比最大。

①教育者:关于“教育者”的研究主要体现在师资建设方面,如高职院校双师型师资队伍建设、教师职称评审制度;涉及的主题主要是主题13。

②受教育者:关于“受教育者”的研究主要体现在对学生的半军事化管理、心理健康教育和思政教育,对船员的素质提升几个方面;涉及的主题包括主题1、主题3、主题4、主题8。

③教育内容:从广义上看,关于“教育内容”的研究遍涉所有主题,心理健康教育、思政教育、实践教学、创新创业教育等也都属于重要的教育内容;从狭义的授课内容的角度看,主要关注了船员教育培训的内容、航海类专业教学内容的特殊性及教育资源的整合。典型的主题包括主题5、主题16。

④教育手段和教育途径:从广义上看,关于“教育手段”和“教育途径”的研究亦遍涉所有主题,重点关注了航海模拟器的应用,认识实习,实践活动,通过立法保障航海教育活动,通过教学综合改革、课程改革、人才培养模式改革提升教育质量,通过国内外合作办学拓宽人才培养途径,通过构建质量管理体系提升航海教育培训的履约质量,通过航海文化建设提升航海教育软实力等教育手段和教育途径。典型的主题包括主题2、主题5、主题7、主题9、主题10、主题11、主题12、主题14。

⑤教育环境:在“教育环境”方面,航海教育研究中对自然环境、政治环境、经济环境、文化环境、体制环境、国际环境等均有所关注。关注热点包括加入WTO后航海教育发展的机遇与挑战,国内外航运市场环境的变化,船员培训、考试、发证体制及规则的变化,航海文化及校园文化环境的建设;涉及的主题主要包括主题2、主题3、主题6、主题7、主题15。

3.热点主题的演化趋势分析

以主题分布为因变量,文献的发表年度为自变量,文档元数据为协变量进行回归分析,探测出基于时序的主题演化趋势,如图5所示。

图5 主题的演化趋势

从演化趋势可以看出:研究热度逐渐降低的主题有主题1、主题3、主题4、主题6、主题9、主题14、主题15;研究热度保持平稳的主题有主题2;研究热度逐渐上升的主题有主题5、主题7、主题8、主题10、主题11、主题12、主题13、主题16。

五、结论与建议

本研究在R语言环境下使用卡方检验、结构性主题建模等算法,通过阶段性特征词比较、主题识别、主题热度统计、主题演化趋势分析,对我国近20年航海教育研究的热点以及热点的变化进行了全面梳理。

阶段性特征词的分析表明:以2011年为分界线,前后两个阶段我国航海教育研究的热点在所关注的教育类型、依托的时代背景、教育的培养目标、教育的重点优化对象、教育资源建设等方面都发生了明显的变化。

结构性主题建模的分析表明:近20年,我国航海教育领域围绕教育要素开展了颇具航海特色的多方位研究。其中,关于船员培训、学生思政教育、教学改革、课程改革、人才培养模式、师资建设、教育资源整合、航海文化建设的研究仍是下一阶段研究的热点。

为了支持我国航海教育事业更加健康、可持续的发展,结合当前形势,本研究提出如下几点建议:

(1)当前研究生教育规模不断扩大,研究生群体在航海类高校中所占的比例亦明显升高,建议加强航海类研究生教育及航海类研究生教育的研究。

(2)人工智能的发展是时代的必然,亦是对传统航海教育的巨大冲击。建议加强面向智能船舶、智慧海洋、智慧航运的航海类人才培养模式的重构研究。

(3)《中国教育现代化2035》《关于高等学校加快“双一流”建设的指导意见》等政策文件营造了新的竞争有序的高等教育生态环境,航海教育如何在新的生态系统中明确定位、整合资源、提升内涵、优化结构、践行现代化治理也是非常值得研究的主题。

猜你喜欢
航海文档词语
容易混淆的词语
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
找词语
断水三天的航海人
大航海争霸
航海博物馆
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一枚词语一门静