基于网络媒体和数据挖掘的大学生思想动态评估

2020-10-13 09:37任琳
微型电脑应用 2020年9期
关键词:网络爬虫网络媒体聚类分析

任琳

摘 要: 为了掌握学生思想动态,针对性的提供思想政治教育策略,提出了一种基于网络媒体和数据挖掘的大学生思想动态评估方法。利用网络爬虫抓取官方微博内容和评论内容,提取和分析关键词;其次,通过词云展示和K-means聚类分析及时掌握大学生的思想动态。研究结果表明,通过词云展示和聚类分析可以有效获取一段时间内大学生所关注的热点话题,为大学生思想政治教育提供有针对性的方法和策略,帮助大学生树立正确的价值取向和思想观念具有重要的指导意义。

关键词: 网络媒体; 数据挖掘; 聚类分析; 思想政治教育; 网络爬虫

中图分类号: G 641      文献标志码: A

Abstract: In order to grasp the university student thought varying in time, and provide a pertinence ideological and political education strategy, this paper presents a method of dynamic evaluation of college students thoughts based on network media and data mining. First, the Web crawler is used to capture the content of official Weibo and comments, and to extract and analyze key words. Second, the word cloud display and K-means cluster analysis are used to grasp the ideological trends of college students. The results show that the word clouds display and cluster analysis can effectively capture the hot topics that college students have been concerned about for a time period, and provide targeted methods and strategies for college students ideological and political education, it is of great significance to help college students set up correct value orientation and ideological concept.

Key words: network media; data mining; cluster analysis; ideological and political education; Web crawler

0 引言

對大学生思想动态进行评估有助于学校和辅导员开展学生工作。目前这个阶段,1995年以后出生的大学生是校园大学生的主力,他们思想活跃、开放、好奇心强和内心较脆弱敏感,思想状态较难及时地掌控。传统思政教育以课堂教育为主,更多的是教授思想政治方面的理论知识,无法掌握学生的思想动态[1-2]。

为了帮助学校和辅导员及时掌握大学生的思想状态,有针对性地开展大学生思想政治教育工作,本文提出一种基于网络媒体和数据挖掘的大学生思想动态评估模型。通过抓取大学生微博发布的内容,结合情感分析、特征词提取和自然语言处理等技术,运用聚类、主题检测和关联分析等数据挖掘方法,构建大学生思想动态和微博内容之间的关系。

1 技术方法和实验流程

1.1 技术方法

本文涉及的技术方法主要包括抓取微博数据和话题聚类技术[3-4]。抓取微博数据主要通过网络爬虫计算程序实现,主要抓取官方微博用户数据,如学生社团微博、高校官方微博、各学院官方微博以及班级微博等,这类用户社会影响力和传播效果较大。

话题聚类技术主要将抓取到的微博数据提取出关键词,之后运用其技术来进行聚类分析获得话题类型,依照话题类型能够掌握其思想状态和思想波动状态。通过聚类将话题提取的关键词分成若干个类别,可以掌握大学生关心的话题类型,从而掌握大学生的思想动态情况。

1.2 实验流程

基于网络媒体和数据挖掘的大学生思想动态评估流程包含三部分,分别为微博信息及评论抓取、微博内容的解析与关键词的可视化。微博信息和评论抓取主要抓取高校微博、班级微博和社团微博等;微博内容的解析主要包括微博网页内容的解析、关键词存储等;关键词可视化主要是实现聚类关键词的展示,实验流程图如图1所示。

2 K-means聚类算法

3 实验与结果分析

3.1 抓取微博内容

文中通过URL链接和网络爬虫设计,抓取陕西省2016年7月~2016年10月4个月内部分大学官方微博、社团微博等所发布的内容和评论,抓取部分关键词:

研究生入学考试、北京邮电大学、上海交通大学、招生简章、考研、创业、面试、就业率、思想政治教育、道德、爱情、计算机组成原理、数据结构、通信原理、学生超市、法律、奥运会、211、985、双一流、竞赛、高校等。

3.2 环境平台

文中编程操作系统为Windows 7,内存8 GB、中央处理器为Intel(R)Core(TM)i5-2400 4-core,CPU的主频为2.60 GHz,编程软件平台为Matlab2015(a)。网络爬虫基于Matlab软件平台设计,主要运用urlread函数和regexp函数读取和解析网页数据。

3.3 结果分析

由模型动态来分析,能够比较快的掌握大学生思想动态,帮助其解决心理困扰,疏导他们的行为规范。文中通过词云图和K-means聚类分析等模型[8-9],预测他们的思想状态,提高思政教育工作的及时性和可靠性。

(1) 词云图与思想动态预测

通过抓取微博内容、提取关键词,将关键词通过词云图展示出来,其中出现频率越高字体相对较大,也就是该词汇是大学生群体所讨论的热点话题,词云图如图3所示。

由图3可得,这段时间出现频率比较高的词汇有奧运会、金牌榜、马蓉和里约等,说明这段时间大学主要关注马蓉出轨事件和里约奥运会。与学习相关的词汇有考试、招生简章、教育和图书馆等,但是这些词汇的出现频率不是太高,说明这些问题尚未成为热点话题。通过词云图分析,可以及时掌握大学生的思想状态,开展有针对性性的大学生思想政治教育。

(2) 聚类结果分析

由于词云图只能宏观的查看话题关键词,无法查看一段时间内的大学生所关注的话题热点,运用K-means进行聚类分析,分析结果如图4所示。

由图4可知,这段时间大学生主要关注如下几个话题。

1) 讨论较多的话题为里约奥运会开幕,他们关心的话题有体育明星等,说明奥运会在他们中间的欢迎程度,从侧面可以看出这些学生的思想是积极向上的,喜欢运动并关心国家时事。

2) 讨论较多的话题为王宝强与马蓉离婚案,说明他们的好奇心与围观心理较强[10-11],喜欢看娱乐新闻。观看这类新闻有利于舒缓学习压力;但如若大学生过分关注这类新闻将影响大学生的思想观念和价值取向。因此,需要及时帮助大学生树立正确的价值取向和思想观念。

3) 讨论较多的话题与学习息息相关的话题,如图书馆、招生简章、考研、就业等。这段时间说明大学生们比较关心自己的前途和未来。因此,可以加强大学生的考研辅导和毕业生就业工作指导等,为大学生提供相关指导和服务,消除大学生内心的担忧和恐惧。

4 总结

本文运用网络爬虫抓取官方微博内容和评论内容,提取和分析关键词,通过词云展示和K-means聚类分析及时掌握思想动态,获得一段时间内他们所关注的热点话题,为大学生思政教育提供有针对性的方法和策略,帮助大学生树立正确的价值取向和思想观念具有重要的指导意义。

参考文献

[1] 郑永廷. 大学生思想政治教育质量提升的理论研究[J]. 思想教育研究, 2013(6):14-16.

[2] 邹兴平, 艾楚君. 基于层次分析法的"年级主题+基础"大学生思想政治教育模式的构建[J]. 湘潭大学学报(哲学社会科学版), 2008, 31(6):157-160.

[3] 姚运肖, 武宇清. 基于层次分析法对大学生思想政治工作的探索[J]. 山西农业大学学报(社会科学版), 2011, 10(6):541-544.

[4] 黄晓丽, 曹砚辉. 大学生思想动态监测指标体系初探[J]. 创新与创业教育, 2016, 7(4):143-146.

[5] 赵光华, 钟京凤. 基于AHP的大学生思想政治教育有效性评价[J]. 中国成人教育, 2010(4):59-61.

[6] 刘爱荣, 宋子君, 黄妍. 层次分析法在高等学校学生工作绩效评价中的应用[J]. 辽宁科技学院学报, 2011, 13(3):97-99.

[7] 张彦坤, 李航, 韩萌. 基于AHP-Fuzzy模型的辅导员工作精品项目的评价[J]. 科技与管理, 2016, 18(2):109-113.

[8] 于纪航. 基于AHP的大学生心理障碍诱发行为评价模型[J]. 金融理论与教学, 2013(2):104-106.

[9] 许慧远. 基于AHP和BP神经网络理论的大学生综合素质测评研究[J]. 思想教育研究, 2009,11(1):200-204.

[10] 孟祥瑞. 基于RAGA的投影寻踪的大数据时代的大学生思想政治与日常表现评价研究[J]. 经济师, 2018(3):65-68.

[11] 易云飞, 黄泽, 李林. 改进K-means聚类算法在高校团组织建设中的应用研究[J]. 软件导刊, 2009(10):72-74.

(收稿日期: 2020.02.25)

猜你喜欢
网络爬虫网络媒体聚类分析
炼铁厂铁量网页数据获取系统的设计与实现
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
“县级供电企业生产经营统计一套”表辅助决策模式研究
商业新闻
试论网络媒体的公信力