高校网络舆情获取方法研究

2018-01-19 11:35徐明磊赵博文诸葛福民
软件导刊 2018年10期
关键词:文本分析

徐明磊 赵博文 诸葛福民

摘 要:高校辅导员是高校管理的一线工作人员,研究高校网络舆情获取方法,对高校辅导员进行学生思想引导工作以及维护高校网络健康发展具有重要意义。从高校辅导员视角出发,运用对比分析方法,对近年来网络舆情获取方法和文本分析方法进行研究,进而根据高校网络舆情的内涵和特点,改进TF-IDF算法对高校网络舆情进行文本分析,最后给出该算法的实现过程,既可为分析高校网络舆情发展方向提供依据,也可为高校管理工作顺利进行提供技术保障。

关键词:高校网络舆情;文本分析;TF-IDF算法

DOIDOI:10.11907/rjdk.182045

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2018)010-0048-03

英文摘要Abstract:College counselors are the front-line staff in the management of colleges and universities. It is of great significance to study the access methods of colleges and universities to obtain the guidance of students′ ideological work and to maintain the healthy development of colleges and universities. Based on the perspective of college counselors, through the method of comparison and analysis, this paper studies the acquisition methods and text analysis methods of online public opinion in recent years, and then improves the TF-IDF algorithm to college network according to the connotation and characteristics of college network public opinion. The text analysis of the public opinion, and finally the implementation process of the algorithm. It provides a basis for analyzing the development direction of college network public opinion, and also provides technical support for the smooth progress of university management.

英文關键词Key Words:university network public opinion;text analysis;TF-IDF algorithm

0 引言

2018年1月31日,中国互联网络信息中心(CNNIC)在北京发布第41次《中国互联网络发展状况统计报告》,该报告显示,截至2017年12月,中国网民规模已高达7.72亿,普及率达到55.8%,超过全球平均水平(51.7%)4.1个百分点\+\{[1]\},其中,20-29岁的网民数量最多,占比30.0%。而高校大学生群体年龄正处于17-29岁之间,数量庞大又具有个性化的成长特点,成为高校网络舆情的受众主体,具有一定影响力。因此,高校网络舆情获取和治理研究显得尤为重要,而辅导员作为高校管理的一线工作人员,对此应更加关注。

近年来,对于网络舆情的文本分析,国内外学者提出了很多不同方法,如马海兵等\+\{[2]\}针对文本分类技术在网络舆情分析系统中的应用,提出并实现了KNN和SVM分类算法,证明了该方法的有效性;彭浩等\+\{[3]\}针对未从全局层面进行微博文本特征分析的问题,提出一种基于主题发现的微博网络舆情分析模型;唐晓波等\+\{[4]\}采用LDA聚类算法挖掘检测微博话题,并通过实证分析证明了该方法的可行性。同时,TF-IDF算法也被经常用于文本分析中,如曹姗\+\{[5]\}提出基于TF-IDF特征提取的短文本分类方法就很好地保证了文本特征的表达效果。TF-IDF也被一些学者进行改进和优化,如龚静等\+\{[6]\}提出一种基于k-最近邻(k-NN)和词频-逆文档词频(TF-IDF)改进的文本分类方法,并验证此方法可以得到更精确的分类结果。但是TF-IDF在高校网络舆情关键词分类方面的研究较少,因此本文结合高校网络舆情特点,重点将TF-IDF算法运用于高校网络舆情的文本分析中,以提高高校网络舆情分析准确度,为高校管理工作提供技术保障。

1 TF-IDF算法

2 高校网络舆情内涵及改进TF-IDF算法应用

2.1 高校网络舆情与高校辅导员

高校网络舆情,顾名思义就是在高校空间内,高校学生在互联网平台上的倾向性态度和情绪总和。主要是指对国内外重大事件、社会事件、时政等公共事务以及高校和学生管理中出现的与自身利益相关事件等\+\{[10]\}。

高校辅导员,是高校进行管理工作的一线教职工,其与高校学生接触最多,交流最频繁,决定了其对构建和谐校园起到至关重要的作用。所以,高校辅导员应及时关注高校网络舆情,采用相应的技术和方法获取舆情信息并及时治理。基于高校辅导员视角,高校的网络舆情是一把“双刃剑”,也是高校的“晴雨表”\+\{[11]\}。

任何事物的形成和发展都有一定规律,高校网络舆情也不例外。随着信息的开放,大学生关注时事政治,比如中共十九大会议;关注社会事件,比如刘欢案件;关注全国高校新闻事件,比如校园贷等。当高校学生将关注点放在某些事件中时就会引发对该事件的讨论,于是在高校论坛等平台上发布自己的观点和看法,不同学生间意见冲突和思想碰撞就会引发高校网络舆情的形成\+\{[12]\}。

2.2 高校网络舆情事件关键词获取过程

(1)切词。选定可以代表高校网络舆情的文章并将其切成一个个可以作为关键词的词语,目前包含3种切词方法\+\{[13]\}:基于字符串匹配的分词、基于理解的分词、基于统计的分词。目前还无法证明3种方法哪种最优,但第一种方法出现最早、最成熟,算法难度也低,因此本文选用基于字符串匹配的分词方法。

(2)计算词頻。词频(TF)=某个词在文中出现的次数,鉴于文本长短之异,对词频的计算进行标准化改动。

3 结语

互联网不断发展使得高校网络舆情的形成、传播和发展更加复杂多变\+\{[18]\}。本文从高校辅导员角度出发,分析了高校网络舆情的内涵,在理解关键词提取算法TF-IDF思想的基础上,将其运用于高校网络舆情的实际中。但是,仅仅用词频衡量关键词的重要性还不够全面,且TF-IDF算法也不能体现词的位置信息,所以下一步需将TF-IDF算法与余弦相似性或更多方法相结合作文本分析研究。

参考文献:

[1] 中国互联网络信息中心.第41次《中国互联网络发展状况统计报告》[EB/OL]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201803/t20180305_70249.htm.

[2] 马海兵,毕久阳,郭新顺.文本分类方法在网络舆情分析系统中的应用研究[J].情报科学,2015(5):97-101.

[3] 彭浩,周杰,周豪,等.微博网络中基于主题发现的舆情分析[J].电讯技术,2015(6):611-617.

[4] 唐晓波,童海燕,严承希.基于话题情感强度的微博舆情分析[J].图书馆学研究,2014(17):85-93.

[5] 曹姗.基于TF-IDF特征提取的短文本分类方法[J].工业控制计算机,2018(4):109-110.

[6] 龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018(5):1340-1344.

[7] 胡改蝶,樊孝仁,崔艺馨.文本分类中基于改进特征选择方法的研究[J].计算机与数字工程,2016(7):1290-1292.

[8] 覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30.

[9] 王俊芳,王中龙,刘建,等.电力企业供应商疑似围标串标行为分析[J].经营与管理,2018(5):121-123.

[10] 李青.高校网络舆情话题热度趋势预测研究[D].青岛:山东科技大学,2017.

[11] 刘昊.网络舆论的形成机制与调控策略研究[D].成都:电子科技大学,2007.

[12] 张义庭.信息化环境下高校网络舆情与危机管理研究[J].情报杂志,2011(8):51-54+60.

[13] 沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016(3):45-48.

[14] 范小丽,刘晓霞.文本分类中互信息特征选择方法的研究[J].计算机工程与应用,2010(34):123-125.

[15] 管瑞霞,陆蓓.TFLD:一种中文文本关键词自动提取方法[J].机电工程,2010(9):124-125.

[16] 徐萍.大数据在高校网络舆情应急处置中的应用探讨[J].图书馆工作与研究,2016(5):55-58.

(责任编辑:何 丽)

猜你喜欢
文本分析
投资者情绪短期对股票市场的影响研究
文本情感计算系统“小菲”的设计及其在教育领域文本分析中的应用
初中英语听说课教学实践探索
经合组织成员体教师队伍现状、特点及发展趋势
以符号矩阵理论浅析《鬼魅丹青》
《化学:概念与应用》专题作业设计分析及启示
论20世纪初期刊中的科学观念