面向网络舆情监测的新闻主题分类实证分析

2016-03-02 05:55李淑平
新闻研究导刊 2016年23期
关键词:语料舆情网民

李淑平

(中央民族大学 少数民族语言文学系,北京 100081)

面向网络舆情监测的新闻主题分类实证分析

李淑平

(中央民族大学 少数民族语言文学系,北京 100081)

本文采用由面到点、逐步聚焦的方法探讨了面向网络舆情监测的新闻主题分类、网民的关注焦点和网民对事件的情感倾向问题,对这些问题的研究对网络舆情管理将产生积极作用。

网络舆情;主题分类;关注焦点;情感倾向

随着信息化时代的到来,网络上出现了海量的信息,各种重大新闻、热点事件等在网络上迅速传播,而由新闻事件所引发的网络舆情也随之大量涌现,网络舆情已经成为国家了解社会舆情的重要渠道。网络舆情多数情况下是在某一新闻事件的触发下产生的,对网络舆情进行分析研判,首先需要对引发舆情的新闻事件构建科学的分类体系。

一、网络舆情主题分类概述

目前,关于网络舆情主题分类的研究成果并不多,按分类的领域可将其分为两类。一是面向通用领域的网络舆情主题分类。这类成果是面向整体网络舆情的主题分类,如丁兆云[1]在其文中将舆情主题分为了三级指标,其中,一级指标有五类,分别是公共安全、自然灾害、公共卫生、重大事故、重大活动。在一级指标下又进一步细分为二级、三级指标,如公共安全又分为社会安全和经济安全两类;在社会安全下又细分为恐怖袭击、军事斗争、民族宗教事件三类。再如,杨永军[2]在其文中将舆情主题分为国际和国内两大类。国际又分为政经、文化、军事、反恐、公共、自然和其他领域几个方面;国内又分为公权力、政治与社会问题、公共领域、私权利几个方面,且每个类别下又有更具体的分类。还有,李雯静等[3]在其文中提到了两个参考体系,分别是美国“联邦政府组织架构”中的业务参考模型BRM(Business Reference Model)和我国TRS政府信息公开目录服务平台中参考分类体系中的主题分类。此外,戴媛等[4]在文中将舆情信息分为了14大类,分别是社会经济、政府管理、自然灾害、公共卫生、重大事故灾害、社会公共安全、教育、医疗、三农、交通、和谐社会、重大活动、劳动就业、社会保障类,并下设有更详细的二级类目。二是面向特定领域的网络舆情主题分类。有些学者根据某一领域网络舆情研究的需要,针对特定领域对网络舆情进行主题分类。如邓尚民等[5]在其文中将高校网络舆情分为7类,分别是时事政治、社会民生、高校内部管理、高校安全、大学生权益、高校声誉和学生心理健康。再如,陆瑞[6]在其文中将水利工程领域分为工程论证与规划、工程建设与管理、工程效益、工程评价、工程文化五个方面。此外,谈国新等[7]在其文中将突发公共事件舆情信息分为生存危机、公共安全、分配差距、腐败现象、时政、法治6大类。

二、网络舆情主题分类研究存在的问题

目前关于网络舆情主题分类的研究主要存在以下两个问题:一是参考标准少。研究成果大多数是根据作者的主观经验对网络舆情进行主题分类,而较少参考相应的国家标准等,各家自成一言、差别较大,带来了主题分类的主观性。二是缺少实证方法。在构建网络舆情主题分类体系的过程中,缺少依据客观语料和客观数据的实证方法,影响了网络舆情主题分类的实用性和针对性。

三、主题分类的原则和方法

(一)主题分类的原则

针对目前网络舆情主题分类研究中的不足,本文认为面向网络舆情监测的新闻主题分类需要遵循以下原则:

1.科学性和权威性。面向网络舆情监测的新闻主题分类体系是对新闻事件科学分类的依据,因此,分类体系必须具有科学性和权威性。

2.针对性和实用性。面向网络舆情监测的新闻主题分类是为网络舆情监测服务的,因此,构建的分类体系不需要过于全面和翔实,关键是要能够反映网络舆情监测的重点领域和网民关注的焦点问题,主题分类体系要具有针对性和实用性。

(二)主题分类的方法

依据以上提出的分类原则,本文参考了我国的政务信息资源目录体系[8]和中文新闻信息分类的国家标准,[9]将这两个分类体系进行综合比较发现,这两个分类体系大的类目基本一致,但中文新闻信息分类的类目更为全面。因此,本文的一级类目主要参考了中文新闻信息分类的一级类目,共24类,分别是政治、法律、司法、对外关系、国际关系、军事、社会、劳动、灾难、事故、经济、财政、金融、基本建设、建筑业、房地产、农业、农村、矿业、工业、能源、水务、水利、电子信息产业、通运输、邮政、物流、商业、外贸、海关、服务业、旅游业、环境、气象、教育、科学技术、文化、休闲娱乐、文学、艺术、传媒、医药、卫生、体育。但由于中文新闻信息分类的二级、三级类目,过于全面和详细,且针对性不强,因此,其并不适合面向网络舆情监测的新闻主题分类。新闻主题分类在进一步构建下级类目的过程中,需要遵循针对性和实用性的原则,体现网民重点关注的领域和焦点问题,通过由面到点、逐步聚焦的方法构建分类体系。

四、基于实证方法的新闻主题分类

由以上分析可知,要进一步构建主题分类的下级类目,首先需要挖掘网民重点关注的领域和焦点问题。本文采用实证的方法以实际的语料和客观数据对这一问题进行了深入分析。

(一)语料来源

本文所用语料为从数据堂网站下载的49000篇新闻语料,其中每一篇语料都有网民对该事件的情感反应投票数据,包括投票总数和8类情绪的投票比例。如新闻事件“如此恶警!省道时速破百撞死夜大生”,网民投票数为15956。其中,网民认为实用的投票数为1%;感人的投票数为0%;开心的投票数为1%;超扯的投票数为5%;无聊的投票数为0%;害怕的投票数为0%;难过的投票数为5%;火大的投票数为88%。

(二)语料处理

本文首先使用python语言编写程序,将49000篇新闻语料的新闻标题、投票数和8类情绪的投票比例数据从文本中抽取出来,然后将抽取的信息、数据在excel表格中根据投票数由高到低的顺序进行排序,并将排名前50位的新闻,根据中文新闻信息分类的一级类目进行了类别标注。

(三)新闻语料类别的统计分析

通过对语料类别的统计分析,我们发现新闻事件的类别主要集中在政治,法律、司法,社会、劳动和灾难事故四个类目中。政治类新闻有10个,法律、司法类新闻有11个,社会、劳动类新闻有12个,灾难事故类新闻有7个。按类别数由多到少的顺序是社会、劳动〉法律、司法〉政治〉灾难事故。因此,从网络舆情监测的角度来说,这些领域应该是重点关注的领域。

(四)网民关注焦点分析

为了进一步聚焦网民的关注点,我们通过对新闻内容的分析,对以上新闻事件数量最多的四个领域进行了更深入的分析。

1.政治领域。在政治领域,网民关注的焦点有: (1)关于政府、领导人等的负面新闻,如政府无能、官员腐败等问题。(2)关于政府、领导人等的正面新闻,如领导人廉洁自律,政绩卓著等事迹。(3)和民众切身利益相关的问题,如社会保障、社会分配不公等问题。

2.法律、司法领域。在法律、司法领域网民关注的焦点有:(1)违背伦理道德的犯罪问题。(2)贪污、腐败类犯罪问题。(3)犯罪手段特别残忍的问题,如伤害未成年人的犯罪等。(4)存在争议的问题,如是否废除死刑的问题等。

3.社会、劳动领域。在社会、劳动领域网民关注的焦点有:(1)正面社会行为,如保护弱势群体、救助行为、励志事迹等。(2)反面社会行为,如以貌取人、不孝、婚外情等社会不良行为。(3)劳动者权益问题,如损害员工利益等行为。(4)离奇事件,生活中一些不合常理的事件往往可以满足民众的猎奇心理,因此也常常引起民众的极大关注,如“鸡报恩”等离奇事件。

4.灾难事故类。在灾难事故类中网民关注的焦点有:

(1)灾难事故中的正面行为,如“市长车祸现场搬车救人”“白衣天使车祸现场救人”等。(2)灾难事故中的反面行为,如“警察超速撞死夜大生”“撞女童还踹人”等。(3)世界末日危机,这类特殊的灾难因关系着全人类的安危,容易引起民众的极大恐慌而成为关注的焦点。如“世界末日将于本世纪降临,人类将遭毁灭”等新闻。(4)灾难后果严重的事件。灾难后果严重的事件容易引起民众的怜悯、同情与恐慌,因此,灾难事故的后果越严重,网民的关注度往往就会越高。

(五)新闻事件性质和网民情感倾向分析

为了进一步分析网民的行为和情感倾向特征,本文对新闻事件的性质进行了统计分析,发现负面的事件有26个,正面的事件有11个,中性的事件有13个,网民关注的负面事件数量最多,占了52%的比例,这说明负面事件更容易引起网民的关注。因此,在网络舆情监测中相关人员应更加重视各领域的负面事件。而通过对网民情感投票的分析,我们发现,对于正面的新闻事件,网民的投票大多数是“感动”或“开心”;对于负面的新闻事件,网民的投票大多数是“火大”;而对于比较离奇的事件,网民的投票大多数是“超扯”,其情感倾向和事件的性质呈正相关关系,一般情况下网民支持、钦佩正义的行为而痛恨、鄙视违法犯罪或社会不良行为;而对于离奇的事件,大多数网民也抱着理性的态度,没有表现出明显的情感倾向;从感情强度和危害程度上来说,负面事件和负面情绪应是网络舆情监测的重点。

五、结语

本文通过对49000篇标注新闻语料的处理分析,通过由面到点、逐步聚焦的方法总结了网民关注的四大领域。并且,本文分析了各领域内网民关注的焦点问题和网民的情感倾向问题,初步总结出一些规律性的特点和认识,对于构建面向网络舆情监测的主题分类,把握网络舆情中的重点、关键点,及时了解舆情动向都会产生积极的作用。但本文分析的数据规模较小,研究结论还需进一步完善和验证,笔者今后将在更大规模数据的基础上总结更一般、全面的结论。

[1] 丁兆云.互联网多维层次式舆情指数若干计算方法的研究与实现[D].国防科学技术大学,2008.

[2] 杨永军.社会舆情监测与预警的指标体系研究[J].现代传播(中国传媒大学学报),2014(09):63-71.

[3] 李雯静,许鑫,陈正权.网络舆情指标体系设计与分析[J].情报科学,2009(07):986-991.

[4] 戴媛,郝晓伟,郭岩,余智华.我国网络舆情安全评估指标体系的构建研究[J].信息网络安全,2010(04):12-15.

[5] 邓尚民,董亚倩.基于AHP的高校网络舆情安全评估指标体系构建研究[J].情报杂志,2012(08):31-36.

[6] 陆瑞.水利工程舆情分析模型及指标体系设计[D].华中科技大学,2011.

[7] 谈国新,方一.突发公共事件网络舆情监测指标体系研究[J].华中师范大学学报(人文社会科学版),2010(03):66-70.

[8] GB/T 21063.4-2007,政务信息资源目录体系(第4部分,政务信息资源分类)[S].北京:中国标准出版社,2008:7-27.

[9] GB/T 20093-2013,中文新闻信息分类与代码[S].北京:中国标准出版社,2014:7.

G206

A

1674-8883(2016)23-0026-02

本论文为中央民族大学一流大学一流学科经费资助

李淑平(1980—),中央民族大学博士在读,研究方向:计算语言学。

猜你喜欢
语料舆情网民
基于归一化点向互信息的低资源平行语料过滤方法*
网民低龄化 “小网虫”的明天谁来守护
有关公路,网民有话说
消费舆情
舆情
舆情
舆情
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold