基于微博网络爬虫的巴黎圣母院大火舆情分析

2019-11-13 09:25周义棋田向亮钟茂华
关键词:巴黎圣母院大火发文

周义棋,田向亮,钟茂华

(1.清华大学 工程物理系,北京 100084;2.清华大学 公共安全研究院,北京 100084)

北京时间2019年4月16日凌晨,法国巴黎标志性建筑巴黎圣母院突发大火。大火造成巴黎圣母院塔尖倒塌,建筑毁损严重。社交媒体的流行,迅速让世界各个角落的人们目睹了这场灾难。得知消息后,人们很快通过微信、论坛、微博等社交媒体发送大量与巴黎圣母院大火事件相关的信息、照片和视频。

随着网络技术的推广,网络舆情分析越来越多地被应用于各类突发事件。网络舆情分析有助于掌握民众情感动态,为政府及官方媒体引导舆论走向提供参考。在自然灾害研究方面,刘雯等[1]将情感分析和时序分析引入到灾害网络舆情分析中,总结了网民情感波动的因素,预测了不同情感的舆情走势;崔满丰[2]通过我国网民对尼泊尔地震的关注度、观点和态度,分析了中国网民对尼泊尔地震的情感发展变化和舆论走向。在事故灾难研究方面,张展[3]通过对网络舆论的持续监测,对“7·23”动车事故发生后各媒体发布信息的时间和数量变化进行了探析;MA等[4]从舆论传播来源和传播规律两方面研究了网络舆论在大型火灾灾害中的作用。在公共卫生事件研究方面,王心瑶等[5]采用百度指数和新浪微舆情系统对比分析了2013年和2017年H7N9事件网络舆情的演变情况;卢文刚等[6]收集人民网舆情监测系统公布的数据,从发展趋势、媒介分布、舆情走势、地域分布、舆情话题分析了山东省非法疫苗事件。

目前,网络舆情分析的主要手段是通过网络爬虫等数据挖掘方法,从微博、微信、论坛等媒体平台获取舆论信息,采用量化分析、情感特征提取、关键词聚类等方法对舆情信息进行处理。李世豪等[7]通过Python爬虫在微博上爬取中美贸易相关的舆情数据,运用量化研究方法对传播内容和用户进行了分析,研究表明民间舆论逐渐趋于理性与成熟;卞增惠等[8]使用新浪舆情通系统对南京市流感相关舆情进行监测,采用描述流行病学方法对资料进行分析,有效回应了公众意愿和诉求,引导了舆情平稳发展;HAN等[9]以新浪微博为载体,研究了2018寿光水灾相关舆情信息的时空分布及其内容,并探讨了寿光水灾期间的公众情绪;金占勇等[10]运用全面数据分析法,以微博数据为主要样本,对盐城龙卷风事件的网络舆情传播进行了实证研究;孙帅等[11]以“北京发布”在“7·21”北京特大暴雨期间发布的相关微博为数据样本,探讨了政务微博如何引导突发事件网络舆情走势。此外,一些外国学者以Twitter、Facebook等为舆论载体,分析网络舆情以掌握公众的情绪。如CODY等[12]采集Twitter上含“气候”一词的推文,通过情感分析探讨了公众情绪随气候和自然灾害的变化情况;KARAMI等[13]提出了基于Twitter的舆情分析框架,用于了解灾害发生时的公众情绪,可为决策提供参考;DOAN等[14]和SHIBUYA等[15]分别搜集了Twitter和Facebook信息,分析了2011年日本地震和海啸后公众的情绪。

笔者以新浪微博为舆论载体,基于网络爬虫采集巴黎圣母院大火事件的舆情数据,运用量化分析和词频分析等方法,探讨我国民众对巴黎圣母院大火事件的舆论关注程度以及舆情信息的地域分布与情感走向。

1 研究方法

1.1 舆情信息获取平台

微博是基于用户关系的社交媒体平台,用户可以通过PC、手机等多种移动终端接入,以文字、图片等多媒体形式,实现信息共享。新浪微博现已成为我国最受关注的社交媒体之一,根据新浪微博数据中心发布的《2018微博用户发展报告》显示,微博月活跃用户达4.62亿。热点事件发生时,微博发文数有着增长快、数据量大的特点。爬取新浪微博的数据进行分析,其结果具有一定的代表性。此外,微博提供了高级搜索功能,可以根据需要按照指定关键词,在指定时间范围内对指定地区(指用户资料中填写的所在地)的微博用户发送的博文进行检索,这为采集舆情信息提供了方便。

1.2 舆情信息采集工具

舆情信息采集的工具为“八爪鱼”。“八爪鱼”是一款网络爬虫软件,可以识别各种网页元素,实现打开网页、翻页、页面滚动、采集元素文本等功能。简而言之,“八爪鱼”可以模拟人的操作进行网页的浏览和批量保存指定的文本数据,做到了眼见即可采,可以满足一定时间范围内微博发文数据的采集。

笔者所采用的数据来源于关键词“巴黎圣母院大火”微博高级搜索,采集舆情信息的时间范围为2019年4月16日0时到2019年4月17日24时,采集的信息内容为用户昵称、发文内容、发文时间等。最终获取的数据为我国34个省级行政地区(包括台湾、香港、澳门)以及海外/其他地区在每个小时内的微博发文数量及其发文内容。

1.3 分析方法

笔者使用的分析方法主要为对发文数量进行量化分析、对发文内容进行词频分析。对发文数量进行量化分析的目的是获取各个地区每小时内微博上关于巴黎圣母院大火的所有发文数量,以便绘制出发文数量随着时间变化的曲线及舆情信息的地域分布。但是在微博上,若某地区一个小时内发文数量超过50页内容,超出的部分内容将被隐藏而导致无法采集,这就需要对被隐藏的信息数量进行一个估计。

为了方便描述,首先做以下定义:

(1)一小时内微博信息总量Si等于各个地区该小时内的信息总数量之和,如式(1)所示;某地区微博信息总量Sj等于该地区各个小时内的信息总数量之和,如式(2)所示。

(1)

(2)

式中:i表示4月16日0时至4月17日24时这48小时内的任意一个小时;j表示我国34个省级行政地区(包括台湾、香港和澳门)和海外/其他地区。

(2)一小时内某地的有效采集时间tij,eff为该小时内采集到的信息所处的时间区间长度。一般情况下,tij,eff=60 min,若该地区一小时内发文数量超过50页内容,则tij,eff可能小于60 min。

(3)一小时内某地的有效采集数量Sij,eff是指在有效采集时间tij,eff内采集到的信息数量。

(4)一小时内某地的信息数量增长速率为vij,如式(3)所示。笔者假设在一个小时内vij保持不变。

(3)

(5)一个小时内某地的总发文数量Sij:

Sij=60vij

(4)

以4月16日7时到8时北京的数据为例,在这一个小时内,北京用户的发文数量超过50页。在7:33—8:00期间,北京用户发文数量达50页,7:00—7:32之间的信息无法获取。由于7时33分的信息也可能采集不全,取7:34-8:00为有效采集范围,即t7-8,eff=26 min。在这26 min内,有效采集数量S7-8,eff=961,则对应的信息数量增长速率为:

(5)

那么,北京用户在7时—8时的总发文数量估计为:

S7-8=36.96×60≈2 218

(6)

以此类推,可以计算出全国34个省级行政地区和海外/其他地区每小时内微博发文数量,从而通过求和计算出每小时的总发文数量以及每个地区的总发文数量。

对发文内容进行词频分析的目的是在舆论内容中提取出现频率相对较大的词汇,从而获取舆论的关注点与感情倾向。利用Python的jieba库对发文内容进行分词,统计每个词汇的出现频次,并根据出现频次从大到小对词汇进行排列。

2 结果分析

2.1 热度分析

根据采集所得数据,经过数量统计发现,4月16日当天,新浪微博关于巴黎圣母院大火总发文数量约为167 232条。4月17日,即大火发生后的第二天,微博发文总数量约为22 712条。可见仅过一天,舆论热度便大幅度降低。两天内,微博平台关于巴黎圣母院大火的发文数量随着时间的变化关系如图1所示。

图1 微博舆情信息时间分布

巴黎圣母院大火发生于4月16日凌晨0点50分左右,微博上有关大火的首条博文是由海外博主“@Eventyra”在01:19时发送的博文:“惹巴黎圣母院着大火了…里面墙上那些画啊”。而首条由官方认证账号发送的博文,是由“@俄罗斯卫星通讯社”于01时25分发送的博文:“据法新社周一报道,在巴黎的主要景点之一——巴黎圣母院发生火灾”。由此可知,民众网络舆论信息的传播可能早于官方信息。在大火发生后的一小时之内,便有1 849条有关大火的博文。而且此时处于凌晨,正是大多数人睡觉的时候,就已经得到了不少的关注。这也预示着这将成为一件热度极高的事件。

4月16日早上的7时至10时,正值人们开始工作、学习的时间,人们看到消息后纷纷转发,这时达到发文和转发的高峰期,每小时发文数迅速增长。7时—12时,每小时发文数便超过1万条,其中8时和9时达到峰值,每小时发文数超过两万条,具体数值如表1所示。10时之后,每小时发文数便迅速下降。7时—15时期间,每小时发文数量超过5 000条,巴黎圣母院大火事件在这8小时里保持了最高的热度。对比两天数据可知,17日的舆情信息数据量远远不及16日,体现了网络舆情传播的即时性、高速爆发的特点。

表1 4月16日和4月17日有关大火的舆情信息统计表

2.2 地域分析

将舆情信息按照地区进行数量统计,统计了我国34个省级行政地区(包括台湾、香港、澳门)以及海外/其他地区的微博舆情信息数量情况,统计的范围为4月16日与17日两天的所有数据,具体统计结果如表2所示。通过分析表2中数据可知,两天内发文数量最多的地区是北京,然后依次是广东、江苏、山东、浙江、上海等地,发文数量最少的地区是西藏。值得注意的是,大火发生后的两天内,有3 069条来自海外微博用户的发文,而这些海外用户大多是华人华侨,可见中国人不管身处何处,都时刻关心世界上的大事,为巴黎圣母院突发大火感到震惊与惋惜。

表2 微博舆情信息地域分布统计表

注:“其他”表示该微博用户没有明确填写用户所在地

舆情信息地域分布情况如图2所示,可以看出发文数量较多的为首都北京以及东部沿海、东南部沿海地区,我国中部地区也有着不少的发文数量。综合表2和图2数据可以得出,微博关于巴黎圣母院大火事件的舆情信息最多的地区为北京和广东,其余主要分布在我国东部、中部和东南部地区,而我国西南部、西北部地区关于巴黎圣母院大火事件的舆情信息数量则比较少。

2.3 词频分析

对微博用户的发文内容进行词频分析,获取出现频率相对较大的一些词语,出现频次排前10的词语如图3所示。

图3 词频分析柱状图

其中“巴黎圣母院”、“大火”、“法国”、“塔尖”等词跟事件直接相关,其高出现频次亦在意料之中。此外,词语“圆明园”的出现频次相当高,表明有不少人由巴黎圣母院大火想到一百多年前的火烧圆明园。两个事件都是文物受到了毁损,文明受到了创伤,但两把火烧出的是不一样的痛。不少人将两件事情放到一起进行讨论,这便是词语“圆明园”出现频率很高的原因。此外,在这10个词当中,让人感到比较陌生的是“卡西莫多”,但它也是这次事件中的热词之一,原因来自于人们的叹息“卡西莫多失去了心爱的姑娘,终究也失去了他心爱的钟楼”。

2.4 情感分析

在出现频率较高的词语当中,前10位都是对事件的客观描述,这些词语不具有感情色彩。若列出更多的词频分析结果,从中筛选出具有感情色彩的词语,便能从一定程度上把握民众的感情倾向。出现频率较高而且具有感情色彩的词语如表3所示。

表3 具有感情色彩的词语及其出现频次

由此可知,人们对巴黎圣母院大火事件的感情倾向主要分为2类:

(1)心痛与惋惜。“惋惜”、“可惜”、“心痛”、“遗憾”等词语的高频率出现,说明舆论对该事件的主流感情是心痛与惋惜。大多数人都对历史文明受到损失感到悲痛。

(2)祈愿。通过表3中数据可以得知,“希望”一词高频率出现。根据“希望”这个词语检索微博用户的发文内容可发现,大多数人“希望大火造成的损失小一点”,“希望人类文明不要再受到摧残”。官方微博账号“@圆明园遗址公园”更是发声:“衷心祈愿文物都能够远离灾难,代代传承。”

除了表3中展示的词语外,还有一些出现频率较小的其他词,比如“幸灾乐祸”出现的频次为3 469。“幸灾乐祸”这一词语主要出现在人们对于该现象的批评与谴责的评论中,真正表达出幸灾乐祸态度的博文中不会包含该词语。该现象表明仍然存在一些人在巴黎圣母院大火面前“拍手叫好”。甚至有人发文:“一百多年前你烧我园子,今天有人替我烧你院子”。同样都是人类文明的瑰宝,同样都是人类文明的损失,在巴黎圣母院大火面前,却只是冷笑一声,这样的行为值得我们思考。

官方微博账号“@圆明园遗址公园”对巴黎圣母院大火事件发声的时间是4月16日17时,通过对比官微发声前后民众的情感变化,可以分析官微在引导舆论走向上起到的作用。对官微发声前后的微博内容进行词频分析,以便了解民众的情感变化,结果如图4所示(柱状图表示词语的出现次数,折线图表示出现次数与对应时间段内发文总数量的比值)。

图4 官微发声前后民众的情感变化

由图4可知,在官微发声之后,“可惜”和“心痛”两词的出现频率相对而言略有减小,但程度不大,“惋惜”和“遗憾”两词的出现频率几乎不变。变化较为明显的是“希望”和“幸灾乐祸”,相比于官微发声之前,出现频率几乎增长了一倍。

“希望”一词出现频率的增加,表明多数的人赞成官方微博“@圆明园遗址公园”的观点,祈愿文物都能远离灾难。而“幸灾乐祸”一词出现频率的增加,反映了批评幸灾乐祸行为的人增多。由此可知,官微“@圆明园遗址公园”发声之后,民众舆论中出现了更多的正向言论。以上分析说明官方微博能够引导舆论的走向,在热点事件当中,各官方微博应积极引导网络舆情朝着正能量的方向发展。

3 结论

(1)民众对巴黎圣母院大火事件颇为关注,仅一天之内,微博发文数量便超过16万条。4月16日8时—10时之间是巴黎圣母院大火事件热度最高的时期,7时—15时之间的发文数量均超过5 000条/h,该事件以极高的热度维持了大约8 h,体现了舆情信息在短时间内的爆发性。

(2)微博关于巴黎圣母院大火的舆情信息主要分布在我国东部、中部、东南部地区,其中北京、广东用户最多。此外,海外华人华侨也对巴黎圣母院大火事件有所关注。

(3)舆论的主流倾向是对人类文明的瑰宝遭到损失表示心痛与惋惜,衷心祈愿文物都能远离灾难。巴黎圣母院大火事件为我国文化遗产敲响了警钟,我国必须始终保持高度警惕,增强忧患意识,加大对文化遗产的保护力度。

(4)官方微博账号能够引导舆论的走向。在热点事件当中,官方微博的积极引导,有助于民众舆论朝着正能量的方向发展。

猜你喜欢
巴黎圣母院大火发文
巴黎圣母院的神秘石棺
巴黎圣母院之殇——纪念巴黎圣母院
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
巴黎圣母院没有消失
巴黎圣母院在2019年
哈尔滨“8·25”大火 烧出了什么
致命大火
面对一场大火
校园拾趣
爷孙趣事