武夷山景区游客在线评论的可视化分析

2021-05-28 12:37吴清寿张祎航罗远华
现代计算机 2021年10期
关键词:词库大红袍分词

吴清寿,张祎航,罗远华

(武夷学院数学与计算机学院,武夷山354300)

0 引言

在线旅游网站上的游客评论能够较好地反映旅游目的地的“吃住行娱购游”等旅游六要素的真实情况。对游客在线评论进行采集和可视化分析,可以给旅游行业管理部门,旅游企业和其他游客提供有益的参考。

基于评论数据的挖掘分析研究中,郭丽环等人[1]等以厦门地区酒店的在线评论数据为研究对象,分析了游客在酒店选择上的情感倾向。鲍珊珊等人[2]以国内主题公园为研究对象,通过分析游客在线评论,对主题公园的发展提出了参考意见。王雨文等人[3]等采集了游客对湄洲岛景区的评论内容,从多个维度对相关要素进行了满意度分析。通过词共现网络进行各个领域相关热点的研究也逐渐成为了一种趋势,如胡丹妮等人[4]基于词共现网络对国内教育教育的专业建设现状进行了分析研究,赵丽梅等人[5]等分析了智慧图书馆中的四个主要研究热点。

本文以针对武夷山景区的在线评论数据为研究内容,利用相关技术从评论数据中抽取关键词,之后,利用词云和词共现网络对高频关键词进行可视化分析。

1 数据采集

本研究以携程网上游客对武夷山景区的在线评论数据为研究对象,采集内容包括评论内容、旅游目的地名称和评论时间三个要素,本文主要对指定时间段内的评论文本进行分析。

数据采集步骤如下:

(1)从浏览器中获取User-Agent,将爬虫脚本模拟成真实的浏览器请求;

(2)用Python中的requests库模拟浏览器请求旅游目的地页面的URL;

(3)用lxml库对网站返回的信息进行解析,并提取所需数据;

(4)把获取的评论数据内容写入文件进行保存。

2 评论数据分析技术

评论文本需要经过系列处理,最后得到每条评论的关键词。其主要流程包括:中文分词、停用词处理、加入自定义词库和关键词抽取等步骤。

2.1 分词与停用词处理

游客评论数据是非结构化数据,首先需要对其进行分词处理。本文采用jieba分词工具包进行分词。jieba工具包包含多种分词模式,如精确模式、全模式和搜索引擎模式等。其中,精确模式下,每个字符只会出现在一个词语中,有利于后续的词频统计和数据分析。

分词后的数据中仍包含一些无助于语义分析的词语,如“的”、“呢”、“了”等,所以对词库进行停用词删除操作。停用词库采用文献[6]中的词库,其包括中文停用词表、哈工大停用词表、百度停用词表和四川大学机器智能实验室停用词库。

2.2 自定义词库

jieba库对于陌生的词组不能准确地识别为一个词,如:“印象大红袍演出真好看!”,默认情况下,分词结果为“印象/大红袍/演出/真/好看!”。这个问题对游客评论数据分析有较大的影响。因为武夷山有大红袍景区和印象大红袍剧场,上述的分词结果可能会分析为游客对大红袍景区的印象为好看,这与游客评论的初衷相悖。

为解决这个问题,本研究采用了人工标注的方法,即对于一些表示评论主体的词汇,如果jieba无法正确识别,就通过人工标注的方法,将完整的词汇加入到自定义词库,并逐步将自定义词库加入到jieba库中。通过自定义词库,能够有效地识别出游客评论信息中的主体对象。如将“印象大红袍”作为一个自定义词,则最终的分词结果为“印象大红袍/演出/真/好看!”

2.3 基于TextRank的关键词抽取

由上述步骤得到的词语中仍存在较多的冗余词汇,需要用TextRank算法进一步抽取关键词,其主要步骤如下:

(1)首先进行评论文本预处理。基于自定义词库和停用词库,将文本划分为预处理词库;

(2)将预处理词库中的Word添加到图(Graph)中,作为图中的一个节点;

(3)对处于同一窗口范围内的Word之间建立一条连边;

(4)用PageRank算法计算图中节点的pr值;

(5)选取topk个pr值最大的节点所对应的Word作为关键词。

其中,PageRank算法[7]计算网络中节点的pr值,pri表示节点vi在的影响力值,其第t轮迭代的值定义如式(1):

在无向图中,Γi表示vi的邻居节点集合,N为网络中节点数量,参数α设为0.85。

3 数据分析与可视化

3.1 高频词分析

本次采集游客评论数据30000条,经分词处理后和自定义词库处理后,最后得到词频最高的关键词600个,其中,词频最高的20个词如表1所示。

表1 词频最大的20个词语

可以看出,游客对于武夷山旅游中印象最深刻的景点就是“竹筏”、“天游峰”、“九曲溪”等主流景点。游客对武夷山旅游的情感也基本是正面的,如“值得”、“震撼”和“喜欢”。

3.2 基于词云的高频词分析

为了更加直观的观测游客评论喜好,本部分选择词频最大的30个和100个词语进行可视化,可视化工具选择WordCloud。可视化结果如图1所示。图1(a)中的结果与表1较为接近,显示“竹筏”和指代“竹筏”的“漂流”是游客关注的热点。图1(b)中展示了更多的信息,如“大王峰”、“水帘洞”和“虎啸岩”等更小众的景点也出现在游客的高频次评论中。同时,可以看到“表演”、“舞台”、“旋转”等词语,这些基本都是对印象大红袍剧场的评价。

图1 高频词的词云图

3.3 词共现网络

通过构建词共现网络,可以更好地展示游客对评价主体的总体认知。把一个关键词(如“九曲溪”)当做词共现网络中的一个结点,以句子为计算单位,构建词共现关系。词与词的共现词数是作为两个节点的权重,权重越大,节点的语义相关性越强。此处选择共现权重为50和300的关键词构建共现网络,得到结果如图2所示。

图2 词共现网络

图2中,权重越小,则满足条件的连边越多,节点间的联系越紧密。通过扩大权重,稀疏化节点的连边关系,可以更好地观测游客评论中共同出现的词汇情况。如图2(b)中所示,提到武夷山,更多出现的是武夷山的相关景点,如“大红袍”、“玉女峰”等。另外,反映武夷山地理特征的“丹霞地貌”在大量出现在有关武夷山景区的相关评论中。

4 结语

本文介绍了游客评论数据的采集、分析和可视化的主要技术和流程,并对数据可视化结果进行了分析。基于词云的可视化能够更好地揭示游客的评论重点及对旅游目的地的情感倾向,而基于词共现网络的可视化能够在更多细节上反映出游客对具体旅游要素的观感。

在下一步的研究中,将继续完善自定义词库,以提高中文分词中的主体识别准确率。本文的词共现网络分析的主体还不够精细,要进一步完善算法,以期能实现对单一主体的挖掘分析。

猜你喜欢
词库大红袍分词
小鞭炮
分词在英语教学中的妙用
一“吃”多用
结巴分词在词云中的应用
结巴分词在词云中的应用
神秘的武夷山大红袍
大红袍
大红袍,状元的救命茶
输入法词库乾坤大挪移
初探《计算机专业英语》教学