基于网络爬虫的用户评论数据分析

2020-03-18 09:42郁舒兰
智能计算机与应用 2020年10期
关键词:爬虫网页程序

瞿 娟, 郁舒兰

(南京林业大学 家居与工业设计学院, 南京 210037)

0 引 言

各种各样的网购平台促使人们的消费方式从线下转到线上,用户评论数据呈爆发式增长。用户会在购物平台上发表大量有关产品、服务、物流等个人体验的评价。用户评论是消费者了解产品真实情况的重要途径。目前,个性定制、个性服务已成为主流的趋势,如何通过消费者的评论来挖掘产品的发展趋势,将成为厂商盈利、扩大市场份额的重要手段。能不能迎合消费者的需求,引领产品的发展方向,将关系到一个企业的生死存亡。家具电商在新的商业模式下也面临着艰难的挑战。本文通过大量分析用户在网购平台上的文本数据,有效挖掘出有价值的信息,帮助家具行业在战略、营销或技术上寻找相应的变革机会和发展对策。

本文选取某购物平台中的某款家具产品的用户评论数据,使用现有的网络爬虫和文本分析技术进行分析。通过对评论数据的语义挖掘分析出用户对家具产品的关注侧重点,了解用户对已购家具产品的态度和意见,进而帮助未购买用户全方位了解已购买用户对家具产品的评价,同时也帮助家具企业更好的掌握家具用户的消费习惯和行为特征,把握自身产品的后续优化方向,并制定更加精准的营销策略。以某购物平台的一款折叠桌作为实例,对如何设计爬虫程序获取信息,及对获取的信息快速分析进行了深入探讨与研究。

1 爬虫的设计

1.1 程序需求及分析

网络爬虫程序的开发成功取决于程序是否能够实现用户定制功能,达到预期设计目的。本次研究即以某购物平台的一款折叠桌为例,通过爬虫对当前此款折叠桌的商品评论详情做出科学分析,而受技术、数据库以及服务器的限制,该购物网站只能显示前100页内容,故而针对此情况只能从天猫网站中获取该款折叠桌的前100页的商品评论内容和评论日期,在程序设计中,具备了较强的针对性。

1.2 爬虫程序设计

(1)爬虫程序设计思路。首先,需要获得所有该款折叠桌网页的源码;其次,在网页源码中寻找出与需求相匹配的信息,此时就需要连接爬虫系统和数据库,将每次成功匹配到的信息均存入数据库中,直至所有网页检索完毕。在数据爬取的过程中,针对天猫网站的高度反爬,还要引入适当的反扒策略,以此保证数据爬取的连续性[1]。爬虫程序的流程如图1所示。

图1 爬虫程序的流程框架

(2) 网页抓取。网页抓取是爬虫程序中最重要的部分,由于同一个IP 在短时间内的多次爬取,会被网站屏蔽,因此采用代理IP技术去访问,还需要加入 User Agent 将自己伪装成代理服务器。通过构造代理IP,每次随机选择访问 IP与用户代理的搭配,将自己伪装成来自不同IP 的用户访问,大大降低了被反爬虫的概率。

(3)网页源码分析。在提取好第一层URL 的源码后,分析当前文本,寻找用户需要的关键信息,根据用户的需求,还需要了解每一类工作的名称与对应网页链接,通过对 Elements 的寻找,发现每一个商品评论都位于 < div class=”tm-rate-fulltxt”> 标签中,每一个评论日期都在 < div class=”tm-rate-date”> 中。将所有的商品评价存入 rateContent 列表,将所有的评价日期存入与rateContent 列表对应的 rateDate 列表。

(4)信息获取。使用requests 库实现当前网页解析,同样也可以运用代理 IP 加上用户代理池随机选择与搭配的方法以便能够更加流畅地爬取信息。网页解析JSON格式数据,将获取到的页面数据转换为字典类型。

(5)MongoDB数据库的联合使用。某购物网站上的这款折叠桌的用户评论的信息相对来说是一个比较大的数据,MongoDB 数据库开源,易操作、并且速度、可靠性以及适应性,因此选择 MongoDB 数据库对爬取的数据进行存储。使用 MongoDB 8.0,并通过pymongo 库去对数据库进行操作,在程序开端,利用API 建立数据库的链接。

提取网页分析信息主要包括评价日期、评价内容和颜色分类,将这些数据导入所创建的数据库的表中,为下一步的用户评价分析奠定基础。本文利用数据库可视化工具 STudio 3T 展示部分爬取数据如图2所示。

2 数据分析

2.1 数据处理

利用网络爬虫程序从某购物网站上爬取了2019年10月18日11:43至2019年12月13日14:35的所有用户评论(共有9003条)数据,采集的内容包括用户评论的发布时间、评论内容、颜色分类等,研究与分析折叠桌的数据研,对用户、家具行业、产品设计师可起到一个初步指导的作用。

通过 Jieba 对读取到的文本数据分词处理,利用现有的停用词词典对评价内容进行清理,去除对句子理解无意义的词,此时可对处理过后的文本数据进行分析。通过 TF-IDF算法提取关键词,再采用共现分析技术进一步挖掘这些主题词的联系,获取共词矩阵。

2.2 数据分析结果

随着家具行业网购的人数每年不断上升,各个家具品牌店都纷纷建立属于自己的线上销售模式,用户评论数据也大大增加,在这种激烈的行业竞争环境下,如何通过研究激增的用户评论数据分析用户的关注点和行为特征从而改进产品、服务质量即已成为研究的热点与焦点。

图2 折叠桌的部分用户评论爬取数据截取

研究可得,大部分的购买人群比较关注折叠桌的质量、快递、稳定性、包装、外观、颜色、功能等,见表1。因此后续折叠桌在改良或迭代更新时需要考虑上述方面的问题。至于“床上”一词则表明用户经常在床上使用该款折叠桌。“结实”一词则说明用户普遍认为该款折叠桌较结实。

表1 天猫折叠桌的网购评论中的高频次关键词(前20)

分析高频次关键词的词频统计,可以清楚知道该领域中的研究热点。然而,仅仅依据关键词的出现频次排列,并不能理清这些高频关键词之间的联系,因此采用共词分析的方法来进一步挖掘这些主题词之间的联系,见表2。研究可得,“质量”、“物流”与折叠桌有较密切的联系,为购买人群比较关注的方面。

表2 天猫折叠桌的网购评论中的共词矩阵

3 结束语

本文设计了一个基于某购物网站中某款折叠桌的用户评论的网络爬虫数据采集程序,该程序能够登录网站获取页面信息,分析页面中的 URL链接,同时对筛选构造后的URL 链接再一次进行数据筛选,将用户获取到的数据存储到数据库,在此基础上将对数据进行深层次的挖掘,即运用一系列的文本数据分析手段,获得关于折叠桌的用户评价中潜藏的一系列重要信息。用户对该折叠桌的关注点主要集中在质量、稳定性、外观、颜色、功能、材质等产品特征上,除此以外还有对快递、包装、物流等服务上也存在较大的关注度。而用户关注的这些产品特征大部分都是折叠桌的产品卖点。因此折叠桌在下一轮的产品迭代研发中,需要加强自身产品的特色,在质量上严格把关,与此同时还需要重新设计包装,并加强工人在包装时的监督管理,确保线上的用户群体在实际收到产品时不会出现破损、污渍等问题。此外,折叠桌的用户群体对于价格并不看重,因此后续可以向较高品质上发展。进一步分析用户对该款折叠桌的潜在需求为:该折叠桌的品质需要进一步提升,能更加结实;对于价格上有较高的追求,不能接受便宜又廉价的产品,可向高品质方向发展;功能上无需多样化,能满足折叠桌的基本功能即可,折叠起来的过程流畅、不卡顿;优化其外观,即从颜色等角度出发;包装上要更仔细,不能在运输途中产生破损、污渍;放置在床上或其他地方时要具备较强的稳定性;在物流服务上,能加快发货速度;在客服服务上,买家在发现货物出现问题时,客服要第一时间处理,安抚购买者的情绪,维护品牌形象,做好售后服务,不可言语激烈,发生不可调和的矛盾等。

猜你喜欢
爬虫网页程序
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
给Windows添加程序快速切换栏
试论我国未决羁押程序的立法完善
基于Scrapy框架的分布式网络爬虫的研究与实现
基于HTML5静态网页设计
谁抢走了低价机票
“程序猿”的生活什么样
搜索引擎怎样对网页排序
英国与欧盟正式启动“离婚”程序程序