基于Web数据的水果食用之后不良反应的挖掘

2018-03-30 02:26冯越宋舒晗李利敏冯洪海

电子技术与软件工程 2017年16期

冯越宋舒晗李利敏冯洪海

摘要

水果可以提供大量人体必须的微量元素、维他命元素等，是人体健康不可缺少的食物来源，但有些水果对特定人群可能带来伤害。通过开发网络爬虫软件获取截至2017年8月百度搜索中264种水果食用后的不良反应数据，通过统计学方法对筛选后的224条数据进行统计分析得出食用水果后出现腹泻的可能性最大和食用西瓜最易产生不良症状。

【关键词】互联网医疗网络爬虫

1 引言

据中国互联网中心发布的《第37次中国互联网发展状况统计报告》显示，2015年中国互联网医疗用户数量己达1.52亿。互联网积累了大量有关食物的营养数据以及医疗禁忌信息，是人们医疗保健方面的宝贵财富，因此如何有效的利用这些数据更好的为我们服务便成了现阶段面临的主要问题。目前，我国己有一些学者从不同角度对在线医疗咨询数据的信息挖掘进行了研究。洪弘[1]等研究了医疗数据挖掘的特点、过程及方法。冯洪海[2]等通过开发爬虫软件统计分析了现阶段互联网医疗用户症状和疾病的分布。魏强[3]通过研究医疗数据存储与分析系统，分析了疾病间的关联关系。

网络爬虫[4]又称为网络蜘蛛和网络机器人，是按照一定规则自动爬取万维网信息的一种程序或脚本，可以自动采取所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。在互联网搜索引擎或其他类似网络中广泛应用。

本文通过开发网络爬虫软件获取截至2017年8月百度搜索中264种水果食用后的不良反应数据，通过筛选得到最终的224条。针对这些数据，用统计学的方法得出大量食用某种水果最容易出现的症状，和吃什么水果容易引起的不良反应最多。

2 程序设计过程

实现网络爬虫大致有两种方法：Java和非Java方法。本文采用Java的Jsoup技术，他是一款可直接解析某个URL地址、HTML文本内容的HTML解析器。它提供的API，可通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。

爬取百度搜索较以往最大的区别在于不规则网页的处理，百度搜索出来的网页格式多样，给整个程序的设计带来了巨大的挑战。本文采用多级网页爬虫的方式获取数据，模拟用户输入关键字，获得某种水果不良反应的一级链接，然后读取每条一级链接中包含二级链接的网页内容，从中提取出各種水果所对应的不良反应。

在代码的编写过程中，为了应对因频繁访问造成的代码被限制问题，本文采取用户代理（User Agent）的策略，在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中。如果获取的网页内容为空，那么程序就将在0-n毫秒之间随机休眠。如果休眠后仍然不能够得到数据，那么将跳过此页面，进行多次实验后，最终将n设置为200。

为了避免程序在连接某个页面时花费较长时间，和应对一些获取不到连接的网站，本文对程序的最大连接获取时间进行了限制，提高了程序的效率。如果程序在m毫秒内不能获取到网页的链接，就跳过此网页，经过反复实验，本文将m设置为6000，即允许每个网页的等待时间为6秒。

由于网页的多样性，得到链接之后的内容提取也是一大难题。网页提取内容的具体流程如图1。

3 实验结果

通过对264种水果不良反应识别，对识别结果进行统计，结果显示吃西瓜后出现不良反应的次数最多，为18次，占所有水果出现不良反应数量的8.04%其次是香蕉，占5.80%。出现次数最多的前十种水果如图2。

在224条数据中，吃水果最易引起腹泻，占所有症状的9.82%；其次是消化不良，占4.91%。出现次数最多的前十种症状如图3。

4 结束语

本文通过对百度搜索数据进行挖掘，获取了5280条链接264种水果食用后容易引起的不良反应，对筛选后的224条数据进行统计分析，在程序中采用用户代理和程序休眠的方法提高爬虫效率。针对这些数据，通过统计学方法调查食用水果后出现不良反应的分布和容易引起不良症状的水果分布，其结果显示，264种水果中吃西瓜后出现的不良反应次数最多，在224条不良症状中，吃水果最容易引起腹泻。之后的研究可以在以下方面进行改进：获取更加丰富、准确的数据资源；进一步改进算法，提取提取精度；从更多的角度分析统计结果。

参考文献

[1]洪弘，李玲娟.医疗数据挖掘的特点、过程及方法[J].价值工程，2011，30（32）：166-167.

[2]冯洪海，孙远灿，李利敏，宋舒晗，黄俟辉.基于Web医疗数据的互联网医疗用户研究[J].计算机时代，2017（04）：41-46.

[3]魏强.基于云计算的医疗数据处理技术研究[D].贵州大学，2015.

[4]陈琳，任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程，2016（09）：97-99.