藏文网页主题爬虫系统的实现

2018-07-16 12:04洛松求培安见才让

电子技术与软件工程 2018年10期

文/洛松求培　安见才让

1　引言

信息技术发展进步迅速，不断出现新技术的现在，藏文信息处理技术水平也在不断地发展，互联网作为传输、存储、共享的介质，涌现了大量的藏文网站并且其数量呈现日渐增多的趋势。互联网上存在着大量的藏文信息资源，如果这些信息加工处理可用于语料库建设、信息检索、机器翻译、自动摘要等众多领域，有着举足轻重的应用价值。通用网络爬虫获取的信息几乎涵盖了互联网上的所有资源，它是面向整个互联网的，目标是尽可能多地采集网页信息，存在着时间效率不佳、占据很大空间的缺点，还有重复搜集所带来的额外带宽的消耗。主题网路爬虫与通用网络爬虫不同，它是具有主题相关判断功能的爬虫，这使得有助于提高抓取信息资源的质量和网络资源的利用率，节省软硬件资源。实现藏文网页的快速采集，并对主要信息内容进行筛选，可以建立内容全面的藏文网络信息资源数据库。

2　基于贝叶斯的藏文网页主题爬虫技术

2.1　贝叶斯分类算法

从前面的介绍可知，使用贝叶斯公式来估计后验概率最大的困难是难以从现有的训练样本中准确的估计出条件概率P(x|c)的概率分布。朴素贝叶斯分类器为了避开这个障碍，朴素贝叶斯方法对条件概率分布作了条件独立性的假设。具体地，条件独立性假设是

有了条件概率的简化条件之后，我们很容易将公式3-13的贝叶斯准则改写为：

公式（2）就是著名的朴素贝叶斯的表达式。

朴素贝叶斯分类算法主要分成如下三步：

2.2　基于贝叶斯的藏文主题网页相爬取算法

通过以上朴素贝叶斯分类算法原理可以总结出构造藏文网页主题分类器的方法，从而构造本文所需的教育（）、政治（）、宗教（）三个主题分类器。总体的构思是先计算样本训练集中三个主题特征向量的先验概率和藏文网页文档的条件概率，再计算待分类藏文网页文档的后验概率，最后利用贝叶斯分类算法确定实例的所属分类。本文提出的主题识别是基于朴素贝叶斯算法进行的，使用训练出的分类器对主题进行筛选操作，判断藏文网页的主题相关度。网页文档向量高的特征维数是文本分类中的困难所在，特征中存在一些与分类无关的噪音数据，高维特征反而会降低分类效率，甚至导致分类器无法运行。首先要克服的问题是，通过TD-IDF算法对特征提取降低特征维数，以提高分类器的准确性和时效性。本文中的朴素贝叶斯分类器的构造过程大体分为两个步骤，用训练集建立模型和使用测试数据集对未知类别的数据进行分类。

图1：系统工作流程图

2.2.1通过训练集建立模型

2.2.2使用创建的模型将未知类别归入到某个类中

根据贝叶斯分类算法，将待分类藏文网页进行主题分类判断。先对待分类网页进行藏文分词等预处理操作，通过统计出该网页中所有可以作为特征的不同关键词。再利用贝叶斯分类算法计算该网页文档的后验概率，这里需要得到的结果是在预设主题类别下的最大后验概率，以此判断该网页是否属于预设主题类网页，如果是则将该网页进行下载，反之放弃该网页。

3　系统总体结构

如图1所示，系统的总体工作流程，描述主要的工作步骤。

（1）首先系统选择主题类别，输入一个种子URL并对其进行初始化；

（2）将新URL添加到待爬取队列；

（3）判断待爬取队列是否为空，如果为则等待状态，否则从待爬取队列中出队，并向该URL对应的Web服务器发出请求，下载该网页；

（4）如果Web服务器未在时间内响应转到步骤3，否则将对该页面进行分析，包括链接提取、主题分析预处理（正文提取、藏文分词、特征选择）。

（5）将该URL添加到已爬取队列以防止重复下载。与预设主题相似则将存储该网页，否则放弃存储。再转到步骤2。

根据以上介绍的主题爬虫工作原理，确定构成主题爬虫的功能结构，主题爬虫系统主要分成了网络爬虫、网页分析、主题判断这三个模块。网络爬虫模块的任务是为采集网页做好铺垫，为后续工作做准备；网页分析模块是计算主题相似度的预处理阶段，对新网页进行分析处理，从网页中获取正文、URL链接等；主题判断模块是在之前的工作基础上，负责为系统进行主题相似度计算，是本系统的核心模块，它是基于贝叶斯分类算法实现其过程，主要包含训练模型和预测主题两部分。

4　总结

伴随着互联网中藏文信息的迅速发展，藏文搜索引擎技术也被很多学者和学术团体研究，对其关键技术网络爬虫的研究引起广泛关注。网络爬虫作为搜索引擎的关键性技术之一，国内外诸多企业、学术团体、学者不断在研究其技术。中文、英文等方面已经达到了非常成熟的阶段，出现了很多商业性的搜索引擎门户网站，其背后提供的技术支持由于商业盈利等原因，无从可知。藏文搜索引擎的研究仅是初步阶段，虽然出现了开始运营的搜索引擎，但其中的存在的问题是显而易见的。本文对垂直搜索引擎中的关键技术主题爬虫进行研究，选择适合于主题爬虫的爬行策略，从样本训练集中训练藏文主题网络爬虫相似度计算模型，运用朴素贝叶斯分类算法构造了基于教育、政治（、宗教（的分类器，并设计了基于贝叶斯的藏文网页主题爬虫系统，结合多线程技术以提升网页采集的速度，用C#语言编写，经过试验测试其结果及效率都达到了不错的效果。

藏文网页主题爬虫系统的实现

1 引言

2 基于贝叶斯的藏文网页主题爬虫技术

2.1 贝叶斯分类算法

2.2 基于贝叶斯的藏文主题网页相爬取算法