互联网视听节目监测系统及相关技术浅析

2014-05-19 14:19单怀荣
科技与创新 2014年4期
关键词:监测系统网页技术

单怀荣

摘 要:随着经济的发展和社会的进步,互联网视听节目呈现遍地开花的态势。互联网视听节目监测系统技术也越来越重要。通过介绍互联网视听节目监测系统及其相关技术,以期能够为同仁提供参考。

关键词:互联网视听节目;网页;监测系统;技术

中图分类号:TP393.02 文献标识码:A 文章编号:2095-6835(2014)04-0129-02

1 系统架构及其主要功能

1.1 未审批网站搜索

1.1.1 未审批站点(非法站点)的发现

未审批站点搜索引擎(专用搜索引擎)可以通过互联网进行全方位、快速的扫描,以发现网络传播视、音频节目的站点。对发现的视、音频站点,系统要通过统一的接口将信息上传至信息处理层,处理层对这些信息进行分析和组织后,将站点信息存入中央数据库中。未审批站点搜索可以将搜索范围限定在指定领域内(某省份、某地区、某个IP地址段)。以杭州市为例,搜索范围主要集中在杭州市内,并且能够略过已通过广电部门审批可以合法通过互联网传播视、音频节目的站点,最大程度地降低了资源浪费和用户处理工作量。网站信息包含站点域名、IP地址、物理地址、是否为直播站点等相关信息。

1.1.2 未审批站点节目信息分析

搜索引擎能够快速地在网络上搜索信息,智能分析系统可以有效地分析出网站中播放的各种节目的信息,例如,哪些站点提供了直播的节目,站点播放节目的名称等;也可以对站点进行分类,分析出色情、反动等信息的存在。

1.1.3 未审批站点搜索结果信息审核

提供对信息结果的查看和查询功能,查询功能灵活、高效,可根据多种条件进行查询。对搜索到的各种结果和数据提供修改功能,除了域名IP等固定信息外,都可以通过修改功能进行信息校准,并补充现有信息。

1.2 审批网站搜索

智能分析系统可以分析出网站中播放节目的各种信息;可以对站点灵活分类,识别节目内容是否存在违规情况;可以对节目进行类似的可配置分类。通过搜索引擎,可以准确地发现网站上播放的视、音频节目。

1.3 重点网站搜索

系统可以对产生影响较大、访问量较高、节目数量多的视听网站进行重点监控。监控结果可查看重点网站监控的数据,结果中会显示网站名称、网站域名、所在省份、所在城市、节目数等信息。节目信息包括节目标题、节目统一资源定位符(URL)、节目类别、节目网页快照和节目下载情况等信息。重点网站的信息,可灵活地根据不同条件进行查询,灵活制订分类策略,对站点进行分类。

1.4 其他功能介绍

1.4.1 网页快照

提供基于网页数据快照的数据取证功能。系统将搜索时发现的视、音频节目的网页内容中的有效信息存储到本地(去掉大量的图片信息),用户可以将这些网络快照作为历史留存和处罚的证据。

1.4.2 IP地址定位

系统通过国内IP地址信息库提供准确的非法网站物理地址的定位信息,也可以基于非法站点的域名、IP地址发现网站服务器所在的省份、城市,部分可以精确到提供服务器的公司名称。

1.4.3 非法站点警告及反馈

系统提供一个简单的电子邮件自动发送平台,用户可以根据需求对情节非常严重的站点进行电子邮件警告。同时,系统会提供技术手段记录警告内容,并且通过日程安排模块提供警告追踪和提醒,综合、全面地进行站点警告、反馈和处理等管理操作,简化管理流程。用户可以通过该模块记录对网站的警告、网站的反馈和与其沟通的过程,有效了解网络的历史遗存问题,掌握第一手管理资料。

互联网视听节目系统架构如图1所示。

2 相关技术浅析

2.1 搜索引擎技术基本原理

2.1.1 网络爬虫

网络爬虫是基于HTTP协议的网络应用程序。通过网页的链接地址来寻找网页,从网站上的某一个页面(通常是首页)开始读取网页内容,并抽取网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,一直循环,直到把这个网站所有网页抓取完为止。

增量式网络爬虫是对已下载网页采取增量式更新或只爬行新产生的、已经发生变化的网页,有效减少了下载量,减少了时间和空间的耗费,提高了视听节目监测系统的效率。

2.1.2 索引器

索引器的主要功能是分析收集的信息,按照一定的结构将信息组织成有序文件进行存储,并建立相应的URL、网页内容和网页内容偏移等索引。它主要用到的技术有分词、索引词选取、停用词过滤、索引归并、索引压缩、索引更新和倒排文件缓存。

2.1.3 查询器

查询器的主要功能是通过用户接口界面,在本地数据库中查找与用户要查询的内容相匹配的信息,并进行文档与查询相关度的计算,将排序结果以一定的形式返给用户。

2.2 网页分析技术

2.2.1 视频网页搜索和判断

在互联网视听节目监测系统中,搜索引擎的作用就是在网络上搜寻视、音频网页,因为网络上的数据是不断更新的,种类也是不断变化的。搜索引擎首先负责的就是将网络上各种格式(avi,mp3,ram等)的视、音频节目的具体信息搜索下来,其中包括网页地址、浏览量、用户评论和作者信息等。

一般情况下,互联网部分视频网站的视频网页的URL都有较明显的规律可循,通过这些规律,可以简单、快速地判断网页中是否包含视频。例如,土豆网中包含视频的网页主要分为两大类,由单个视频和专辑中的视频组成,其网页URL格式表示如下:

单个视频:http://www.tudou.com/albumplay/……=.html.

专辑:http://www.tudou.com/list/……=.html.endprint

还有一类视频网页有统一的、有规则的网站,通过正则表达式就可以简单、快速、方便地判断出对应网站内包含的网页是否是视频网页。以土豆网为例,系统可以使用下面定义的正则表达式进行判断:

单个视频:http://www.tudou.com/albumplay/_(.*)=.html.

专辑:http://www.tudou.com/list/_(.*)=.html.

通过网页的URL,使用上述正则表达式匹配成功,则可以认为该网页中包含视频。

2.2.2 网页内容分析

互联网上的大部分资源是主要是超文本标记语言(HTML)网页资源,HTML网页必须通过网页分析、处理后才能用于索引和检索,很多相关的计算都需要解析后的HTML网页,比如网页内容相关度计算、关键词频率计算,等等。HTML网页的分析和处理,主要是初步完成网页格式的解析,去掉网页中显示格式的控制元素和无意义的标签信息。网页中的多媒体、图片等文件有许多不同的编码格式, 一般都是通过链接的锚文本(即链接文本)和相关的文件注释来判断这些文件内容的。另外, 还可以通过多媒体文件中的文件属性了解文件的内容。

系统对网页内容、编码、类别等作相应的分析、处理:对网页内容进行编码转换,自动对中文编码进行识别、转化,将其他种类的编码类型转换成GBK(即汉字编码“国标”);将繁体字转换成简体字;并取页面的标题、关键词、摘要和其中的超链(Hyper Link)等关键数据生成摘要。

2.2.3 中文分词技术

该系统主要采用基于词典的中分分词算法、基于统计的分词算法和基于语义的分词算法。

基于词典的中文分词算法包含三个要素,即分词词典、字符串匹配原则和文本扫描方向。词典匹配法通常作为初分手段,其步骤简单,易于实现,且可以正确地切分出包含在词典中的词语,在现实中被广泛使用。

基于统计的中文分词算法是以相邻的字之间共同出现的频率或概率作为基于统计分词方法构建词的基本依据。

基于语义的分词算法是把语言学的相关知识加入到分词规则库中,它是模拟人脑对语言和句子的理解,达到识别词汇单元的效果。要建立完整的分词规则库还是存在很大困难的,目前这种分词方法还没有得到广泛应用。

〔编辑:白洁〕

Abstract: With the development of economy and the progress of the society, the trend of blossoming over Internet audio-visual program. Internet video monitoring system technology is also more and more important. By introducing the Internet audio-visual program monitoring system and its related technology, in order to provide reference for colleagues.

Key words: internet audio-visual program; web page; monitoring system; technologyendprint

猜你喜欢
监测系统网页技术
基于HTML5静态网页设计
搜索引擎怎样对网页排序
基于数据融合的掘进机截齿磨损状态监测
基于广播模式的数据实时采集与处理系统
探讨电力系统中配网自动化技术
移动应用系统开发
北京市中小企业优化升级
GIS设备局部放电监测系统的研究
网页智能搜索数据挖掘的主要任务