基于RSS技术的图书馆一站式信息服务

2010-09-19 13:53靳辉

黑龙江史志 2010年23期

关键词：排序文档个性化

靳辉

（哈尔滨金融学院图书馆哈尔滨150030）

基于RSS技术的图书馆一站式信息服务

靳辉

（哈尔滨金融学院图书馆哈尔滨150030）

为了完善一站式服务内容，提高图书馆信息服务水平，对RSS技术原理剖析后提出了基于RSS技术的一站式信息服务模型。该模型主要通过用户兴趣库的构建、信息源获取及RSS源文件的解析、多维权值排序算法来实现。最后给出了模型的误差仿真实验。此模型提高了图书馆信息服务的个性化程度，将知识、信息和用户衔接起来，以全新的视角改善了网络资源的使用率。

RSS 图书馆一站式服务信息服务

G202

现代信息技术的成熟加快了图书馆的数字化、个性化信息服务的进程。个性化信息服务就是根据用户的信息需求供给不同的信息内容，并利用好的信息供给刺激用户产生更高的信息需求并寻求满足。[1]为用户提供丰富、便利、主动、及时、有效的信息服务，充份加强对信息资源的分散性与用户需求特定性的协调；对信息服务的方式与用户的获取信息的方便度、满意度的协调；对信息供给的全面性、相似性与供给速度的协调已成为高校图书馆的观注重点。本文以RSS技术为基础建立双向协调性、学习性、互动性完备的一站式服务模型，为不断提高图书馆个性化、学科化、专业化服务水平提供技术平台。

一、RSS技术原理

1、RSS技术特点

RSS技术是基于XML标准建立的内容包装和投递的协议，是各站点之间共享内容，实现个性化信息服务的信息聚合技术。服务提供者将信息以记录的形式封装成RSS文件，直接被其他站点调用或在其他的终端和服务中使用。还可根据用户的定制项目，由RSS Reader（专用/在线阅读器、Web浏览器）提取信息，以用户感兴趣、习惯的显示方式向用户提供一站式信息服务。RSS以其特有的高度联合性、个性化动态聚合性让用户可以选择性地过滤、订阅出自己感兴趣的消息，并且获得的是全绿色无垃圾信息。用户不必在各网站来回切换查找信息。RSS文件封装及发布在技术实现上是极为简单的一次性的工作，操作简单、低成本、强时效性是其他方式所无法比拟的。

2、RSS文件举例说明

2006-10-1508:59:36

2010-04-1521:59:36

……

元素说明：元素作为根元素，version属性指定RSS版本，每一个RSS文件包含一个channel元素，channel至少包括：title、description和link元素，channel的title应该和Web站点的title尽量一致；description简单介绍该channel是做什么的，一段简单描述；link是与该channel关联的Web站点的URL。Channel元素可含若干个item子元素，每个item又包含了一个title、一个description和一个Link。一个item代表一条消息，就像报纸或者杂志上的一条新闻，那么description就是描述了item的大纲，link给出了指向这条item完整内容的地址。item的所有子元素都是可选，但是至少需要存在一个title或者description。pubdate子元素记录channel或item内容的公布日期。[2]

二、基于RSS技术的一站式信息服务模型

1、信息服务模型结构

模型结构如图1所示，该模型说明如下:

图1 基于RSS的一站式信息服务模型

（1）用户通过Web浏览器或RSS阅读器获得服务内容。并可以对感兴趣的内容进行自助式定制。

（2）模型根据用户输入的相关内容对其兴趣爱好进行分析建模，从而构建用户兴趣库。

（3）模型提供网络信息源有RSS源信息和非RSS源信息。RSS源信息来源于信息发布者（主要是搜索引擎提供商）将用户的检索信息归类、主题聚合后根据RSS规范[3]生成RSS文件并发布；非RSS源是未进行RSS规范化的资源（如传统的网页信息，以HTML格式为主）和图书馆自建数据源，如根据自我特色而建立的数据库，如特色专题知识库、本校教师文献库等。[4]

（4）对于RSS源信息要进行RSS文件解析，实现信息特征表示，与用户的兴趣特征进行比较，按相似度进行排序后提供给用户，实现在线浏览。对于非RSS源信息用户可以直接访问获取，也可以由信息发布者规范化后形成RSS源文件发布后使用。

（5）模型对RSS文件进行分类管理。及时地将更新后的最新的信息个性化地推送给用户。

（6）与新型图书馆OPAC[5]系统的结合，用户不必再访问多个网站就可完成所需内容的获取。真正实现一站式信息检索服务。

（7）提供自助式交流服务，如虚拟参考咨询、定题服务、学科导航、特色专题知识库导航。

三、相关技术方法和算法

1、数据使用挖掘技术

使用数据使用挖掘（Data Usage Ming）技术构建兴趣库，从文档和服务中自动发现和抽取信息，能够帮助进行信息分析和信息处理，从而改进服务。[6]数据使用挖掘主要包括两种方法:①利用COM技术，[7]与浏览器交互，用ATL(活动模板)实现与IE或Netscape等交互的DLL(动态链接库)来收集用户个性化数据。②通过对用户访问日志的挖掘以发现用户访问模式和预测用户浏览行为的技术。

2、向量空间建模算法

向量空间建模的基本思想是将文档和个性化需求表示成为所有索引项组成的向量空间中的点，通过向量空间关系来定义和计算文档与用户兴趣的相关度。设定一个文档：

其中Tk(1≤k≤n)为文档的基本组成单位(字、词、词组或句子等)，称为项。Wk(1≤k≤n)被赋予对应项的权重，表示其在文档中的重要程度。常用的计算权重的方法：

公式（2）中，W(t,d)为项t在文档d中的权重，tf(t,d)为项在文档中出现的频率，N为训练样本总数，nt为训练样本集中出现的文档数，分母为归一化因子。

3、信息获取方法

对于非RSS源的获取本文采用了基于链接密度和统计结合的网页正文提取方法。该方法首先判断4个参量：链接节本密度LTD(li.nk text density)：某个节点下所有链接的文字的长度与所有文字长度的比值；链接个数LA(Link Amount)：该节点下的所有的子节点中含有链接节点的个数；链接个数密度LAD(Link AmountDensity)：该节点下所有的子节点中链接节点个数和所有节点个数的比值；节点文本长度NTL(Node Text Length)：一个节点下去掉网页标记后的所有文本的长度，根据4个参量的值判断文本的位置，然后抽取。

4、相似度排序算法

信息按照用户兴趣度高低顺序依次推送给用户是个性化服务的目的。本文采用多维权值排序算法(MWRA)实现信息源排序。其数学化形式为：

Mw为多维检索衡量权值；R为信息本身的客观重要度权值，通过超链接的引用情况获得；S为用户输入的检索关键词与网页的匹配度；I为用户自身的检索习惯与信息的相似度值;T为信息更新的时间。这个T值由用户自行指定。对用户兴趣库的数据用R,S和I值得出Mw值进行综合排序后，再利用T值对于相同的Mw值的页而按时间先后进行排序，最终的网络信息是按符合度递减的顺序反馈给用户。

四、实验分析

利用Matlab对查询信息数据进行模拟分析，对比信息查询和获得信息相似度之间的误差，若是误差越小，说明信息服务质量越高、供给的信息越准确，即信息服务的个性化服务质量越高。设神经元个数为1000，采用sigmoid函数，a取0.2,误差测试结果如图2所示。通过实验，随着样本量的增加，误差趋于0。显然得出本文提出的模型检索信息误差较小、准确率较高。

图2 模型误差分析

五、结束语

本文提出了基于RSS技术的一站式信息服务模型及相关技术算法，通过对知识和信息的过滤，使得隐性知识通过网络实现显性化，把网络上的最新信息资源推送给用户。基于RSS技术一站式信息服务模型提高了图书馆信息服务的个性化程度，将知识、信息和用户衔接起来，完善了一站式信息服务内容，以全新的视角改善了网络资源的使用率。

[1]胡昌平等.信息服务与用户[M].武汉：武汉大学出版社，2008：200-280．

[2]张延伟,RSS技术及其在数字图书馆中的应用探讨[J],图书情报研究.2009,2(1).

[3]Winer D.RSS2.0 Specification（2.0版规范，）[EB/OL]http://blogs. law.harvard.edu/tech/rss,2005.05.20

[4]张立彬,杨军花.基于RSS的搜索引擎技术及其发展趋向探析[J].情报科学.2009,27(2).

[5]胡潜,汪会玲.基于RSS的个性化推送服务[J].情报杂志.2008,10.

[6]HAN J.数据挖掘感念与技术2版[M].范明,译.北京:机械工业出版社.2007:100-163

[7]Kelly D,Teevan J.Implicit feedback for inferring user preference:a bibliography[C].ACM SIGIR Forum 37(2)(2003):18-28.

靳辉，女，硕士研究生，哈尔滨金融学院图书馆技术部馆员。