基于异构技术的数字图书馆信息统计平台

2016-07-09 16:07尤胜
现代电子技术 2016年7期
关键词:数字图书馆

尤胜

摘 要: 针对传统图书馆数据库结构混乱、检索信息分散、无序、使用不便的现状,研究和设计了一套基于异构技术的数字图书馆统一检索查询系统,改善了传统检索方法,使用户可以通过统一的检索界面查询不同的数据源。系统的核心部件为信息统计平台,其功能是根据用户请求的信息,提取有价值需求进行翻译转化,然后返回有效的检索结果。系统基于Web Services技术和Portal技术设计,通过信息统计平台上的对比实验,证明了该系统的可靠性、可扩展性,实现了系统的预期目标,可以方便地帮助用户进行统一数据信息的检索。

关键词: 数字图书馆; 信息统计; 统一检索; Web Services; Portal

中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)07?0167?04

Abstract: Since the traditional library has the disadvantages of chaos database structure, scattered and disordered retrieval information, and inconvenient use, a unified retrieval and query system of digital library based on heterogeneous technology was studied and designed to improve the traditional retrieval method. The users can query different data sources by means of unified retrieval interface. The core assembly of the system is the information statistics platform, its function is to extract and translate the valuable demand according to the information of user request, and then return the effective retrieval results. The system design is based on Web Services technology and Portal technology. The results of contrast experiment on the information statistics platform prove that the system is reliable and scalable, and can conveniently retrieve the unified data information for the users. The expected goal of the system was achieved.

Keywords: digital library; information statistics; unified retrieval; Web Services; Portal

0 引 言

随着计算机技术,特别是Internet技术的迅猛发展,通过自建、引进数据库,图书馆已经使得电子资源的建设具有一定的规模,电子文献占文献服务的比重也越来越大。在这些信息服务和管理系统中,数据资源是一个很重要的部分,实际情况却是各个不同的数据管理系统被不同业务所运用[1],这就构成了企业所谓的异构数据库,即由单纯的文件数据库到繁复的网络数据库[2]。

当前“信息孤岛”现象的形成就是因为各个业务范围根据自己的业务需求引进或自主研发各种应用系统,而应用系统的研发之间缺乏基本的沟通和统一的规划。应用系统同数据联系十分密切,当采用数据库和所依据的硬件平台各异时,所呈现的数据表现形式和数据模型也千差万别 [3]。

不同部门和不同业务常常采用不同的数据库管理系统(如Oracle,SQLServer,DB2等)和不同的网络电子资源无缝链接整合软件系统(如Metalib,Sfx,Aleph等),同时运行于不同的计算机操作系统(Windows,Unix,Linux等),据此,数据的异构性得以构成。部门、单位、行业决策分析和信息化管理的非常大的不便性就是由数据异构带来的,为了解决这一问题才产生了数据整合技术[4]。

企业所收集的各类内部应用系统数据库以及外部信息数据库都由数据平台进行整理合并,通过对各种各异数据资源的有效利用使得数据的展现方式更加灵活。提高企业的信息化程度[5]。

1 信息统计平台系统设计

1.1 系统方案和设计原则

基于数据的异构性,把已有的资源进行整合,在统一的检索平台中纳入不同结构、不同类型、不同用法、不同环境的各种异构数据库,即将图书馆各个系统的统计数据统一汇总。为其他系统提供了一个统一的统计平台,具有高汇聚,高兼容性,将不同系统的统计数据统一展现在同一平台上,使用户更方便、更高效地获取信息。系统采取开放性的架构、模块化设计、通用化通信接口,方便系统维护和功能扩展[6]。

1.2 系统设计体系结构

MVC体系结构是系统采用的结构模式。MVC(Model?View?Controller)模式的中文意义为“模式?视图?控制器”。由此可知,MVC模式由模式、视图、控制器三个部分组成 [7]。

分布式系统设计的改良能够通过将数据模式从各类能被控制和存取的数据中剥离出来而实现。MVC模式由模式、视图、控制器三个部分组成。其中:模式指的是应用对象,是没有用户界面的;而视图表示的是用户所得到的数据,是直接显示在屏幕上的内容;控制器负责将用户的操作转换成针对Model的指令,是界面对用户动作的具体反馈方式。Model中数据的变化通过View的更新数据体现,上述模式、视图、控制器的关系如图1所示。

View和Model的分离是通过定购/通知的方式实现的。Model的状态和内容是通过View正确地反映出来的。View可以嵌套是MVC的主要特征之一。 嵌套可以管理视图,同时能够运用于各种可以运用视图的地方。上述思想表现的设计方式将视图组件和组合视图平等对待。同时,View对用户的输入反馈方法是在不改变View的情况下进行的,也是MVC的重要特征之一。MVC的这一特征对经常需要改变响应逻辑的系统十分重要。

当前的B2B电子商务系统依据Web的分布式系统,该系统采用MVC架构十分适用。经过对该构架进行分析可从高层次的角度把应用对象分为三类。其中:一类对象中包括各类数据和商业规则;一类对象负责显示;还有一类对象负责接收请求,同时通过对商业对象的控制解决问题。View对象在系统发布后是由HTML/JSP设计人员、美工和系统管理员进行管理,应用开发人员负责开发并实行Controller对象、领域专家、开发人员、数据库管理员共同完成对商业数据对象及商业规则对象的管理。

2 系统结构模型

信息统计平台的Web应用被分成三个各负其责的层次。这些层次是:表现层、业务层、持久层。每层在应用程序中都有明确的责任,不和其他层混淆功能。每一应用层彼此独立,但各层之间存在通信接口,系统框图如图2所示。

三种框架有机的结合才能更好地发挥它们各自的优势,实现系统多层开发的耦合,系统的设计采取JAVA企业版的J2EE三层结构设计。

系统组件列表:

(1) 数据持久层包括:数据库联接组件、数据采集组件、数据映射组件。

(2) 业务逻辑层包括:统计业务组件、统计报表组件、统计视图组件、认证业务组件、个性化业务组件、Web Service接口层。

(3) 展示层包括:页面逻辑控制组件、页面显示组件。

3 信息统计平台系统实现

3.1 数据持久层设计与实现

目前常用的元数据抽取技术主要有:基于自然语言理解方式的抽取技术、基于包装器归纳方式(WrapperInduction)的抽取技术、基于HTML结构的抽取技术以及基于Ontology方式的抽取技术,信息统计平台系统原数据的抽取是根据HTML结构的抽取技术完成的。基于Web页面的结构定位信息是该技术的特征。运用解析器将Web文档解析成语法树是信息抽取的前提,再运用半自动或者自动的方法生成抽取的规则,从而将抽取信息转化为操作语法树,信息的抽取最终得以实现。

由于从服务器端返回的结果页面显示每一条信息结果记录的形式相同,所以系统中一条启示性规则得以总结:页面中重复出现的、表现形式相同的信息块就是系统要抽取的、用户感兴趣的信息。在JDOM树中找出这个特定的区域,即通过重复出现的模式来发现要抽取的元数据块。大多数情况下,在一个单个页面上可能含有若干个这样的区域。这些信息块对应于HTMLDOM树中的一组相同的或相似的内部结构。

系统基于JDOM树的元数据抽取思想,以探求元数据自动抽取技术的实现。其核心是通过JDOM树来定位欲抽取的信息块部分,进而生成元数据的抽取规则。抽取规则以XSLT表现,执行XSLT即可得到以XML展现的抽取结果。

采用数据库连接池技术解决系统数据库的访问瓶颈,图3为连接池基本的核心原理。

面向对象的软件和关系数据库一起使用是一个相当麻烦的工作。解决这个问题的办法就是使用对象关系映射工具来简化数据库访问的琐碎操作,本系统中选用DAO作为对象关系映射的框架。

3.2 业务逻辑层设计与实现

应用程序中数据的获取通常来源于运行在IBM主机上的程序;又或者通过把数据发送到Unix应用程序或主机来获取。不同软件厂商研发的不同软件在同一平台上也需要集成整合。应用程序可以通过对WebServices的运用把自身的数据和功能标准准确的表现出来,以便其他应用程序进行整合利用。

信息统计平台系统登录功能由用户名(ID)验证,密码(PSW)验证和用户角色(ROLE)验证三部分组成。当用户输入用户名(ID)后,系统通过用户名在数据库中的用户注册表“USERS”中查找该用户名是否存在,若用户名不存在,则在登录页面显示登录错误信息;若用户名存在,则根据用户名在数据库对应表中查找该用户名的密码和用户角色,并将查找到的密码和用户角色与用户输入的密码和用户角色进行比较,若与用户输入一致,则根据不同的用户角色进入不同的系统操作页面,若不一致,则在登录页面上显示登录错误信息,请用户重新登录。信息统计平台用户认证流程如图4所示。

采用DTD文件作为数据交换的中间文件,提出了一种基于元数据和规则数据交换的中间件。这里的元数据就是指具体的基础数据,一般指业务数据结构的描述数据,而不描述数据间的关系信息。

系统图形解决方案,采用AJAX技术,能够解决目前图形方面的需求,该方案能够实现与Excel和PDF的关联,同时也可以实现将图形导出的格式调整为JPEG和PNG。AJAX流程示意图见图5,具体实现过程如下:

(1) 客户端初始化XMLHttpRequest方法;

(2) 客户端设置回调处理方法;

(3) 发送请求,并自动监视请求;

(4) 当请求完成时获得服务器端数据;

(5) 调用更新方法来更新客户端数据。

3.3 客户展示层设计与实现

Portal可以提供各种单次登录、个性化服务,同时将信息源的内容进行聚集,是其表现层的宿主,是一种Web应用。聚集指一个Web页面里的内容由各个信息源所包含的内容组合而成。

(1) 页面控制逻辑模块

通过调用Servlets,JSPs和JSPs标签库,Portlets模块可以产生实际需求的内容。例如Servlets和JSPs被Servlet调用的情况一样,为了进一步调用Servlets和JSPs,请求发送者可以通过Portlet发送指令。在Portlet规范内,Servlet对象可以被广泛使用,其目的是使Servlets和Portlets更加完美的结合。基于portletresponse模块,系统response将相应的信号和指令传给Servlet或JSP。在Portlet中,在Servlet和JSP被系统调用的情况下,request是以portletrequest为基础传给Servlet或JSP指令信息。可以将portletrequest的Attributes设置给予servletrequest模块和包含于Portlet模块的Servlet或JSP,使用相同的输出流传递信息。通过获取Servlet的信息来设置Portlet会话中Attributes的数值。

(2) 页面展示模块

Portlet是专门处理各种生产动态信息和用户需求的客户,由PortletContainer进行管理,Portlet是一种依据Java技术的Web组件。产生标记片段是Portlet的功能之一。Portal经常在Portlet所生成的标记片段中加上控制按钮、标题或其他修饰。上述新生成的标记片段即为Portlet窗口。Portal通过整理合并这些新产生的Portlet窗口形成一个完整的文档(Portal页面),Portal页面的生成过程如图6所示。

4 结 论

本文通过对信息集成平台结构设计的分析以及对该平台各功能模块实现的方法和原理的详尽介绍,重点研究了统一检索系统中的信息集成平台。在同一功能可以有多种实现方法时,通过对各种方式优缺点的对比选择最优的方式。除信息集成平台之外,本文还详细介绍了Web服务,而Web服务是该平台所使用的主要技术之一。

计算机、多媒体、通信、高密度存储等各类信息技术的普及,其中最明显的是网络的迅速发展和应用,使得数字图书馆的建设将进一步朝着网络化、自动化、集成化方向发展。其中对异构数据库的统一和访问是非常重要的,但是图书馆现有数字资源在系统平台、DBMS、网络异构等方面存在较大的差异。实现基于Java技术的数字图书馆异构数据源访问管理系统,为广大的图书馆用户提供统一、简便的访问使用界面,将有效的整合和充分利用图书馆现有数据资源,为广大的图书馆用户提供高质有效的服务,也必将促进数字图书馆的建设。数字图书馆能够单机使用,能够通过各浏览器进行浏览查询,同时还能够通过企业内部的网络访问服务器的数据库,数字图书馆可以提高工作效率,使档案管理规范化,更能给予用户方便。当前,投入使用的本系统得到了很好的反馈信息。

参考文献

[1] 赵姗姗,杨臻,徐奉,等.企业异构数据集成[J].网络新媒体技术,2013(7):12?14.

[2] 李忠慧,李秀梅.MVC架构及其在Web应用开发中的应用[J].福建电脑,2013(1):112?113.

[3] 盖索林,王世江.基于J2EE的异构数据集成的模式设计[M].北京:人民邮电出版社,2009:43?55.

[4] 靳强勇,李冠宇,张俊.异构数据集成技术的发展和现状[J].计算机工程与应用,2002(11):112?114.

[5] 蔡罗成.Web信息抽取技术研究进展[J].信息安全与通信保密,2010(6):47?49.

[6] 霍正雷.图书馆网络化协作发展及措施[J].新教育时代,2015(20):78?80.

[7] 李志彤,闰艳生.多层分布式体系技术及其应用[J].计算机工程与应用,2003(25):95?97.

猜你喜欢
数字图书馆
我国医学数字图书馆研究的文献计量分析
互联网思维下数字图书馆个性化服务建设研究
谈图书馆资源与小学数学教学有效整合
论新时代公共图书馆员的职业素养
充电者的知识殿堂——数字图书馆
高校图书馆的未来发展模式刍议
浅析“互联网+”时代的图书馆管理
基于云计算的数字图书馆建设与服务模式研究
刍议数字图书馆计算机网络的安全技术及其防护策略