基于Access/TPI 的满语文特色数据库建设实践

2013-10-23 08:44
长春师范大学学报 2013年10期
关键词:格式文件字段检索

张 戍

(长春师范大学图书馆,吉林长春 130032)

Access 是由微软发布的关联式数据库管理系统。它结合了Microsoft Jet Database Engine和图形用户界面两项特点,是Microsoft Office 的系统程式之一。Access 以它自己的格式将数据存储在基于Access Jet 的数据库引擎里。它还可以直接导入或者链接数据(这些数据存储在其他应用程序和数据库)[1]。TPI 系统是一个新兴的数字化图书馆解决方案,完全是由同方知网自主研发的,是一套依托网络平台,利用KBASE检索服务器,实现知识仓库的创建、生产、维护、管理以及发布的工具软件系统。其主要优点是:TPI 完全实现了信息的先期组织,中期的存储与检索,再到后期的由CPS 内容发布系统、检索网关和TPI 检索服务器一起完成的资源发布。笔者所在的长春师范大学图书馆,于2009年起开始了利用Access 软件和TPI 系统建设特色数据库的尝试,取得了一些经验成果。

1 国内满语文数据库开发现状

1.1 满语文数据库建设盲点

国内满语文研究取得了丰硕的成果,在满语文研究文献的整理方面也取得了一定的成绩,但是目前还没有专门的能够检索满语文研究论文的数据库或者索引,大多数的满语文研究人员在对满语文进行研究时,只能参照一些综合性数据库,如维普、中国知网、读秀、E 读等进行检索,或者参考有关研究东北民族史方面的索引。而现有的这些数据库及索引对于查找满语文方面的研究论文却存在着诸多盲点。

1.1.1 收录范围窄

现有的综合性数据库在文献收录范围方面都有一定的局限性,收录的范围不够广,如对学术会议论文集的收录,由于学术论文集涉及领域相对狭窄,读者范围有限,发行量较小等特点,综合性数据库对它们的收录难免存在缺失和遗漏,如果之后没有进行补充和扩充,就无法及时反映该学科学术研究工作的进展。

1.1.2 检索结果不精确

多数现有的综合性数据库,针对的读者范围较广,专业性不强,往往检索出来一些不符合相关研究领域的数据结果,容易影响从事专门学科研究的专家的研究效率。比如,笔者在知网上以“满语文”为题名检索词,只检索出一篇题为“让美育的鲜花开满语文课堂”的文章,与满语文的研究一点不沾边。

1.2 满语文特色数据库建设的意义及学术价值

满学作为一门国际性的综合性学科,已成为国际四大(满、汉、藏、蒙)显学之一。满语文研究作为满学研究的重要分支,其累累硕果在一定程度上推动了满学研究的繁荣和发展,一方面,满语文数据库的建设研究属于满学研究领域的基础、服务工作,是对前人研究成果的总结性归纳和梳理,从而为研究者了解满语文研究水平和现状提供了便利;另一方面,结合现代计算机技术,对这些论文进行编辑整理,实现文献检索的数字化,开创了国内满语文研究领域的先河,对推动满学研究向新的高度和广度发展具有重要的现实意义。

2 满语文特色数据库建设的可行性

2.1 数据库建设目的明确

满语文特色数据库建设研究的最终目的是:通过对满语文特色数据库建设的研究,构建一个较为完善的有自己特色的数据库平台,为研究者提供便利,为满语文研究向更高层次与更广领域发展奠定基础。

2.2 数据库建设的基本思路清晰

为确保数据库建设中少走弯路,建库初期就制定了建库的基本思路。

2.2.1 聘请专家指导

数据库建设前期,即聘请满语文研究专家,东北师范大学历史文化学院博士生导师刘厚生教授,就数据库的收录和采集范围等提供意见,以期使数据库成果更具专业性。

2.2.2 编写辅助表

严格按照数据库建设要求编写辅助表,如关键词、重点作者、专业期刊等辅助表,便于数据库的数据采集、录入更专业、更精准。并且,扩大数据库的覆盖面,如将搜索范围扩大至论文注释,深入挖掘论文注释中隐含的数据信息,保证数据库中数据的完整性和收录的广泛性。

2.2.3 数据采集、整理更科学、全面

数据采集在准确的基础上确保全面。然后对采集到的数据信息进行鉴别、筛选、剔除重复,利用计算机技术及网络信息技术,进行科学的分类、排序,标引和著录。

2.3 数据整合发布系统先进,建库软件易操作

数据的整合发布采用清华同方的TPI 系统,TPI 是一款性能先进的工具软件系统,能兼容普遍使用的MARC 标准和最新的Dublin Core 标准,完全兼容支持XML 文件格式,支持Z39.50 标准协议及最新的OAI协议、METS 协议,支持统一认证和单点登录等。

数据库建库软件采用微软的Access,Access 数据库具有操作灵活、转移方便、运行环境简单等优点。该软件的通用性强,无论在校园网上架设单独的网站或将来整合入TPI 都能方便、快捷地实现[3]。

3 满语文特色数据库建设的主要技术方法

3.1 利用Access 快速创建数据库

利用Microsoft Office 的系统套装软件Access2003,可简单、快速地建立满语文特色数据库。

3.1.1 数据库具体结构

数据库的整体框架结构在建库初期就已确定,多方听取数据库建设专家的意见,经过认真的研究、讨论,根据建设数据库的用途和实际需要,我们把数据库定义为11个字段(模块),它们是:分类号、题名项、责任者、机构、文献来源、年月、卷期、起止页码以及备注,据此确定满语文研究论文全文数据库的整体结构(图1)。

3.1.2 建库步骤

3.1.2.1 打开一个新建库

打开Access 2003中的新建库后看到如下界面,在这个界面的对象栏中包含7个对象(表、查询、窗体、报表、页、宏、模块),通过对表的创建来完成数据库子模块的创建(图2)。

图1 数据库具体结构

图2 打开新建库

图3 创建表

3.1.2.2 创建表

Access 2003中所有对象的基础就是表,因为表存储的数据是其他对象用来执行活动任务的。设计一个数据库的关键,就集中在建立数据库中的基本表上。Access 2003中的每个表都是由若干个记录组成的,而每条记录又都对应一个实体,并且相同表中的所有记录也都具有相同的字段定义,且每个字段都存储着相对应于实体的不同属性的数据信息。在打开的对话框里选择“使用设计器创建表”,按照预先设定的依次创建表(图3),给表命名,并设定出表与表之间的关系、表的索引,在确定表的主键之后,打开已创建的表,在各个字段下添加著录内容(图4),至此,一个完整的Access 数据库就基本建成了(图5)。

图4 著录内容

图5 完成Access 数据库

3.2 数据库的整合发布

3.2.1 数据转换引入

利用TPI6.0 系统的数据转换工具(Data Tran)将Access 数据库的数据导入。不用登录服务器,直接选择“导入数据或导出数据”的分页项,单击“确定”按钮,依照TPI6.0 系统使用说明完成数据导入,然后再把PDF 格式的论文逐个链接至数据库中,选择设置数据库的发布项目,完成数字对象的命名,整个数据库才算真正建起来了。

3.2.2 数据的分类、标引

数据导入后要进行数据的分类与标引。数据的分类是指按照《中国图书馆图书分类法》的分类规则,把论文分别归纳到相对应的类目里,一般只分类到二级类目。数据库中都设有“分类检索”选项,只有论文正确分类了,使用“分类检索”才能够精准、全面。数据的标引则是指把论文中设定的每一个字段都作为检索内容标示出来,并指示计算机每一个字段所检索出来的内容对应论文的哪一部分。标引的文件格式有很多种,如:*.TXT 格式文件,*.PDF 格式文件,*.CAJ 格式文件,*.KDH 格式文件,*.DOC 格式文件,*.XML 格式文件,*.HTML 格式文件等,我们的数据标引格式采用的是*.HTML 格式文件。

3.2.3 内容发布

利用TPI6.0 系统的内容发布平台(CPS)可完成多种不同需求的发布,加工好的数据发布到网上后,用户可以方便、快捷地浏览和检索。CPS 有多种数据发布模板,如知网的期刊风格、谷歌搜索风格、工程索引风格、OCLC 风格、图片风格等。支持用户数据库多字段的个性化定制发布;支持各个数据库间及数据记录之间的关联、跳转、校验等功能;可以为数据库同时建立多种导航树,并支持多种分类体系;支持一条记录关联多个全文数据以及多种数据间的连接。总之,数据的发布既简便又易操作,在数据库管理一栏里选择要发布的数据库(一个或多个),选好要发布的数据库模板以及检索字段、概览字段和细览字段、排序字段、关联数据库字段等项目的发布设置,就可以开始Web 发布了。

4 结语

特色数据库建设是一项长期工程,需要全国范围内的合作。但是,目前国内特色数据库的建设很分散,运行也相对独立,大规模联合运营的方式在国内很少见。我们对满语文特色数据库的建设探索,其宗旨与目的不外乎满语文资源的共享,以期为国内外满语文研究尽微薄绵力,资源只有实现了实实在在的共享,才不失我们辛苦工作的初衷。

[1]百度百科.Microsoft Office Access[EB/OL].(2013-09-08)[2013-09-10].http://baike.baidu.com/view/1162845.htm?fromId=433649.

[2]同方知网(北京)技术有限公司.清华同方TPI V6.0 信息资源建设与管理平台使用说明书[Z].2012.

[3]韩钢.中国东北民族史论文数据库的建设[J].长春师范学院学报:自然科学版,2010(6):156-158.

猜你喜欢
格式文件字段检索
图书馆中文图书编目外包数据质量控制分析
基于WebGL的轨道交通BIM轻量化应用方案
使用“格式文件”将徕卡仪器数据导出成cass 格式的方法
编写徕卡TS02型全站仪格式文件的方法探索
专利检索中“语义”的表现
回归基础 到底什么是RAW格式文件?
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
国际标准检索