《中国分类主题词表》主题词SKOS化描述及自动转换研究*

2014-12-31 09:47刘华梅国家图书馆北京100081
图书馆建设 2014年8期
关键词:主题词表字段主题词

刘华梅(国家图书馆 北京 100081)

1 SKOS简介

SKOS(Simple Knowledge Organization Systems,简单知识组织系统)是W3C语义网部署工作组制定的推荐标准。SKOS为知识组织系统(叙词表、分类法、主题词表、术语表等)提供了一套简单、灵活、可扩展、机器可理解的描述和转换机制,目的是为了实现语义网环境下资源的共享和重用。

SKOS建立在RDF(Resource Description Framework,资源描述框架)基础上,提供了表达各种知识组织系统基本结构和内容的通用模型,将知识组织系统的概念模式及语义关系表达为机器可理解的方式,还支持概念在万维网上编辑和发布,支持概念与网络上的数据相关联,还可以将概念集成到其他概念体系中[1]。通过SKOS描述,受控词表中的词汇对应转换为SKOS模型中的具体概念,并实现语义网与其他RDF数据的合并与融合,从而实现真正意义上的资源共享。对传统知识组织系统进行SKOS描述,不仅可以充分利用其现有成果,而且可以实现其与语义Web的良好结合。

根据2009年8月18日发布的《SKOS参考》 (SKOS Simple Knowledge Organization System Reference)及《SKOS初级读本》(SKOS Simple Knowledge Organization System Primer),SKOS中的词汇标签及其说明如表1所示。

2 《中国分类主题词表》主题词SKOS化描述

《中国分类主题词表》(以下简称《中分表》)是我国目前规模最大的分类主题一体化词表,目前广泛应用于全国各类型图书馆和信息机构的文献标引工作中,由国家图书馆《中国图书馆分类法》(以下简称《中图法》)编辑委员会负责修订维护,2005年9月修订并研制出版了《中分表》(第2版)电子版;2009年6月开通了《中分表》网络版,用户可在网站(http://cct.nlc.gov.cn)上登录浏览、检索。虽然《中分表》已推出了网络版,但数据仍基于MARC(Machine Readable Catalogue,机器可读目录)格式,应用面相对狭窄,还不能完全满足网络共享、交互发展的需求。而SKOS的提出,为各种传统分类法、主题词表提供了一套语义Web环境下简单、灵活的描述和转换机制,如果将《中分表》转换成SKOS的描述形式,将方便其在网络上的共享和重用,并可运用到网络信息检索的各个环节和领域[2]。

表1 SKOS词汇及其说明

目前,《中分表》主题词是以MARC规范格式存储和维护的,MARC格式中包含记录控制号、记录维护时间、主题词、主题词类型、英译名、汉语拼音、注释、分类号、入口词、入口词拼音、属项词、分项词、参项词、族项词等信息,需要将所有这些信息用SKOS格式描述出来。以下笔者从《中分表》的宏观结构和主题词微观结构两个方面具体分析描述方案。

表2 《中分表》主题词MARC格式各字段与SKOS词汇的对应关系

(1)《中分表》宏观结构 首先将《中分表》定义为一个主题概念体系(skos:ConceptScheme),所有主题词和主题词集合都在这个概念体系中,用“skos:inScheme”表示。其次,《中分表》将主题词分为5种类型,分别是“200个人名称主题”、“210团体或会议名称主题”、“215地理名称主题”、“230统一题名主题”、“250普通学科主题”,这里我们定义5种主题概念集合(OrderedCollection)来聚集各种类型的主题词,即“人名主题概念集合”、“团体或会议名称主题概念集合”、“地理名称主题概念集合”、“统一题名主题概念集合”、“普通主题概念集合”,各种类型主题词分别归属于对应的集合,用“s k o s:memberList”表示。另外,将《中分表》中的族首词定义为词表的顶层概念,用“skos:hasTopConcept”表示《中分表》所包含的族首词。

(2)主题词微观结构① 记录控制号:《中分表》包括12余万正式主题词,这些词都有唯一的记录控制号(001字段,Sxxxxxx),我们将所有主题词定义为概念(skos:Concept),将记录控制号转化成HTTP协议下的URI(Uniform Resource Identifier,统一资源标识符),作为概念的唯一标识,如http://cct.nlc.gov.cn/Subject/S100084#concept。② 主题词相关信息:《中分表》主题词用MARC的2--字段表示,转换为SKOS用语词标签属性“skos:prefLabel”表示。主题词款目中所有英译名(4--字段的$8eng子字段)、汉语拼音(2--字段的$7ba$a子字段)都可以相应地用“skos:altLabel”加语种代码来表示。主题词注释都用330字段,未加以区分,所以都用“skos:scopeNote”来表示。主题词对应的《中图法》分类号在690字段,且不同指示符表示不同的对应方式(主要类号、次要类号、交替类号),此处只能简化处理,只用“skos:notation”表示对应的分类号,不区分对应方式。③ 入口词:《中分表》包括4万多入口词及对应汉语拼音,如果不加区分地归入“skos:altLabel”属性里,就会打乱入口词同它的拼音之间的一一对应关系,所以我们对入口词进行了特殊处理和单独描述,用“skosxl”扩展标签来表示,利用程序为所有入口词自动赋予记录控制号(Dxxxxxx),生成入口词的URI标识,用“skosxl:Label”表示URI,用“skosxl:literalForm”表示入口词,另外,还使用了自定义的扩展标签“cct:transliteration”,用于表示入口词的汉语拼音。④ 参照关系:《中分表》中主题词之间通过C(参)、S(属)、F(分)、Z(族)4种关系相联系,在MARC格式中是由5--字段及相应子字段表示的。5--字段的$5k子字段表示C(参)关系,可转换为“skos:related”属性;5--字段的$5g子字段表示S(属)关系,可转换为“skos: broaderTransitive”属性;5--字段的$5h子字段表示F(分)关系,可转换为“skos:narrowerTransitive”属性。因为《中分表》的主题词概念具有传递性,选用“Transitive”属性表示概念间的上、下位关系,各级上位词、族首词、下位词都可以推理得出,形成一条词族链,所以Z(族)关系在每个概念中不再揭示,只将族首词用“skos:topConceptOf”表示为概念体系的顶层概念。

表3 《中分表》主题词及SKOS描述

通过上面的分析,我们可以基本得出《中分表》主题词MARC格式各字段与SKOS词汇的对应关系,如表2所示。

3 《中国分类主题词表》主题概念自动转换为SKOS的实现方案

本文利用VB程序和Access数据库编写程序实现《中分表》主题词从MARC格式到SKOS格式的转换,首先将《中分表》MARC格式按字段类型导出为文本格式,再将文本数据读取到Access数据库中,数据表结构包括主题词、字段类型、控制号、汉语拼音、英译名、注释、分类号、代项、属项、分项、参项、族项等全部内容,最后利用VB程序从数据库中提取相关字段,写入SKOS描述的对应标签中。节选的部分实现方案代码如下:

通过对《中分表》所有主题词进行自动转换,程序生成的描述代码完全符合SKOS语法要求。《中分表》主题词的节选及其相应的自动转换后的SKOS 描述见上页表3。

……Do While Not rs.EOF If rs.Fields("控制号") <> "" Then kzh(i) = rs.Fields("控制号")Print #1, ""Print #1, ""End If If rs.Fields("字段类型") <> "" Then zd(i) = rs.Fields("字段类型")If zd(i) = "200" Then Print #2, ""End If If zd(i) = "210" Then Print #3, ""End If……If rs.Fields("主题词") <> "" Then ztc(i) = rs.Fields("主题词")Print #1, " & ztc(i) & "End If If rs.Fields("拼音") <> "" Then py(i) = rs.Fields("拼音")Print #1, " & py(i) &"End If……If rs.Fields("代项") <> "" Then dx(i) = rs.Fields("代项")Do While InStr(dx(i), ";") > 0 tempdx = Mid(dx(i), 1, InStr(dx(i), ";") - 1)Print #1, ""dx(i) = Mid(dx(i), InStr(dx(i), ";") + 1, Len(dx(i)) -InStr(dx(i), ";"))Loop End If If rs.Fields("属") <> "" Then sx(i) = rs.Fields("属")Do While InStr(sx(i), ";") > 0 tempsxc = Mid(sx(i), 1, InStr(sx(i), ";") - 1)Print #1, ""sx(i) = Mid(sx(i), InStr(sx(i), ";") + 1, Len(sx(i)) - InStr(sx(i), ";"))Loop End If……If IsNull(rs.Fields("族")) And rs.Fields("分") <> "" Then Print #1, ""Print #7, " "End If……

4 结 语

我国图书情报领域广泛使用的各种知识组织系统正处于由电子化向网络化发展的关键时期。SKOS这种表达知识组织系统的通用数据模型,能提供比RDF更精确的语义关系的约束,又不像OWL(Web Ontology Language,网络本体语言)那样要求逻辑精确,具 有简洁、通用、易扩展的特点。基于SKOS研究《中分表》的网络化,与现有网络版相比,除了提供基本的浏览、检索、标引、组织信息功能,主要优势是便于网络环境下《中分表》数据的获取、交换、共享和重用,进一步实现可视化、术语注册、术语服务、关联数据、互操作、构建本体等服务,我们将继续这方面的研究。

[1]SKOS Simple Knowledge Organization System Primer[EB/OL].[2014-02-25].http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/.

[2]刘华梅.简单知识组织系统(SKOS)的应用研究及《中分表》的SKOS化[G]//第二届全国文献编目工作研讨会论文集.北京:北京图书馆出版社,2010:57-63.

猜你喜欢
主题词表字段主题词
《汉语主题词表》
《〈汉语主题词表〉构建研究》
《汉语主题词表》
《〈汉语主题词表〉构建研究》
关键词的提取与确定
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
浅谈台湾原版中文图书的编目经验
题名与责任说明附注字段用法分析
《中国骨与关节杂志》2016 年第五卷英文主题词索引
无正题名文献著录方法评述