非遗图像语义信息本体构建及其关联数据存储和发布研究

2021-06-07 08:08朱学芳王若宸

现代情报 2021年6期

朱学芳王若宸

关键词：非物质文化遗产;图像语义;多媒体;领域本体;关联数据;存储和发布

图像元数据是对于数字图像中的描述对象内容如色彩、几何形状、纹理、空间位置、背景以及所产生的深层情感等，用于图像资源的分割、语义信息抽取与理解，帮助非遗数据资源准确而高效地存储在数据库中，进而用于网络共享、交互和计算机管理，便于查询使用。各个非遗项目所使用的元数据标准不尽相同，虽然它们的某些核心条目可以相互复用，但是并不完全兼容，在互操作时有很大困难，带来了不同资源的异构性问题，而本体（On.tology）是在知识层面上对信息进行语义组织，是形成关联数据的核心机制.可以解决数据异构问题。中外对领域本体的构建根据对已有成熟元数据集的复用程度可以划分为两个层次，即对成熟本体的借鉴和构建全新的领域本体。

在对已有的成熟本体借鉴方面，CIDOC CRM是专门面向非物质文化遗产（Intangible Cultural Hefit.age，ICH，简称非遗）的元数据标准，在非遗语义描述领域具有广泛的适用性。Binding C等在CI.DOC模型的基础上.使用自然语言处理技术通过艺术建筑叙词表AAT（Art&Architecture Thesaures）形成实例填充，完成面向多语种的考古领域实体构建：Felicetti A等使用CIDOC CRM对古籍中的相关概念进行编码建模.并以此为基础创建新类拓展为新的CRMtex本体用于对古文本语义信息进行组织聚合。国内的非遗语义信息组织研究中同样有很多对该模型的复用，董坤在2014年提出了基于关联数据的非遗语义化组织框架.在CIDOC基础上新构建符合国情特色的非遗相关类，并利用D2RQ平台进行发布以供SPARQL或HTML浏览器调用。谈国新等参考并简化CIDOC模型，并与W3C指定的视频、语音、数据等多媒体资源语义模型相结合，以我国非遗“度戒”为例构建了多层的资源描述体系。

在全新的领域本体构建方面，早在2003年Baca M就以视觉资源核心类目（VRA Core Catego.ries）为基础提出了关于艺术文化建筑遗产的元数据标准，同时还提供了针对物质文化遗产的描述词表。许鑫等以都柏林核心（DC）元数据为核心，根据我国非遗资源的特色进行扩展，并通过RDF/XML实现该本体的实例化，最后以美术工艺品“瓯塑”为例，构建本体模型，进行实证研究。除此之外，还有其他国内关于非物质文化遗产语义组织的论文同样采用自行构建的领域本体。

本文遵循本体开发流程，设计并实现面向非遗图像的领域本体，从关联信息中挖掘得到的关键字段以形式化的规范方式进行表达，构建图像语义信息本体关联数据集，再利用关系数据库对这些数据进行存储，并利用语义映射软件进行关联数据发布.为非遗图像语义信息提供更加智能便利的展示及浏览服务方式。

1非遗数字图像本体构建

非遗本体的应用场景，有别于其他研究中构建好的关于非遗的本体，本文提出的本体，是以“非遗一图像”的二元概念为核心.该二元组展现出非遗项目与图像资源的一对多关系.除此之外通过对象属性（Obiect Property）连接附属的核心元素，构建一个非遗数字图像资源的本体.实现“图文互联”，改变现有网站中单一排序的非遗图文介绍方式，以更加丰富生动的方式将非遗项目展现给浏览者。除此之外，对于我国非物质文化的建设者来说，可以利用该本体展现出的知识图谱迅速了解某一项非遗的基本情况，明确改动的要点，增强可扩展性。

1.1概念体系构建

在本文中设计的本体名为“非遗图像资源本体”，是对非物质文化遗产和关联图像及其相关要素进行高度概括抽象而形成的形式化知识共享模型。根据我国现有的非遗网站的布局情况，与非遗相关的条目有编号、时间、类别、地区、传承人、相关项目等，以及上下文信息，另外根据侯西龙等、谈国新等对非遗本体的相关研究，与非遗项目相关的类目共同包含了类型、地区位置、时间、传承人等类，因此本文借鉴现有权威网站的编排格式以及学者们的研究，设立了非遗项目（ICH.Proiect）、传承对象（Inheritor）、相关地点（Loca.tion）、相关事件（Event）、相关时间（Time）以及图像（Image）等几个类别的关联模型，以此来描述非遗图像相关资源。

关于对可复用本体的考察：CIDOC CRM概念参考模型是专门用于文化遗产中的信息集成整合工具.它对世界范围内广大文化遗产相关文档中的显式和隐式概念关系给出了清晰的定义，提供了一套聚合来自多个异构源数据的方法，其中包含了E.vent（E5）、Activity（E7）、Image（E38）、Time-Span（E52）等多个与本文相关的类定义;FOAF（Ffiend-of-a-Friend）是一个专门用于描述Web上个体、组织相互之间协作关系的本体标准，其中包含了Agent、Person和Organization等与非遗相关的个体及组织类;另外，本文选用都柏林核心关于数字图像资源的元数据标准对于图像类的描述，而对于类之间剩余的关联属性及数据属性，本文采用自定义的ich来作为命名空间。核心概念示意如表1所示。

依据模型中的核心概念，构建概念框架体系的结构如图1所示，图中共有非遗项目、主体、地理位置、事件、时间和图片6个大类，它们构成了非遗项目与图像资源知识组织的整体概念框架。其中非遗项目及图片类是其核心类;主体类代表与非遗项目传承相关的个人及组织.因此其下属包含了传承人类和责任机构类两个子类：地理位置类为非遗项目发源或是所在的地点，下属划分出国家（地区）、省、市、县、乡镇5种行政区划，用以标注不同行政等级的地区：事件类指代与非遗项目相关的人类社会参与的事件.具体又可划分出活动类和物理实体类，前者为非遗的具体化活动（如表演、书法等），后者为具有丰厚文化意义的物理承载实体（如竹席、剪纸画等）;时间类指代与非遗项目相关的時间节点或时间段.根据语义又可以划分出具体时间（如1945年、1917-1965年等）和抽象时间（明末清初、解放后等）两个子类。

1.2本体模型买现

在非遗图像资源概念框架分析的基础上，本文设计了相应的本体模型如图1所示，共有非遗项目、图像资源、主体等12个类，其中6个为子类。虚线表示类之间的对象属性（为了使插图整洁，这里并未画出所有对象属性），实线表示子类关系.复用了FOAF和CIDOC CRM两个本体标准，ich表示本文自定义的非遗图像本体命名空间。

在下面定义的6个大类之间建立对象属性关联，梳理出非遗项目与传承人及责任机构的关系、非遗项目与地理位置的关系、非遗项目与传统文化事件的关系、非遗项目与非遗起源及传承时间段的关系、非遗项目与图像的关系、图像与事件的关系以及个体与地理位置之间的关系等，如表2所示。根据本体中的量词、数量和含值3种对类设定的约束，可以对本体中的知识元进行关联和推理。

1.2.1非遗项目类

非遗项目类（ICHProiect）指代我国的4级非遗保护体系中的每一种非遗项目，根据非遗项目的申报书格式，其包含了地区、传承人、物理实体等要素，而在本文中，根据研究的目的及需要，将上述元素归并至其他类当中。中心节点（非遗项目类）关联着其他5个类;除此之外，非遗项目类还包含了名称、级别、批次、类别、编号以及简介等数据属性。其中级别指非遗项目所述的四级分类体系，批次指2005年以来4批非遗申报批次，简介指非遗图像的上下文信息以及其他在互联网上爬取到的文字信息，内容包含基本内容、历史沿革、存续情况、保护现状等。

1.2.2主体类

传承人（Person）和责任机构（Organization）两个子类构成主体类（Agent）。任何非遗项目的存续都不可缺少传承人的代代相传和相关责任机构的记录申报，传承人类特指与某项非遗的学习表演、传承发扬的艺人或工匠，其数据属性包含传承人的姓名、出生年月、性别、技能、简历等;责任机构为负责登记申报非遗项目的社会文化机构（例如省级图书馆和各市、县非遗保护中心等），其数据属性包含名称、性质、地址等，其中性质指该组织团体为图书馆、博物馆、档案馆、文化中心或其他类型的文化机构。另外传承人与责任机构还有“记录”以及“隶属”的关系。

1.2.3地理位置类

地理位置类（Location）是指非遗起源兴盛的地域以及非遗传承人的居住地址，考虑到非遗在自身发展的过程中可能会跨越多个地区，因此将地理位置单独设为一类。不同的行政区划之间又存在隶属关系（国家（地区）、省、市、县、乡镇），因此为该类分别设置5类对象属性用以标注隶属关系。

1.2.4事件类

事件类（Event）包含用于描述非遗项目中的文化活动类（Activity）和物理实体类（Form），这两类是用以描述非遗核心内容的重要类，也是非遗数字图像资源中最直接的内容概括描述，因此事件类与图像类由对象属性相关联。

1.2.5时间类

时间类（TimeSpan）指描述非遗项目起源、发展的时间词，其包含具体时间（TimeSpecific）与抽象时间（TimeAbstract）两个子类。

1.2.6图像类

图像类（Image）是非遗项目中对民俗活动、民间艺术的最为直接的描绘媒介.本文复用都柏林核心中关于图像的元数据标准对图像的基本信息进行记录，作为图像类的数据属性。后续对本体进行优化时可以对图像类增加更多复杂的元数据类型。如前文所述，除了类之间的对象属性之外，一些核心类自身也拥有数据属性，并成为实例化之后的详细数据说明，表3列出了本体模型中所有的数据属性以及其定义域及值域。

最终，在非遗项目及其数字图像构建的本体模型构建的基础上，利用本体专业开发工具Pmtege5.5.013进行本体模型的构造和实现.完成的本体模型中包含6个核心类、6个子类、19个对象属性以及21个数据属性。使用Pmtege中的模型可视化组件OntoGraf对模型进行绘制，结果如图2所示，其中，实线表示子类，虚线表示对象属性，数据属性省略未列出。

2非遗数字图像本体的实例化

在建立好非遗图像资源的本体模型之后，为验证本体内部逻辑的一致性和可行性，详细展现知识内在的丰富关联，本节将进一步在已有的模型之上获取数据并添加实例。

本节以山西省传统音乐非遗项目为例，获取相关的非遗项目、数字资源等信息，构建实例集。数据来源选取中国非物质文化遗产网以及山西省人民政府网中的非遗专题栏目，先进行关键词的提取，然后依据第1节中的模型的字段类别对信息进行整理和清洗。共提取“从河曲民歌”到“左权开花调”15项山西省传统非遗音乐项目及其相关信息。参考中国艺术研究院的相关叙词表，确保在模型中使用一致的专业名词，如“锣鼓”“唢呐”“佛乐演奏”和“道乐演奏”等。

将获取并整理好的示例数据暂以Excel格式进行存储，将数据导入至Protege工具中进行实例化，最终形成123个实例、围绕非遗项目和数字图像资源的三元组共759个.以.owl格式进行存储，构成关系复杂的语义网络，在Protege OntoGraf中繪制实例化模型如图3所示（为了整洁图中仅显示部分实例之间的关联）。图3中，圆形和菱形分别表示类和与类相关联的实例，实线表示类与实例间和父类与子类间的两种关联，虚线表示类间的对象属性以及实例间的对象属性。点击某个实例时，会自动显示关联的数据与对象属性。

3关联数据的存储

在本节中，将从实践层面上，对本体模型中的实例数据实现存储与语义组织.以便后续进行关联数据的发布。

在第2节获取的数据是以实例的形式保存在本地的.owl文件中，但这种存储格式在以后难以修改，资源实体间的关系难以进行规范，故本文采用关系型数据库MySQL对所有语义信息进行有序存储和管理。

RDF数据存储作为在关系型数据库中可能的存储模式探讨以来，出现了3种RDF存储结构，即水平结构、垂直结构和多元结构，前两种结构的一个共同点是将所有的示例数据和属性存储在一张表上，会导致数据的冗余，且难以进行管理，在查询时间上也落后于第3种方法。而多元结构模式则是以一个类为一张表.把表之间的连接操作当做类之间的关联属性，经过验证，第3种方式占用的空间最少且具有最短的查询时间。

3.1数据库概念模型设计

E-R图被用来描述现实世界中实体、属性及其联系，与本体模型图具有一定的相似性，且经常被用在数据库模型的设计中，是概念模型的一种表现方式。在实际的数据库建设过程中，合并具有相似属性结构的子类：形式（Form）和活动（Activity）、抽象时间（TimeAbstract）和具体时间（TimeSpe.cific），以其父类统一指代，而由于传承人（Per.son）和责任机构（Organization）类结构不同且相互之间有关联，故仍将其归为子类，省略父类个体（Agent）。将本体模型经过略微调整转化而成的E—R图如图4所示（已省略属性）。

在E-R图中，共有7个类别，核心类“非遗项目”通过不同的联系与其他6个大类相连，其他类之间也存在着关联关系：同一项非遗项目可以拥有多个传承人，包含多张数字图像，但反之不亦然，故呈“一对多”关系（1：N）;每个非遗项目可以被多个责任机构申报，可以存在于多个地区，可以在历史上有多个关键时间段.也可以承载多种类型的事件，并且反之亦然.故呈多对多的关系（M：N）;此外，传承人与责任机构和地理位置、责任机构与地理位置、事件与图像也存在多种关系。本文根据从E-R图向关系模型转化映射的原则在数据库中建立了12个表，通过引入外键将其两两链接。

3.2数据库物理表建设

本文进行数据存储的DBMS服务器为MySQL5.7.19 Community Server，搭配数据库可视化软件Navicat对物理表进行直接操作。以核心类非遗项目为例，转化为表ich，包括非遗项目编号、项目名称、等级、官方编号、申请批次、项目类别以及项目简介等属性字段，详细信息如表4所示，另外还有其他表分别表示一对多和多对多关系，结构与文中列出的表格类似，不再赘述。

4关联数据的发布

4.1从关系表到关联数据的映射

D2RQ是目前应用较为广泛的RDF文件映射平台，它可以通过创建虚拟RDF图的方式来访问关系型数据库.借助核心mapping机制文件将关系数据库的机构转化为RDF格式的文件。再通过其中的D2R Server对关联数据进行发布，让用户可以使用http浏览器查看存储在关系数据库中的RDF数据。另外D2R Server还附带了使用SPARQL语句对RDF文档进行手动查询的endpoint断点，借助这一功能可以将SPARQL语句进行封装，以供可视化分析界面使用。本文使用的是D2RQ-0.8.1版本，首先建立数据库物理二维表至RDF三元组的映射，借助D2RQ的mapping功能.可以自动生成由表到图的映射文件。

D2RQ映射功能的核心是其自身的映射语言，将关系数据库转化为Turtle格式的RDF文档，根据其官方文档，d2rq：ClassMaps和d2rq：Pmperty.Bridges是映射语言中的两个核心属性：前者将数据库中的物理表转化为本体模型中的类.而后者则将表中每一列字段转化为本体中的对象和数据属性。以数据库的ich和person表为例，映射框架如图5所示。

4.2非遗关联数据的发布

使用D2RQ自带的server发布功能，在命令行中输入相关语句即可发布关联数据，使用浏览器在本地的“localhost：2020”端口即可访问，非遗数-字图像语义信息发布平台如图6所示，即为关联数据发布平台首页。顶端为导航栏，分别代表E-R图中7个实体对应的物理表，而实体多对多的关联表隐藏于实体表当中：下方信息表明该端口可以用http浏览器或语义网浏览器进行浏览，以及可以用SPARQL进行查询。在非遗数字图像语义信息发布平台上，如图6所示，逐个选择导航栏中的实体，可以依次浏览事件、非遗项目、图像、地理位置、机构和传承人等实体内的所有内容的目录，如图7所示。

在用户在非遗项目（ich）页面上，任意选择_一项非遗，即可进入详细信息的页面，查看该非遗项目的所有信息和关联项。以列表形式显示出的项目的相关信息，包含了项目批次（ich_batch）、类别（ich_category）、简介（ich_description）、编号（ichjd）、等级（ich_rank）和名称（ich_title）等自相关的字段。除此之外，与其他实体关联的字段，包含项目事件（event-ich）、项目图像（image-ich）、项目地理位置（loc-ich）、项目传承人（personjch）和项目关联时间段（time-ich），则是以URI地址链接的形式呈现，体现出关联数据相互连接的特性，如果点击这些链接，就会跳转至对应的实体页面中.如图8所示，在跳转后的页面中仍可以继续点击其他实体的URI地址链接，实现数据的互联，同时，若某地区或某机构存在两个以上的非遗項目，也可以从这种视图上挖掘得到。通过非线性的跳转方式，将实例数据进行可视化关联.能得到比直接在数据库中浏览更好的视觉效果.还可以帮助浏览者挖掘深层次的语义关联信息（如同一地点存在的所有非遗文化项目、多个非遗项目蕴含了共有的承体情况等），比现有项目的单一线性化组织更加便利和智能。

5结语

本文首先在所要建立的本体的概念分析基础之上，考察可以复用的本体标准，给出构成本体的概念结构体系，遵循本体的开发流程.为非物质文化遗产及其图像语义信息设计了一个本体模型，并在模型编辑软件Protege中完成了模型的开发.以及后续的数据收集和实例化。其次在本体及其实例化的基础上，设计了E-R概念模型图并使用关系数据库管理系统MySQL创建表格存储收集到数据。最后，借助RDF虚拟映射平台D2RQ将数据库物理表转化为RDF格式的文档，并实现关联数据的发布和查询。为非遗图像资源建立了复杂语义网络的雏形，为将来进一步的多媒体领域本体研究抛砖引玉。在以图像为基础的本体上，未来还可以增加多模态的项目展示方式（如音频、视频、虚拟现实等）。