数字保存的可识别性风险检测

2018-03-14 05:46臧国全周丽媛
现代情报 2018年3期
关键词:识别性标识符检索

臧国全 周丽媛 李 哲

(1.郑州大学信息管理学院,河南 郑州 450001;2.郑州大学公共管理学院,河南 郑州 450001)

人类社会进入了数字化时代,数字保存是一项基本的社会职责。但是,与传统信息资源相比,数字资源具有内容的易复制性、载体的不稳定性、浏览的非直接性、存储的环境依赖性等特征,所以对其进行长期保存的过程将产生多种类型风险,可识别性风险是其中一种。因此,对可识别性风险进行管理是一项基本的保存活动,但管理的前提是对可识别性风险进行识别,而识别的一种有效方法是对可识别性风险进行检测。

1 可识别性涵义及其风险类型

1.1 可识别性涵义

指将数字对象与保存的其他数字对象区分开来,以实现保存系统对数字对象的发现、用户对数字对象的检索使用[1]。因此,可识别性包含两层涵义:1)保存系统对数字对象的识别,当保存系统对数字对象实施保存活动时,需要准确无误地识别出一件数字对象,这种识别具有唯一性[2]。比如,保存系统对某一数字对象进行数字迁移,需识别出该数字对象,方能对其实施迁移操作。2)用户对数字对象的识别,当用户对数字对象访问使用时,需要准确无误地检索出符合检索条件的一类数字对象,然后通过外观特征和浏览工具判断其相关性并进行浏览识别,这种识别具有聚类性。

1.2 可识别性风险类型

基于上述可识别性涵义阐释,界定可识别性风险类型如下:

1)数字对象没有被赋予唯一标识符,或赋予的标识符错误。导致保存系统无法识别数字对象,或识别出的数字对象不具唯一性,或识别出的数字对象不正确;

2)数字对象没有记录其存储位置,或记录错误。导致即使被赋予了唯一标识符,保存系统也可能无法找到具体数字对象,或找到的数字对象不正确;

3)数字对象之间存在各种关联,当需要对这些关联进行维护时,关联对象的描述或关联类型的描述出现错误。导致关联对象无法识别,或关联类型识别错误,致使维护操作无法实施;

4)数字对象遭到破坏,且无法基于本地或异地备份进行恢复。导致数字对象无法继续被识别使用;

5)数字对象的格式过时,且无法进行数字迁移和数字仿真。用户无法继续访问使用,这些数字对象失去可识别性;

6)数字对象编码后,对用户不具可识别性,需解码还原才可识别。编码层次、编码工具和解码密码等记录错误均会导致解码操作失败,影响数字对象的可识别性;

7)用户使用数字对象,需首先从保存系统中检索出来,再判断其是否相关,最后通过浏览使用。保存系统设置的检索途径不足导致用户无法从系统未提供的检索途径查找到数字对象,外观特征描述不足导致用户对其相关性判断困难,浏览工具的不支持导致用户无法浏览使用,这些因素都会影响用户对数字对象的有效识别。

上述前4种风险影响保存系统对数字对象的可识别性,后3种风险影响用户对数字对象的可识别性。

2 可识别性风险型元数据

2.1 数字对象方面的可识别性风险型元数据

是数字对象方面的可识别性风险的检测点。包括:

2.1.1 标识符

用于唯一识别数字对象的标识符号。提供从标识符角度直接识别出数字对象的一种方法。可以由保存系统收录数字对象时创建,也可由数字对象提交者创建并作为其元数据和数字对象一起提交给保存系统。创建方式可自动生成,也可人工分配。标识符的值应足够的多,以保证保存系统中每件数字对象都能被唯一识别。保存系统选择使用的标识符应该是持久适用的。标识符的命名框架是保存系统的一个实施问题,需在保存政策中制定。

元素。(a)标识符类型,用以确保数字对象标识符具备唯一性的域[3],比如,针对图书类数字对象,标识符的类型可以是ISBN;如果保存政策中制定的标识符命名框架仅使用一种类型的标识符,无需记录标识符的类型,但与其它保存系统进行数据交换时,需添加标识符类型。(b)标识符的值,数字对象标识符的取值,如果在保存政策制定的标识符命名框架中,取值已包含标识符类型,那么无需明确记录标识符类型。不同类型中的标识符的值可以是一样的,但标识符类型和标识符值结合在一起时必须是唯一的。

检测项目。检查元素(a)和(b)的内容,如果均为空,或其中之一为空,或与保存政策中的标识符命名框架不相符,出现数字对象无标识符,或标识符不完整,或标识符命名错误,输出风险。

2.1.2 存储位置

用于唯一识别数字对象的存储地址,包括存储的方式信息和位置信息[4]。提供从存储地址角度直接识别数字对象的一种方法。存储系统需对其保存的数字对象分配存储位置并进行维护管理,通常情况下,分配过程是由程序自动实现。

元素。(a)存储位置类型,描述存储位置的方式,有多种,比如URI、绝对路径、相对路径等;保存系统识别数字对象的保存位置时,需首先识别所使用的位置方式。(b)存储位置值,在存储系统使用的存储位置类型框架下,数字对象的具体存储位置的描述值,比如,当存储位置类型为URI时,存储位置的值为http://wwasearch.loc.gov/107th/200212107035;当存储位置的类型为绝对路径时,其值为c:apache2htdocsindex.hTDl;当存储位置的类型为相对路径时,其值为/home/web/publichTDl/index.hTDl。

检测项目。(ⅰ)检查上述两个元素的内容,若其中之一为空,则无法从存储位置识别数字对象,输出风险。(ⅱ检查位置类型与位置值之间的匹配性,若不匹配,如类型为绝对路径,而值为/home/web/publichTDl/index.hTDl,也无法识别数字对象,输出风险。

2.1.3 对象的关系

一件数字对象可以和其他多个对象发生关联,以展示数字对象之间的某种关系,当保存系统对这些关系进行维护时,需识别出与参照点数字对象相关联的其他数字对象,也需对关系表达的正确性进行识别。

该元数据用于与参照点数字对象直接关联的一族数字对象的可识别性检测,包括族内各具体数字对象的可识别性检测以及参照点数字对象与族内其他数字对象之间关系描述的可识别性,这种检测可称为直接关联的族性可识别性检测[5]。检测思路:一是根据参照点数字对象,通过描述关系的元数据,识别出与其直接关联的其他数字对象的标识符;二是根据标识符检测这些具体数字对象的可识别性;三是检测关系描述的正确性。本质上讲,族性可识别性检测的对象可以是族内的所有数字对象,包括直接关联和间接关联的数字对象,后者的关联层次没有限制。但是,本文设计的检测方法中,只检测与参照点数字对象直接关联的其他数字对象,不检测间接关联的数字对象。原因有二:一是降低检测的复杂度;二是基于这样一个事实:遍历每个参照点数字对象的直接关联的族性检测,即可实现保存数字对象集合的所有直接关联和间接关联的族性可识别性检测。

元素。(a)关联数字对象标识符。(b)关系类型,主要有3种:结构关系、派生关系和依赖关系。结构关系主要展示数字对象与其组成部分之间的关系,如,一个表现型数字对象由若干个文件型数字对象构成,两者之间的关系是父子型的结构关系。如果保存系统不能将一个数字对象的各个部分重新组合,数字对象就会失去原有价值。对于一个简单数字对象(如一张图片),结构信息也很简单,文件本身就是其表现。但有些情况下,结构信息比较复杂,如电子书包含很多页,每页都是一个独立数字对象;网站包含很多网页,每个网页也是一个独立数字对象。派生关系来自于数字对象的复制或转换。这种过程应该保证其知识内容不变,但对象的形式,比如格式,可能发生变化。如,对格式为X的文件A进行迁移产生了一个格式为Y的文件B,A和B之间存在派生关系。上述两种都是描述内容对象之间的关系。依赖关系是当一个内容对象需要一个环境对象支持其功能、传播、呈现以及内容聚合的实现时,内容对象与环境对象之间的关系。比如,格式为DOC的内容对象,其呈现所需MS WORD软件的环境对象,两者之间的关系就是依赖关系。(c)关系值,表达关系的词语。不同类型的关系,其关系值也不同。针对结构关系,其值如:包含和被包含关系、父子关系、部分与整体关系等。针对派生关系,其值如:图像与其图标关系、迁移关系、版本关系、衍生关系等。针对依赖关系,其值如:需要、被需要等。

检测项目。(ⅰ)检查上述元素,至少其中一个元素没有内容,输出风险;如,元素(a)有内容,但元素(b)和(c)均没有内容,则可识别出关联数字对象,但无法识别出参照点数字对象与关联数字对象之间的关联类型和关联值,输出风险。(ⅱ)当上述3个元素均有内容时,检查元素(b)和(c)的内容匹配情况,应根据保存政策中对象之间关系的设置进行检查,若不匹配,则关系识别错误,输出风险。(ⅲ)当上述检测项目(a)和(b)均不产生风险时,根据元素(a)的值找出关联数字对象,检查参照点数字对象和关联数字对象之间的关系是否与为元素(b)和元素(c)描述的一致,若不一致,关系识别错误,输出风险。

2.1.4 保存策略

依据数字对象的价值,保存系统为其设定的保存功能。主要有两类[6]:一是确保安全保存的数字对象备份策略;二是确保用户长期有效使用的格式过时数字对象的访问策略。前者包括本地备份和异地备份,当存储系统中数字对象遭到破坏,比如因为病毒或黑客的侵袭、存储介质性能衰退、不可抗拒的自然灾害、人为或非人为的破坏等,导致数字对象不可识别时,保存系统可以基于备份恢复数字对象的可识别性。后者包括数字迁移和数字仿真,当数字对象格式过时,比如因为软件开发商退出市场、改变了商业重点、停止了对原格式的支持,或者主导市场的软件开发商已经放弃了这种格式的应用,或者原格式的灵活度不足以支持新软件机制等,导致数字对象无法被用户浏览(对用户来说是不可识别的),保存系统可以实施迁移和仿真技术恢复数字对象的可识别性。否则,出现上述任一情况时,若不实施相应的保存策略,数字对象不再具有可识别性。

元素。(a)保存策略类型,包括安全备份策略和有效访问策略两类。(b)保存策略级别,针对安全备份策略,包括高、中、低3个级别;如,“高”意味着同时对异地备份的份数、异地距离、本地备份的备份都有要求,“中”意味着在上述级别中不对异地距离做出要求,“低”意味着仅对本地备份做出要求;每个级别的具体要求由保存政策定义。针对有效访问策略,包括数字迁移和数字仿真两类;数字迁移指当数字对象的文件格式出现过时时,保存系统将其迁移到新的文件格式,以使用户使用当前的浏览工具能够有效浏览使用;数字仿真指在出现上述情况时,保存系统设计或购买一个仿真工具,用户使用当前的浏览软件时,自动调用仿真工具,仿真工具再调出和浏览原数字对象;当然,两者均有优缺点,保存系统应根据自己的保存目标和可利用的保存资源等因素选择使用。(c)保存系统实现情况,用于描述保存系统能否实现上述界定的保存策略,包括能够实现、不能实现、无法确定3种。

检测项目。(ⅰ)检查元素(a)和元素(b)的内容,若至少其中一个没有内容,表明或没有安全备份策略,或没有有效访问策略,或两者均没有,导致或无法通过备份恢复遭到破坏的数字对象的可识别性,或无法通过数字迁移(数字仿真)恢复格式过时的数字对象的可识别性,或同时发生这两种情况,输出风险。(ⅱ)若元素(a)和元素(b)均有内容,检查两个元素内容的匹配情况,若匹配不一致,如元素(a)内容是安全备份策略,但元素(b)内容是数字迁移;或元素(a)内容是有效访问策略,而元素(b)内容是“高”;导致保存策略无法实施,输出风险。(ⅲ)检查元素(c)的内容,若不是“能够实现”,表明针对数字对象需求的保存策略,保存系统无法实现,输出风险。

2.1.5 编码信息

一个经过编码(包括压缩和加密)的数字对象不具可识别性。因此,当检测这类数字对象的可识别性时,需首先将其解码还原为原始数字对象。所以,影响一个编码过的数字对象的可识别性的因素有两类:一是成功解码的影响因素;二是解码后原始数字对象的可识别性的影响因素。第二类因素包含了本文设计的其他所有元数据,故本元数据仅针对影响解码的因素。

编码过程有时较简单,比如,对一个AA.PDF文件和一个BB.XLS文件,使用WINZIP工具并输入压缩密码形成CC.ZIP压缩文件;有时较复杂,比如,对上面的CC.ZIP文件再使用PGP工具并输入加密密码形成DD.PGP加密文件。解码过程是编码的逆过程,比如,针对上述的DD.PGP文件的解码过程:首先使用PGP工具并输入解密密码对文件DD.PGP解密形成CC.ZIP,然后使用WINZIP工具并输入解压密码解压CC.ZIP形成原始文件AA.PDF和BB.XLS。因此,文件DD.PGP和CC.ZIP均不能被用户检索和使用,故对用户来说均不具可识别性,文件AA.PDF和BB.XLS才具可识别性。

元素。由上可知,本元数据仅设计解码的影响因素,包括:(a)编码层次,如上述的DD.PGP的编码层次为2,CC.ZIP的编码层次为1,AA.PDF和BB.DOC的编码层次都为0。(b)解码工具,如上述的DD.PGP的解码工具为PGP,CC.ZIP的解码工具为WINZIP。(c)解码密码,如上述的解密密码和解压密码,如无密码,记录为“无”。

检测项目。(ⅰ)检查每个层次的元素(a)的内容,若不为0,再检查对应层次的元素(b)的内容,若为空,则相应层次缺乏解码工具导致无法解码,输出风险。(ⅱ)检查每个层次的元素(a)的内容,若不为0,再检查对应层次的元素(b)的内容,若不为空,再检查对应层次的元素(c)的内容,若为空,则相应层次缺少解码密码导致无法解码,输出风险。(ⅲ)检查每个层次的3个元素的值的相符性,若不相符,则要么解码工具记录有误,要么解码密码记录有误,导致无法成功解码,输出风险。

2.1.6 检索途径

保存系统设置的检索数字对象的途径,用户根据检索途径查找并获取所需数字对象。比如,检索系统提供的检索途径为“作者”,用户可查找到某一作者著述的数字对象,通过这一检索途径用户可以把这些数字对象与保存系统中的其他数字对象区分开来。因此,检索途径是影响数字对象可识别性的一个因素,故是可识别性的一个风险点。

元素。(a)文献类型,在仅收录一种类型文献的保存系统中,该元素可省略,比如,《超星数字图书馆》只收录图书;但在综合性保存系统中,该元素是必备的。(b)检索途径,根据元素(a)描述的文献类型设置的检索途径,若该类文献有多个检索途径,应重复该元素分别设置。(c)文献标识,根据元素(a)描述的文献类型和元素(b)描述的检索途径,针对一件数字对象的标引结果。

检测项目。(ⅰ)检查元素(a),若内容为空,且保存系统不是单一文献类型的系统,输出风险。(ⅱ)检查元素(b)的内容,若为空,表明有文献类型但没有检索途径,输出风险;若不为空,检查其与保存政策中的元素(a)描述的文献类型的检索途径一致性,若不一致,表明保存系统实际设置的检索途径不包含在保存政策中,输出风险。(ⅲ)检查元素(c)的内容,若为空,表明有检索途径但没有文献标识,输出风险;若不为空,检查其与元素(c)的内容的一致性,若不一致,如检索途径为“专利号”,但文献标识为“郑州大学”,输出风险。其中前两个项目可自动检测,最后一个项目的检测需人工辅助。

2.1.7 外观特征

元数据元素(6)可确保数字对象从存储系统中识别出来,但无法保证用户对其外观的可识别性。外观特征指保存系统决定的对用户识别数字对象有重要影响的外观方面的属性,这些特征一般不作为检索途径,但在长期保存过程中这些特征不应发生改变。在数字对象被浏览之前,通过外观特征的描述检测其主要外观属性是否变化,是判断数字对象可识别性的一个角度。

元素。(a)外观特征名称,比如,文本型数字对象的页数、页宽、页高,正文字体、字号,图像型数字对象的颜色、分辨率、位元深度,视频型数字对象的播放时间等。(b)外观特征值,比如,页数的值为10页,视频播放时间30分钟,图像的颜色为红色。外观特征需配对描述。

检测项目:(ⅰ)检查每对外观特征名称和外观特征值,若其中一个元素没有内容,要么有名称但没赋值,要么有赋值但没名称,这两种情况均不符合逻辑,说明元数据描述出现错误,导致无法检测,输出风险。(ⅱ)对比每对元素的描述值与数字对象的实际值的一致性,比如,图像的位元深度描述值是32位,但数字对象的检测值是8位,表明长期保存过程中,一些保存活动改变了图像的位元深度,可能影响数字对象的可识别性,输出风险。

2.1.8 浏览工具信息

浏览数字对象所需的工具以及运行浏览工具所需环境的描述。浏览是用户使用数字对象的最常用方式,也是用户识别数字对象全貌(包括外观和内容)的最直接方式,若无法浏览,或浏览效果欠佳,即使数字对象保存完整无缺,对用户来说也不具可识别性。浏览需通过相应浏览工具方能实现,因此,浏览工具信息是影响数字对象可识别性的一种因素。

元素。(a)浏览工具名称,如CAJ Viewer(用于CAJ文件浏览),MP4播放器(用于MP4视频文件浏览)。(b)浏览工具版本,很多浏览工具都有版本之分,甚至一款浏览工具的不同版本能够浏览的数字对象类型也不尽一样。(c)浏览工具的运行环境,比如,不同的浏览工具运行的操作系统不同,甚至运行的操作系统版本也不同。(d)浏览效果,有时,一件数字对象可以有多种浏览工具,但浏览效果可能不同,有的浏览效果最佳,有的一般,有的较差。

检测项目。(ⅰ)检查元素(a),若无赋值,对于一件非常规格式的数字对象,用户选择浏览工具困难,可能导致无法浏览,致使用户无法识别,输出风险。(ⅱ)检查浏览工具的版本,若无赋值,可能会影响用户对浏览工具版本的选择,从而影响用户对数字对象的有效识别,输出风险。(ⅲ)检查运行环境,若无赋值,可能会导致浏览工具无法运行,用户也无法识别数字对象,输出风险。(ⅳ)检查浏览效果,若效果不是最佳,也会影响用户的识别,输出风险。

2.2 保存事件方面的可识别性风险型元数据

数字对象在长期保存过程中,执行的影响其可识别性的保存活动。是可识别性风险的保存事件方面的检测点。包括:

1)去索引事件[7]。删除数字对象检索途径信息的一种保存活动。该事件的执行结果,虽然不影响数字对象在存储系统中的存在性和存储的位置,但用户无法通过检索途径查找到这些被去除索引的数字对象,导致对用户来说这些数字对象不再具有可识别性,输出风险。

2)压缩事件。使用压缩工具对原始数字对象进行压缩的一种保存活动。目的在于减少数字对象体积,降低存储所需空间。该事件的执行结果导致数字对象失去可识别性,因为压缩文件用户无法直接浏览使用,输出风险。

3)加密事件[8]。使用加密工具对原始数字对象进行加密的一种保存活动。目的在于提高数字对象的安全性。该事件的执行结果导致数字对象失去可识别性,因为加密文件用户无法直接浏览使用,输出风险。

4)数字迁移事件。将格式过时的数字对象迁移到新格式的一种保存活动。目的在于用户使用当前的浏览工具能够浏览使用。该事件的执行结果使格式过时的数字对象恢复可识别性。但是,迁移准确率若小于保存政策中的规定,将影响用户对新格式数字对象的识别,输出风险。

5)病毒检测事件。使用病毒检测工具对保存的数字对象集合检测病毒的一种保存活动。目的在于及时发现并处理被病毒感染的数字对象,防止这些数字对象失去可识别性。但是,检测周期若不符合保存政策的规定,数字对象的可识别性可能会降低,输出风险。

6)介质刷新事件。使用介质刷新工具对存储介质实施刷新一种保存活动。目的在于及时发现并处理存储在介质异常中的数字对象,防止这些数字对象失去可识别性。但是,刷新周期若不符合保存政策的规定,存储在保存介质中的数字对象的可识别性可能会降低,输出风险。

2.3 保存政策方面的可识别性风险型元数据

不是可识别性风险的检测点。或为数字对象方面的可识别性风险检测服务(下面的1)、2)、3)),或为保存事件方面的可识别性风险检测服务(下面的5)、6)、7)),或为元数据内容赋值的界定服务(下面的4))。

1)数字对象标识符框架。包括标识符类型框架、标识符取值框架,以及标识符类型与标识符值的描述方式(是分开描述,还是合并描述)的选择。用于数字对象标识符的检测。

2)数字对象的关系。有:结构关系包含的类型界定;派生关系包含的类型界定。用于对象关系的检测项目(ⅱ)。

3)文献类型及其检索途径。有:文献类型的界定;各类型文献包含的检索途径界定。用于检索途径的检测项目(ⅱ)。

4)安全备份政策。用于界定保存策略的安全备份策略中的“高”、“中”、“低”三个级别的具体要求。

5)数字迁移准确率。数字对象迁移后外观和内容没有发生变化的比率设置。用于数字迁移事件的检测。

6)病毒检测频率。病毒检测的频率设置。用于病毒检测事件的检测。

7)介质刷新周期。介质刷新的频率设置。用于介质刷新事件的检测。

3 可识别性风险检测实验

3.1 实验术语界定

为简化实验过程的描述和实验结果的表达,结合实验对象CNKI,界定实验术语见表1。

表1 实验术语界定

3.2 样本采集

来自CNKI,采集的总样本量1万件。使用为分层随机抽样法采集。步骤如下:

3.2.1 样本单元的构建

基于TD、CD、SD 3个维度,建立一个三维空间坐标系,每个坐标点{TDi,CDj,SDk}(i∈[1,7],j∈[1,9],k∈[1,8])上的数字对象集合即为一个样本单元。这样,样本单元共计504个。

3.2.2 样本量计算

步骤:(a)依据样本单元的3个维度的值,构建第n个样本单元的检索条件。(b)检索并得到第n个样本单元的数字对象数量An。(c)检索CNKI的数字对象总量为D。(d)计算第n个样本单元数字对象数量占总量的比例:Bn=An/D。(e)计算第n个样本单元的样本抽取量:Cn=Bn×10000。

3.2.3 样本获取

根据上述计算的第n个样本单元的样本抽取量Cn,在该样本单元的检索结果中,基于无重复随机抽样法,抽取Cn条文献,下载每条文献,形成第n个样本单元的样本。

以第1个层次单元{TD1,CD1,SD1}的为例。首先,在CNKI的高级检索界面中,选择学科领域为“基础学科”,时间范围为1990年之前,文献类型为“全部期刊”,检索结果为370 423。其次,在CNKI的高级检索界面中,选择学科领域为所有学科,时间为2016年之前,文献类型不限,检索结果为74 225 795。再次,计算第1个层次单元的抽取量:370423÷74225795×10000=50。最后,在第一步的检索结果1~370 423中随机抽取50个不重复的数字,下载这些数字对应文献号的文献,形成第一个层次单元的样本。

元数据内容的获取。均来自CNKI(本项目的合作单位)的相关元数据。包括保存型、管理型和描述型等3类元数据。将本文设计的可识别性风险型元数据与上述3种元数据进行映射,赋值每件样本的风险型元数据元素。若无映射元素,不赋值。

3.3 风险检测

根据样本集的维度,进行下述4类可识别性风险检测实验。其中,零维度检测实验1次;单维度检测有3种,各实验1次;二维度检测有3种,各实验1次;三维度检测实验1次;共计8次实验。

表2

3.3.1 零维度检测

检测结果见图1。概率较高的风险点有:CP3、CP6、CP7、CP13、CP14。

图1 零维度检测结果

3.3.2 单维度检测

分3种:TD、CD、SD的单维度检测。检测结果图示形成分别见图2、图3、图4。检测结果的汇总见表2。

3.3.3 二维度检测

有下述3种类型:

1){TD,CD}的二维度检测。检测结果图示形成见图5。检测结果的描述形式见表3。

图2 TD检测结果图

图3 CD检测结果图

图4 SD检测结果图

检测类型主要风险点对应风险点上的风险分布TD单元检测CP3{TDi}(i=1)CP6{TDi}(i=1)CP7{TDi}(i=1)CP13{TDi}(i∈[1,7])CP14{TDi}(i∈[1,7])CD单元检测CP3{CDj}(j∈[1,9])CP6{CDj}(j=8)CP7{CDj}(j=8)CP13{CDj}(j=9)CP14{CDj}(j=9)SD单元检测CP3、CP6、CP7、CP13、CP14{SDk}(k∈[1,8])

表3{TD,CD}检测结果

风险值较高的风险点对应风险点上的风险分布CP3{TDi,CDj}:i=1,j∈[1,9]CP6{TDi,CDj}:i=1,j=8CP7{TDi,CDj}:i=1,j=8CP13{TDi,CDj}:i∈[1,7],j=9CP14{TDi,CDj}:i∈[1,7],j=9

2){TD,SD}的二维度检测。检测结果图示形成见图6。检测结果的描述形式见表4。

表4 {TD,SD}检测结果

3){CD,SD}的二维度检测。检测结果图示形成见图7。检测结果的描述形式见表5。

图5 {TD,CD}二维度检测结果图

图6 {TD,SD}二维度检测结果

图7 {CD,SD}二维度检测结果

风险值较高的风险点对应风险点上的风险分布CP3{CDj,SDk}:j∈[1,9],k∈[1,8]CP6{CDj,SDk}:j=8,k∈[1,8]CP7{CDj,SDk}:j=8,k∈[1,8]CP13{CDj,SDk}:j=9,k∈[1,8]CP14{CDj,SDk}:j=9,k∈[1,8]

3.3.4 三维度检测

检测结果图示形成的图太大,略。检测结果的描述形式见表6。

表6 三维度检测主要风险点及其风险分布

3.4 结果分析

实验样本是对CNKI检索而获取的,这意味着,所有用于实验的样本数字对象均可被保存系统识别出来,并且均可从时间、文献类型和学科3个检索途径检索出来。因此,检测实验在下述风险型元数据的检测项目上不会产生风险:(a)数字对象唯一标识符的所有检测项目;(b)数字对象存储位置的所有检测项目;(c)数字对象检索途径的时间、文献类型和学科等三个途径的相关检测项目;(d)去索引事件的检测项目。需要说明的是,在实际的数字保存可识别性风险检测中,检测对象是保存系统的整个数字对象,或是通过其他方式划分产生的部分数字对象,本文设计的所有数字对象方面的风险型元数据和保存事件方面的风险型元数据均可能产生风险。

根据检测结果,可识别性风险点如下:

3.4.1 对象的关系

主要集中在{TDi,CDj,SDk}(i=1,j∈[1,9],k∈[1,8])。即1990年之前的各种类型文献的各个学科中。可能原因是,该集合的数字对象收录到CNKI保存系统中最早,当时没有进行数字对象的关联关系分析和标引,或分析标引不充分或不准确。解决办法:针对该集合中的每件数字对象,标引、补充、核实关联数字对象的标识符、关系类型和关系值。

3.4.2 检索途径

主要集中在{TDi,CDj,SDk}(i=1,j=8,k∈[1,8])。即1990年之前所有学科的古籍文献中。因为所有古籍都在1990年之前,所以,实际上该风险点产生自的数字对象集合与时间无关。可能原因是,CNKI对古籍文献仅提供全文、书名、著者、卷名检索途径,缺少用户常用的关键词、主题词等检索途径。另外,也许因为这类文献的特殊性,充分标引需要古文献背景知识,所以,一些现有的检索途径缺乏赋值文献标识。解决办法:针对该集合中的每件数字对象,补充、核实标引内容;另外,建议考虑增加关键词、主题词等检索途径。

3.4.3 外观特征

主要集中在{TDi,CDj,SDk}(i=1,j=8,k∈[1,8])。即1990年之前所有学科的古籍文献中。与上述“检索途径”风险点的原因一样,该风险点产生自的数字对象集合与时间无关。可能原因在于,在所有的文献类型中,可能只有古籍文献的外观特征比较重要,CNKI给予了标引,但不做检索途径,仅作为长期保存之需的保存型元数据的一个元素;其他类型文献均无该类标引;而一些古籍文献的该元数据的标引结果与原始数字对象的实际不完全相符。解决办法:针对该集合中的每件数字对象,核实标引内容,使标引结果与数字对象实际情况一致。

3.4.4 病毒检测事件

主要集中在{TDi,CDj,SDk}(i∈[1,7],j=9,k∈[1,8])。即所有年代所有学科的工具书中。经与CNKI核实,该数字对象集合保存在一个单独的存储设备中,而该存储设备执行病毒检测事件缺失。解决办法:将该存储设备添加到存储设备列表中,保存系统严格按照保存政策对存储设备列表中的所有存储设备执行病毒检测事件。

3.4.5 介质刷新事件

主要集中在{TDi,CDj,SDk}(i∈[1,7],j=9,k∈[1,8])。即所有年代所有学科的工具书中。与上述“病毒检测事件”的原因相同,该数字对象集合保存在一个单独的存储设备中,而该存储设备执行介质刷新事件缺失。解决办法:将该存储设备添加到存储设备列表中,保存系统严格按照保存政策对存储设备列表中的所有存储设备执行介质刷新事件。

4 结 论

数字保存工作是一个充满风险的过程。风险检测应该是保存系统执行的一项日常操作。本研究对数字保存风险之一的可识别性风险,阐述该类风险含义,设计该类风险的元数据,构建该类风险的检测方法,并基于CNKI的数字对象样本对检测方法进行了实验。实验结果表明,本文设计的检测方法是适用的,可以用于检测保存系统中数字对象的可识别性风险。

但是,检测方法完全基于本文设计的风险型元数据。所以,可识别性风险型元数据需要在未来的研究和实践中进行适用性验证和完善。

[1]Vermaaten S,et al.Identifying Responsibility to Successful Digital Preservation:the SPOT Model for Risk Assessment[EB/OL].D-Lib Magazine,2012,18(9/10)

[2]OCLC,RLG.Implementing Preservation Repositories for Digital Materials:Current Practice and Emerging Trends in the Cultural Heritage Community[EB/OL].http://www.oclc.org/research/projects/pmwg/surveyreport.pdf.,2017-05-01.

[3]OCLC,RLG.Preservation Metadata for Digital Objects:A Review of the State of the Art[EB/OL].http://www.oclc.org/research/pmwg/presmeta_wp.pdf,2017-07-30.

[4]PREMIS Editorial Committee.PREMIS Data Dictionary for Preservation Metadata(Version 3.0)[EB/OL].http://www.loc.gov/standards/premis/,2017-04-24.

[5]Digital Library Federation.Electronic Resources Management:ERM Data Meta Dictionary[EB/OL].http://www.diglib.org/pubs/dlf102/ERMFINAL.pdf,2017-02-22.

[6]Bradley K.Digital Sustainability and Digital Repositories[EB/OL].http://www.valaconf.org.au/vala2006/papers2006/45_Bradley_Final.pdf,2015-07-19.

[7]The Library of Congress.Linked Data Service[EB/OL].http://id.loc.gov/vocabulary/preservation/eventType.html,2017-03-04.

[8]Wright R.The Significance of Storage in the“Cost of Risk”of Digital Preservation[J].International Journal of Digital Curation,2009,4(3):20-32.

猜你喜欢
识别性标识符检索
浅析5G V2X 通信应用现状及其侧链路标识符更新技术
基于底层虚拟机的标识符混淆方法
基于区块链的持久标识符系统①
2019年第4-6期便捷检索目录
符号的识别性在广告视觉形式中的体现——以标志设计为例
以改性松香为交联剂的甲硝唑磁性分子印迹固相萃取材料的制备、表征及分子识别性研究
专利检索中“语义”的表现
国际标准检索
国际标准检索