浅析SIRF信息自存储模型的概念和应用

2021-08-14 16:51陈志鹏
河南图书馆学刊 2021年6期

关键词:长期保存;数字保存系统;存储模型

摘 要:无论软硬件基础设施和目标用户如何变化,数字资源长期保存系統在可预期的未来能够确保信息的完整性和真实性,为用户提供数字信息获取服务。SIRF是由SNIA(全球网络存储工业协会)提出的一种标准化数字资源存储格式,能够简化数字资源长期保存的流程,节省成本。文章通过对SIRF的定义和存储模型的分析,详细介绍了SIRF在各行业的应用模式,以期为我国数字资源长期保存系统的建设和发展提供借鉴。

中图分类号:G250文献标识码:A文章编号:1003-1588(2021)06-0085-03

1 背景

随着互联网应用的普及,越来越多的组织机构需要长期保存和访问各种大数据信息,如电子邮件、医疗记录及财务记录等,并对这些大数据信息进行统计、分析,进而为商业决策或科学研究提供数据支撑。为了抢夺用户,大型网络公司积极为用户提供照片、视频、音频等个人数据的云存储服务,并提供电子图书、流行音乐、电影和其他数字资源的访问和下载服务。全球网络存储工业协会(SNIA)的统计结果显示,有83%的企业、机构需要保存数字资源50年以上,有53%的机构需要永久保存他们的数字资源[1]。

为了应对以上挑战,全球网络存储工业协会专门成立了数字资源长期保存工作组,并构建了SIRF信息自存储模型,以期建立一个独立的数字资源存储标准格式,确保数字资源的完整性、真实性和可用性。SIRF在数据存储层为元数据提供了一个容器,保证原始数据信息在跨设备和跨系统迁移过程中能够得到妥善保存。数字资源长期保存是指在可预期的未来,无论软硬件基础设施和目标用户如何变化,系统仍能为用户提供数字信息获取服务,并保证信息的完整性和真实性[2]。数字资源长期保存通常面临比特存储和逻辑存储两种挑战。比特存储是指系统在遭遇各种风险时,如系统软硬件设施老化、过时,遭遇黑客攻击,甚至发生火灾、地震、洪水等自然灾害等,系统仍能为用户提供数字资源访问和存取服务。逻辑存储是指当使用环境(包括服务器、操作系统、数据库管理软件及其他应用)和目标用户发生变化时,系统仍可以保证数字资源的可理解性、可用性、真实性和完整性,为用户提供数字资源长期保存服务。

虽然开放档案信息系统(OAIS)作为核心的数字资源保存系统,拥有灵活适应各种环境的数字资源保存框架和结构,但仅对系统高层的参考模型进行了定义,相关机构需要根据实际情况对工作流程进行细化。SIRF信息自存储模型提供了一种存储容器,可以保存包含大量语义信息的元数据,并能与其他类型的存储容器连接,对数字资源保存系统的原始数据进行解释和说明。同时,SIRF信息自存储模型具备跨软硬件系统平台的操作能力,能够为未来的数据迁移提供良好的支持。

2 SIRF信息自存储模型介绍

在过去的档案、磁带等文件的保存过程中,管理人员会根据资源的使用范围、类型等进行分类,将这些文件存放在贴有序号、时间和内容介绍的文件柜中进行保存,以备将来查询、使用。SIRF信息自存储模型作为一种数字资源存储容器,包括对数字资源进行描述的元数据目录、数据对象及其之间的关系等内容。相关机构可利用SIRF信息自存储模型,有效解决数字资源在长期保存过程中遇到的一些问题,最大限度地满足用户对数字资源的长期存取需求。

2.1 SIRF组件

SIRF为计算机文件系统、云存储系统和数据仓库等存储子系统提供了一种逻辑数据格式,其主要包括以下三个组件:一是Magic Object,该组件独立于物理存储介质,名称和大小固定,用于标示SIRF容器及版本,并提供访问SIRF目录的方法。二是Preservation Objects,该组件存放需要长期保存的原始数据,如OAIS系统中的AIP数据信息。三是Catalog,目录一般会经常更新,包括对原始数据进行描述、解释等信息内容,能为用户通过存储系统获取数字资源提供便利。传统数字资源保存系统的元数据信息较少,容易导致原始数据在长期保存过程中无法被理解和使用。SIRF通过目录组件保存了丰富的语义信息元数据,为用户充分理解数字资源保存系统中的原始数据提供了便利,保证了数字资源的可用性。

2.2 SIRF属性

随着数字技术的不断发展,软硬件设施的更新速度加快。为了长期保存数字资源,并随时为用户提供数字资源存取服务,相关机构必须对数字资源的内容进行迁移,以保证信息的长期可用性和可理解性。SIRF具有自我包含、自我描述和可扩展性等特点,能够解决数字资源长期保存过程中存在的一些问题[3]。

2.2.1 自我包含。相关机构在长期保存数字资源的过程中需要保存其内容信息和元数据,如果不能对这些数据进行有效管理,在未来就可能发生内容信息与元数据分离的情况,进而导致数字资源无法被正常使用。针对长期保存的数字资源,SIRF能够把内容信息和元数据作为单一的数字单元进行存储、迁移和管理,从而保证数字对象生命周期期间的内容完整性和一致性。

2.2.2 自我描述。目标用户在获取数字资源的过程中既可通过描述信息判断哪些是内容信息,哪些是元数据,也可通过元数据理解内容信息的含义。但是,如果描述信息本身较复杂,需要相应的描述信息对其进行解释说明,就容易陷入一个不断重复的死循环。SIRF在最原始的根描述信息环节采用ASCII码等国际通用格式进行解释说明,并不断对描述信息进行更新和迁移,从而保证了数字资源的长期可用性和可理解性。

2.2.3 可扩展性。随着时间的推移,相关机构不可能对所有技术环境的变化和目标用户的改变进行准确预测和判断,因此,其应对环境和用户的变化情况进行记录。例如,相关机构在对数字资源进行迁移或增加新的数字资源的过程中,应对原始数据的格式和新的数据格式进行保存。SIRF容器具有灵活性、可扩展性等特点,能够对相应的变化情况进行及时的记录。

3 SIRF元数据目录

SIRF元数据目录是一个包括元数据描述及其相互关系的数字对象,其格式经过标准化定义,能够为未来用户的理解和利用提供便利。存储对象的元数据信息是由不同软硬件系统生成的,相关机构很难对其数据格式进行标准化处理。因此,相关机构应对SIRF目录对象与存储对象的元数据进行区分。SIRF目录既包括描述SIRF组件的元数据信息,也包括描述单个存储对象(Preservation Object)的元数据信息,SIRF能按照不同类型、成分和属性对两种元数据信息进行分层组织、表示。

3.1 SIRF组件元数据

SIRF组件元数据信息包括详细的描述信息、组件ID、状态信息、起源信息等。随着时间的推移,针对SIRF组件内容进行详细描述的元数据信息会产生不同版本,单个组件也可能拥有多个描述性元数据信息。因此,每一条详细描述信息都会被设置不同的ID号和版本号,以保证元数据的长期可用性。组件ID元数据包括每个SIRF组件的唯一标识符,能够确保数据的真实性和完整性。状态信息对SIRF组件的工作状态进行了详细描述,如:哪些容器包括所有的存储对象数据;哪些容器正在进行数据迁移,仅包括部分存储对象数据。状态信息完整记录了每个组件的状态,为用户存取数字资源提供了支撑。起源信息对SIRF组件中存储对象的来源、版权、存储行为和影响等历史数据进行记录。由于信息类型或用户类型的不同,起源信息存在较大区别,数据量规模庞大。因此,SIRF目录仅存储相关的地址信息。起源信息能够对数字资源的来源、迁移过程、使用环境和意义进行详细描述,对于用户在未来能否顺利获取、理解和使用数字资源具有至关重要的作用。

3.2 SIRF目标对象元数据

SIRF目标对象元数据包括对象ID、不变性信息和审计日志等。对象ID用于确认长期保存对象,并与其他长期保存对象建立联系。对象标识符元数据的设置可以解决数字资源长期保存过程中如何保证标识符唯一性的问题。针对长期保存对象的发展变化,SIRF允许使用多个对象标识符记录其不同版本,但同一时间仅能使用一个对象标识符。这种方式既能解决冗余问题,也能保证标识符在发展、更新过程中的可扩展性。不变性信息元数据能保证数字资源的准确性,相关机构可通过简单的CRC(循环冗余校验)或复杂的MD5(信息摘要算法)对不变性信息进行计算和验证,但随着时间的推移,强大的验证算法也会过时。因此,SIRF目录允许使用多种冗余算法对长期保存的对象进行验证。审计日志能够保存系统对长期保存对象的存取和修改等重要信息。不同的数字资源长期保存系统对审计日志的内容和扩展信息的要求不同,管理方式也不一样。审计日志信息一般以长期保存对象链接的形式被保存在SIRF目录中。

4 SIRF的应用

4.1 SIRF应用模型

SIRF应用模型主要包括Storage(存储模块)、TP-Service(当前存储服务模块)、FP-Service(未来存储服务模块)、T-App(当前应用模块)、F-App(未来应用模块)及Registry(功能信息模块)。Storage(存储模块),即存储子系统,负责保存所有的数字资源;TP-Service(当前存储服务模块),即当前系统提供的存储服务类型,如数字摄取服务、数据转换服务等;FP-Service(未来存储服务模块),即未来能够提供的存储服务;T-App(当前应用模块),即当前使用的各种应用软件;F-App(未来应用模块),即未来使用的应用软件;Registry(功能信息模块)负责保存文件格式信息(如PDF、docx、jpg)等内容。

4.2 个人云存储数字保存系统应用案例

个人用户通过SIRF数据模型的云存储系统能够对家庭照片和相关文档等数字资源进行长期保存,并在未来便利地存取和保存。使用流程如下:个人用户在云存储系统创建一个关于家谱的数字容器,存放需要保存的照片、音頻、视频及文档资源;个人用户通过云存储系统的TP-Service服务模块,使用T-App服务模块对家谱相关内容进行摄取;TP-Service服务模块能够把摄取的内容按照国际标准转换为适合长期保存的数据格式,并把转换后的数字保存对象保存在家谱数字容器中;随着时间的推移,用户的后代如果需要访问、获取家谱数字容器中保存的相关内容,就要通过FP-Service服务模块验证用户身份并提供授权;F-App模块能够通过FP-Service服务模块获取最新版本的数字资源,并以PDF等通用的数字格式提供给用户。

云存储数字资源保存系统应具备以下条件:支持长期保存对象的格式转换,并能够保存原始和转换后的版本;能够对数字唯一标识符进行长期管理,保证唯一性;当安全保密机制过时,能够及时更新系统,保证数字资源的安全性;保证数字容器符合SIRF数字容器标准,并能够与其他云存储系统连接;保证数字资源在数字迁移或数字仿真后的真实性、完整性和可理解性。

参考文献:

[1] 吴振新.长期保存中的数字对象不变性研究[J].现代图书情报技术,2014(11):1-9.

[2] 吴振新,付鸿鹄,马海收,等.长期保存系统监控服务内容框架研究[J].图书情报工作,2014(3):51-57.

[3] 董晓莉.SIRF与长期保存数字对象的不变性研究[J].图书馆杂志,2017(3):69-76.

(编校:孙新梅)

收稿日期:2021-05-09

作者简介:陈志鹏(1977— ),郑州财经学院图书馆馆员。