内容深度发现下的非结构化数字记忆遗产知识组织
——以口述梅州侨批史料保护为例*

2019-04-16 03:09李建伟
图书馆论坛 2019年4期
关键词:记忆多媒体历史

李建伟

2013年6月,“侨批档案——海外华侨银信”被联合国教科文组织正式列入《世界记忆名录》。侨批是由海外华侨通过民间机构汇寄回国内亲人的家书,它具有汇款功能,银信合一。这种历经百年的家书是海外侨胞紧密联系祖国亲人的纽带,其饱含丰富的情感,客观记录了近150年以来身处异邦的华侨华人以及国内家乡亲人的家庭、事业、生产和生活的真实情况,反映了侨居国和祖国的社会变迁和发展进程,被赞誉为跨越百年又兼通中外的“敦煌文书”[1]。

1 口述历史与梅州侨批

1.1 口述历史的发展

口述资料与文字资料、实物资料一样都是重要的人类知识表现形式[2]。无论是西方的《荷马史诗》还是中国的《论语》《诗经》等,都是先经过口述,后又利用文字记录的结果[3]。1948年,美国哥伦比亚大学巴特勒图书馆始创了口述历史研究室,首次提出“口述史”的概念,标志着着现代口述史学的诞生。该中心关注政治历史,利用多媒体手段记录和保存历史档案,并以抢救文化民俗、重要地方历史为首要目标。现如今,口述历史在美国已经发展成为社会科学的一种基本研究方法,口述历史相关机构蓬勃兴起,项目广泛,资源丰富,尤其是口述历史研究中对资源的加工整理、组织标引以及内容揭示的技术方法,为各国开展口述历史工作提供了良好的借鉴。新加坡口述历史的发展也独树一帜,从1979年由5 人口述历史小组进行的“新加坡先驱人物”“新加坡政治发展史(1945-1965年)”项目开始,到2011年倡导全民参与的“新加坡记忆工程”,开启了各社会阶层“自下而上”来叙述历史、民众共同保护国家集体记忆的新模式[4]。新加坡口述历史工作的成功经验丰富,在口述工作的标准与规范化控制、档案管理与修复以及软环境建设方面成绩斐然。

信息技术的飞速进步,不断改变着传统档案文献的记录与保存方式,也给传统地方文化的保护带来了巨大的机遇。现代口述史历经半个多世纪的发展,世界各地已有许多著名的口述历史项目,如美国加利福尼亚大学的USC Shoah 基金会机构保存有53000 多个大屠杀幸存者的视频访谈[5];Ellis Island 的口述历史项目用于分享美国埃里斯岛的移民历史记录;2010年10月开始的苏格兰SRP 项目(Scotland’s Rural Past),探索苏格兰农村原始过去以及原著民生活的历史[6]。1980年代起,国外口述历史的先进方法逐渐引入我国,引起国内学界越来越多的重视,成为图书档案工作的新视野。国内各大图书馆、档案馆纷纷启动口述历史项目,以抢救和保护历史资源,如2012年国家图书馆的“中国记忆”项目旨在记录历史、传承民族记忆;2015年,广东省立中山图书馆曾邀请8 位抗战老兵口述抗战时期的峥嵘岁月[7]。口述历史是活着的历史,国内外诸多成功的口述历史项目表明,数字信息技术是文化留存的有效手段,口述历史推动了文化的传播与利用。

1.2 开展口述梅州侨批的意义与现状

传统侨批文献是记录社会实践的原始记录,为广大海外华侨的社会记忆建构提供知识给养。作为文化遗存,侨批的研究需要在更为广阔的视角下,对侨批历史上相关的人、事、物等方面展开更为广泛且细致的探究,扩大侨批历史研究的新视线和新领域[8]。多元的信息时代要求侨批的保护不能再是单一的文献保护,也应重视百姓民众记忆中留存的相关历史资料的收集与保护。口述侨批利用录音、录像等多媒体手段通过访谈的方式真实记录人们所知、所闻、所经历的事件,获取丰富又鲜活的史料,让濒危的侨批记忆永久留存。

近年来,广东省政府机构、文化部门以及学术界较重视侨批档案的保护,也意识到口述侨批档案的重要性,如广东省文化厅、档案馆、住房和城乡建设厅于2017年组织发起了“寻访侨批银信后人”活动[9]。对于梅州地区而言,地方政府与档案机构重视传统侨批档案的抢救保护,侨批原件不断被收集整理,相关史料文献被充分发掘,围绕侨批保护的研讨也日益增加,但研究成果更多局限于侨批文本的释读以及文献研究领域;对于口述侨批的研究和实践则才刚刚起步。现今加快口述梅州侨批收集显得尤为迫切,尤其是大部分历史见证人年事已高,一些珍贵的历史记忆将面临消失,若不及时挖掘抢救,这份蕴含独特学术价值的珍稀人文遗产将蒙受更大的损失。

2017年,嘉应学院图书馆正式启动口述梅州侨批保护项目,依据侨批保护工作的抢救性、独特性以及公众兴趣度进行选题规划,避免资源保护的盲目性与无序性。项目分为5 个子项目,共8 个专题,如“百姓述说侨批故事”项目,以百姓的视角诉说“亲人的记忆”、“水客与侨汇”以及“侨批局的岁月”,让后辈了解侨批的价值、华侨的开拓贡献精神以及当事人彼时的心境和所处环境。其它专题还包括“弘扬优秀客家道德文化”“侨批文化研究”“典型时代特征的侨批”“侨批与文化、艺术”等。目前,相关口述史料的征集以及故事采集获得阶段性成果,共进行了超过120 次的采访,共获取了83 名受访者的口述材料,收录了约107 时长的录音和视频资源,成果处于加工整理及资源信息系统功能优化完善阶段。下文就口述梅州侨批史料数字仓储系统构建,口述史料的标引加工、主题索引系统创新进行探讨。

2 口述梅州侨批史料的数字仓储系统构建

2.1 资源的采集加工与评估整理

采集口述资源是保存口述历史的关键。根植于百姓记忆之中的历史,只有经过收集和记录,才能成为可以利用的实物档案。梅州华人华侨众多,口述侨批题材资源丰富,访谈对象范围宽泛,但限于人力、物力因素制约,选择合适的资源范围成为关键。口述访谈地域范围首选水客活跃或侨批业务经营兴旺的典型乡镇,如梅县松口镇——客家人下南洋的第一站、过往水客活动和侨批流转的枢纽,以及包括百侯、南口、茶阳、丙村等近20 个著名侨乡。侨批机构对象则遴选梅县的福记批局、同裕,大埔县饶源茂、同安堂等16 家侨批局作为资源采集目标,同时主动到相关侨批保护机构、学术研究中心搜寻侨批故事,邀请专家学者解读侨批历史。框定资源范围后,进行访谈对象线索的收集,利用网络社交媒体寻访侨批后人,通过邮件、电话或走访方式联系相关的受访对象,邀请侨批后人讲述侨批故事,聆听尘封于百姓心中的有关侨批的往事。记忆的细节正是历史片段的展示,专题建设让碎片化的记忆聚合成主题鲜明的侨批故事。

成功的口述访谈有赖采访者与被访者之间的沟通、理解。若想通过对话的方式构建一段历史,一方面要确认受访对象或事件的亲历者记忆客观、逻辑清晰,因为模糊零散的记忆难以反映事件的真实面;另一方面首选历史事件的亲历者、知情人或关联度较高的人。历史本身是鲜活生动的,由于历史久远,加之部分访谈对象年高体弱、记忆力衰退,口述内容可能会有讹误虚夸。整理者需要结合文献史实或其它口述材料对素材进行加工、整理,最大程度地还原历史。整理口述侨批,应本着客观与真实的原则,尽可能尊重口述者的原意去表述历史,让口述档案成为历史凭证,同传统侨批一样发挥史料价值。经筛选的口述史料是除去重复的、虚假的内容,而非为说明某种观点去找例证,或者为印证某一结论牵强附会历史名人和事件。

录音笔、DV 等数码器材的不断推陈出新,为口述资源的采录提供了更先进的手段。口述侨批应坚持原生态的影视记录手法,避免艺术化、故事化,力求真实。素材的采集尽量采用高品质录音麦克风实现无损专业录音,以清晰留存记忆者的声音。音频采录主要为wav、MP3、amr 主流格式,波特率不低于192kbps;如果是其它途径获取的独立的音频文件,则利用专业转换软件将格式转换为MP3 格式。视频采录主要包括div、MP4 多媒体类型,画面清晰度较高,并且适合在网络上传播。另外,利用数字水印信息防止网络盗版侵权行为,保护共享资源的知识产权。

2.2 口述资源的智能转录

梅州地区以客家话为方言,口述侨批的大部分采访对象为普通老百姓,年龄较大且普通话水平较低。口述访谈是一种带有沟通性质的工作,为了获得较好的访谈效果,部分访谈允许访谈者与受访者用客家方言交流。为方便互联网用户利用口述档案,需要把有重要价值的口述录音、视频转录为文字稿。资源转录,一可更加明确表示人物故事,二可增强读者的兴趣度,克服因不了解客家方言不愿聆听访谈的障碍,推进文化的推广传承。目前一些实用的智能语音转换工具可以实现语言听写、转写功能,如“搜狗听写”,准确率超过95%。为克服地方方言造成的语音识别困难,除人工听打文字稿外,还可以采用人工复述为普通话再进行自动语音识别。

口述转写往往过于碎片化而需再根据口述内容进行人工分段,以方便阅读与归档保存。口述转录应忠于受访者真实意图,除明显的年代、地名、人物等方面有出入时需即时纠正外,还应尽量从调整逻辑结构、理顺文法等技术层面进行整理加工,体现口述史料的原始性价值。过于口语化的句子转化为书面语时,应注意联系上下文将语句结构补充完整,如缩略语“46年”补充完整为“1946年”。部分讲述人在叙述侨批时使用了隐语行话,如迪卡、药丸等;侨批中随信汇寄银钱的数目、收讫的日期等使用了旧时的称谓,如国币、大洋、银元、民国等,则需要加以注释。同时要注意转录内容的选择,对于与访谈主题无关的导入式寒暄、个人隐私、逻辑思维混乱和矛盾等内容谨慎转录或不转录。口述材料如果与现存史料不符,需要佐证纠正,存疑的信息尽量佐证材料与矛盾信息同时备注,利于研究者考究核查。

2.3 口述侨批史料元数据规范的设计与创新

口述史料学术研究价值高,但数据量大,题材复杂多样,云存储技术为口述侨批的保存提供了无限的空间,然而要从日渐庞大的资源中挖掘到可利用的价值,就得提升资源元数据的质量,重视与传统档案机构和互联网资源的整合方式。元数据是描述口述史料数据属性的信息,元素设计并非多而全,而是注重功能实用、直观。规范元数据目的是方便与异构平台数据库信息资源元数据进行数据收割、映射和转换等,使不同机构保存的资源能够通过网络兼容格式整合在一起。同时元数据的完整性也直接影响资源管理系统的性能,而系统最需要为用户提供的是侨批口述资源有关“人物”“时间”“地点”“历史背景”“人物社会关系”“主题特征”等关键信息,还需要说明载体形态项中所涉及的数量、格式、版权等要素。

目前描述多媒体资料的元数据规范丰富多样,嘉应学院图书馆参考借鉴《口述历史编目手册》以及2016年国家档案局的《口述历史电子档案元数据方案》,结合客家文化的特点,集成设计元数据方案,见表1。采用集成设计的思路规范侨批口述资源元数据模型,可以有效保证信息特征抽取、结构化深度整序,支持模糊、精确搜索,帮助不同信息能力的用户都能以最符合自己的检索习惯,方便快捷地识别、获取感兴趣的资源内容。经过统一格式转换和规范化预处理的元数据记录,完成对不同载体、格式资源内容的有效揭示,可将某些具有相似内容特征的音频、视频、图片等口述资源关联在一起,实现基于知识关联的多类型信息资源的深度聚合,增进信息资源共享效度。

表1 梅州口述侨批电子档案元数据表以及实例

(续上表)

3 非结构化侨批数字记忆资源深层知识组织与揭示的实证探究

3.1 基于知识发现的口述侨批资源系统

目前,相关口述侨批单个采访视频/音频文件约50 分钟,主题内容丰富。对多媒体资源元数据进行标引后,文件保存在数据库外部存储空间。该方式是一种基于目录式的多媒体文件仓储管理,用户通过关键词、时间、人物等途径进行资源检索调用,优点是数据库结构较简单,不受文件类型限制;缺点是系统将符合匹配条件的结果返回给用户后,用户不能对多媒体蕴含的内容进行检索,无法识别档案里所讲述的内容,系统仅仅提供资源保存管理功能。

口述侨批的使命是记录社会百姓的相关历史,使它成为历史的一部分。如果有价值的相关史料仍然隐藏在庞杂的信息中,用户较难发现时,其使命也就难于很好完成。因此口述侨批的重要任务是帮助发现历史,为用户构建较科学的资源知识发现系统,为大规模的口述史料提供精准有效的资源发现入口。信息时代,用户查找利用信息资源的要求越来越高,侨批口述资源发现系统目标是基于内容的深层知识发现,从非结构化多媒体文件中提取关联内容,如某个有价值的故事情节、数据、场景等,根据这些线索从海量数据库信息中聚合更多主题相似的数据,提升用户的阅读兴趣,实现史料价值最大化。

3.2 基于转录文本检索的视频同步系统

口述采访记录都是语音、视频多媒体文件,媒体文件被转录成文本,用户利用关键词检索后,仍需要在语音/视频中搜寻信息相应的时刻。为增强口述历史的用户体验,平台管理系统应用PHP 开发的免费开源的“口述历史元数据同步器”(Oral History Metadata Synchronizer,OHMS)功能插件。OHMS 由“同步器”与“查看器”组成。“同步器”以分钟为间隔对目标记录分段,将与多媒体实际时刻相同步的时间标签嵌入转录文本中。时间标签的嵌入是在转录文本中进行,边听边看边产生,廉价而高效,如图1所示。时间标签实现转录文本与音/视频时刻的精确匹配,用户输入搜索词检索后,每条符合条件的记录可精确指向对应时间点的多媒体内容,方便即刻浏览播放。“同步器”使转录文本与音/视频之间建立起一座桥梁,实现对多媒体对象语义内容及上下文进行关联检索,让用户更快捷有效地获取所需资源和利用口述采访中有用信息。

图1 时间标签工作机制

“查看器”是前端平台,结合用户查找、利用资源的习惯,在一个集成的空间里为用户提供口述记录及与之同步的转录文本,多维度揭示信息资源。如图2,用户在“李淼讲述华侨姑姑李冬妹的故事”中搜索“水客”,所有匹配结果在右边区域列表呈现,左边区域显示预先用“时间标签”间隔的记录片段,用户点击相应的“时间标签”即可播放对应时刻的采访。在同一前端界面实现多媒体资源与转录文本的关联匹配,迅速、准确为用户提供所需信息。

图2 提供口述记录及与之同步的转录文本的展示界面

3.3 非结构化多媒体资源主题索引

自动语音识别是替代人工转录的有效技术,但对于仍保留客家方言采访的口述梅州侨批而言,其识别率受到极大的限制。如果为口述数据库所有资源制作转录,把转录文本作为资源搜索的唯一入口,显然资金、人员和时间成本巨大。但转录也有其局限性:假设叙述者长时间叙述形容印尼社会生活中原住民与华侨之间种族歧视的历史,里面却没有提及到“歧视”一词,当用户选用“歧视”进行搜索就合乎逻辑,然而搜索注定失败,因为讲述人并没有实质映射到相关的描述性概念。为此侨批平台着重将口述音/视频资源依据其所蕴含的内容特征进行主题索引,加工标引形成知识元,服务用户的内容主题发现。

3.3.1 主题索引机制设计

数字采访上传数据库后,工作人员根据被索引对象而确定内容主题,对主题价值较高的时间点进行部分转录,设置关键词,利用叙述性描述方法对该视频片段进行具体描述,形成位置印记。所提取的位置印记特征将存入特征数据库,与对应媒体建立索引联系。

主题索引的关键是从视频中筛选出关键的资源片段,同时准确描述内容特征。索引者细听采访录音,选择他们想描述的部分,打开索引对话框,包含有时间戳(自动填充)、标题、部分记录、关键字、主题、描述、超链接等字段,如图3所示。索引完成后,点击“保存”进行下一段资源描述。索引器可以以15 秒为间隔后退或快进,方便将时间戳准确定位在内容初始处。OHMS 允许用户创建叙词表,主题和关键词等字段可以从叙词表中选择填充,实现对有价值的知识元的快速索引。对于不能承担大规模资源转录的地方文化保护项目而言,利用索引可以增强用户检索和利用访谈资源的效率,还大大节省了建设资金。一个小时的访谈通常花费两到三个小时进行索引,这取决于资源内容的特异性。

图3 OHMS索引模块(后台终端)

主题索引提取可作为检索标志的位置印记作为检索入口;查询系统则将用户检索词与媒体特征库里存储的媒体特征进行相似性匹配,发现符合用户要求的媒体内容。预先设置的位置印记实现帮助用户快速导读到访谈中的焦点内容,给读者带来身临其境的面对面的访谈感觉。图4是对李淼采访记录的资源索引用户前端界面,当搜索“侨批”时,所有用“侨批”做标引描述的视频片段都会被检索出来,用户只按需选择播放采访记录对应的精华时刻。浏览界面展示访谈记录时,也会提供“转录”和“索引”两种功能候选项,选择“索引”,用户能够快速浏览或搜索采访内容;当需要文本查找时,即可切换到“转录”,以进行更具体精确的信息搜索。

3.3.2 非结构多媒体资源深层内容特征揭示

多媒体内容索引可满足高信息、低成本、高效率、大规模的口述侨批资源建设目标,可更好地平衡检索准确性和资源转录成本的矛盾,也大大缩短了访谈记录从制作到用户访问的时间周期。与逐字逐句的转录相比,索引的另一个独特优势是将受访者表述的隐性词汇或语义模糊的自然语言转换为概念清晰明确的控制性词汇。假如被采访者在叙述印尼爪哇巴达维亚城(今雅加达)排华、反华时代教育歧视的有关信息细节时,可能没有说出“教育歧视”一词;但一个优秀的索引者可以将口述人的自然语言,如“我们使用单独的饮水机和洗手间”“我们去不同的学校”或“我们坐在公共汽车的后面”等语句概念变成“教育歧视”这个规范词。此外索引者也可以将经常搜索的关键词,如“公共汽车”“水设施”“公共场所”等归类为受控词汇表中的“教育歧视”上传系统保存。相对于传统单一的文件查询获取服务,基于多媒体内容特征的主题索引,可以为用户提供基于知识节点的深度聚合,也方便读者从大型口述多媒体数据库集中发现和分析出更多隐含的历史细节,如通过侨眷们饱含感情的叙述,能更好地再现中国侨民以往的生活场景,让用户更深切体会侨眷们曾经所承受的身体与精神的双重创痛。

图4 OHMS索引浏览器用户前端界面

4 结语

信息时代,与传统档案机构建构社会记忆“自上而下”方式不同,口述梅州侨批保护项目开启了“自下而上”建构侨批记忆的方式,给相关人员提供了回忆和叙说过去的平台,将客家海外华侨迁徙发展的历史片段转化为可留存和传承的“数字记忆”。侨批多媒体内容的深层知识揭示,方便用户从海量的数据库集中提取有价值的历史故事,实现基于内容的深层知识发现以及史料价值最大化。生动具体的侨批口述历史档案,为客家地区历史文化研究提供了的第一手资料,互联网为共同倾听历史回音提供了手段与途径,极大地弥补了文字材料在记录方面的缺失。

随着时代的变迁,侨批的实用价值逐渐消淡,但其承载的历史文化意义仍然牵动着海外华侨华人的家国情结[10]。侨批是记载侨胞生存经验和情感体验的知识容器,口述侨批并非仅仅是个人或家族的记忆,而是整个中国移民群体的记忆。侨批口述资源访谈并不局限于祖国用户,更需要满足多语言文化背景下的全球客家华人对资源的使用,侨批元数据标准要确保整个资源生命周期内更好地促进资源共享与服务融合,必须努力完善每一个口述历史采访记录中所嵌入的资源描述,并能够有效地将用户的信息需求与档案资源内容紧密关联起来。未来,随着自动语音识别和人工智能技术的成熟,将增强在线口述历史访谈档案的存取能力,为建设大型口述历史数据集提供更强大的技术支持。

猜你喜欢
记忆多媒体历史
借助多媒体探寻有效设问的“四度”
多媒体高考招生宣传平台
移动云计算中多媒体工作流的节能计算卸载
多媒体在《机械制图》课中的应用
新历史
儿时的记忆(四)
儿时的记忆(四)
记忆翻新
历史上的6月
历史上的八个月