基于GIS的图书馆异构资源整合可视化设计*

2018-09-27 06:39
图书馆论坛 2018年10期
关键词:方志异构检索

0 引言

近年来,数字人文研究领域的发展,为图书馆资源重组与应用提供了新的思路与方法。数字人文提倡运用技术手段助力传统人文学科的研究,其中以地理信息系统(Geography Information System,GIS)为基础的“空间分析法”在人类学、历史学、经济学、语言学等人文社会科学领域得到了广泛应用,逐渐形成一套以“空间”为切入点的新型研究方法[1]。2017年5月第二届“北京大学数字人文论坛”会议指出,地理信息系统(GIS)已经成为处理和操纵时空数据最有力的工具[2]。历史地理数据及其相关技术、平台和方法的应用已成为数字人文研究中不容忽视的要素和不可或缺的一部分[3]。

地理信息系统(GIS)是以地理空间数据库为基础,按照空间位置和时间序列管理、操作、分析、展示相关信息的计算机系统[4]。GIS在图书馆领域的应用主要有图书馆空间信息管理系统、数字图书馆应用、阅览导航、地图或古籍资源的图形化查询等[5]。本文试图利用GIS技术的地理空间信息处理、分析和可视化功能[6],通过互联网和局域网,以图形、图像等直观形式对图书馆异构历史地理信息资源进行整合,实现集约管理、直观展示,满足读者对图书馆相关主题异构资源的一站式查询检索需求,提升图书馆资源服务效率。

1 基于历史地理信息的异构资源整合现状

1.1 基于历史地理信息的异构资源

图书馆开展GIS服务具备得天独厚的资源优势和组织优势[7]。图书馆作为人文研究所需原始资料的保存者和服务机构,积累了大量数字资源和高度结构化、规范化的元数据记录[8],同时在资源收集、组织、编目、检索、利用等方面也积累了大量经验。基于历史地理信息的资源包括古地图、地方志、年鉴、地情资料、古籍文献、地名辞典、拓片、名人家谱、人物传记等,这些历史地理资源较珍贵,多数为特藏资源,具有很高的学术研究价值;然而这些资源结构不统一,存在各种形态(如文本、扫描件、图像、音视频),即便都是文本资源,不同数据库存储的元数据格式也千差万别。通过历史地理资源共有的“地理属性”,运用GIS技术整合异构历史地理信息资源(以下简称“异构资源”),能够充分汇聚分散、孤立、封闭的异构资源,创建可促进人文研究的大规模结构化数据集[9]。

以方志资源为例。方志是地方志的简称,是记载一定地区(或行政区划)自然和社会各个方面的历史和现状的综合性著述[10]。方志具有明显的地理属性,是GIS用于异构资源整合的典型代表。方志的数据源分为两类,一类是商业方志类数据库,如爱如生数字化技术研究中心的中国方志库、北京籍古轩的中国数字方志库;一类为地方自建方志类资源,如杭州数字方志馆、陕西省地情网。这些方志分别存放于不同的系统平台,研究者想要查阅某一主题的方志,可能需要跨越多个系统平台。此外,目前方志平台提供的揭示手段有题名/责任者检索、地域浏览功能、目录、全文检索、标签云等,关于方志的地域性特征揭示,都是基于文字的地域名链接浏览[11]。若能结合GIS技术,整合多系统多平台异构的方志资源,将资源分布通过地图直观呈现,不仅能提高资源的聚合度,而且为方志的研究提供了一种新的思路,有效促进相关资源的深度挖掘与分析。

1.2 GIS用于异构资源整合呈现的意义

2017年7月,南京大学召开了“数字人文:大数据时代学术前沿与探索”学术研讨会,会议将GIS技术在历史地理领域的应用列为数字人文研究的前沿问题进行探讨。GIS为历史地理领域的研究提供了新的视角,是数字人文在历史、地理领域赖以发展的重要工具。以GIS为载体的各种主题性地理信息系统成为当前数字人文研究的重点项目[12];以方志、拓片、家谱等为代表的异构历史地理资源在存储、获取上与地理属性相关度极高[13],因而运用GIS技术实现异构资源的整合具有十分重要的意义。

(1)提升资源完整性,促进数字人文学研究。数字人文研究在于对大规模文本的深度挖掘与智能分析,因此相关资源的大规模整合以及资源的细粒度、关联性重建是图书馆支撑人文研究的资源建设重点[14]。地理信息系统通过汇聚相同主题的异构历史地理数据,打破信息孤岛现象,创建可促进人文研究的大规模数据集,扩大了人文学者的研究范围,实现了异构资源的完整与统一。

(2)有利于资源直观/可视化呈现。基于共有的地理属性,GIS将异构资源以地图的形式直观展现,充分揭示历史地理资源的时空特性。通过地理信息系统可以获得数据分布的直观显示,为用户带来更直接的感官体验。

(3)提高检索效率。作为数字人文研究的重要辅助工具,GIS将异构资源整合呈现,大大提高了信息检索和文献获取效率,使用户能够快速一站式地获取资源,得到在时间和空间两方面的直观检索集,突破了传统的文字检索模式[15]。

(4)为研究提供新视角。地理信息系统把一些看似毫不相关的信息通过地理位置属性有机地组织起来,在现有数据基础上探索、创造出新的信息,揭示出传统平台无法呈现的潜在规律、关系和倾向[16],为研究提供了一种新的思路。

1.3 基于历史地理数据的GIS系统调研

中国历史地理信息系统(China Historical Geographic Information System,CHGIS)[17]由复旦大学历史地理研究中心主持,复旦大学和哈佛大学联合绘制,收录了中国历史时期(公元前221-1911年)人口聚居地和历史行政单位的相关数据。CHGIS以地理位置和行政单位的形式记录数据库,可用来调查与中国有关的任意具体的地理数据。CHGIS为用户提供了一个基础GIS平台,用以空间分析、时间统计建模、绘制数字地图等。用户能够将自己的数据集导入CHGIS平台,使自己的数据与CHGIS记录关联起来,对不同历史时期和不同级别的聚合进行排序、查询和显示。CHGIS系统试图建立一套中国历史时期连续变化的基础地理信息库,用于教学、科研和出版物。

中国历代人物传记资料库(China Biographical Database,CBDB)[18]是一个收录中国历史人物传记信息的关系型数据库,目标在于系统地收录中国历史上所有重要的人物传记资料,并将数据免费开放供学术研究之用。截至2017年4月,CBDB共收录7~19世纪人物传记信息约37万条。CBDB鼓励研究学者共同参与,贡献新的数据与其他学者分享。CBDB整合了CHGIS历史地理数据,利用数据的历史地理属性,在人物传记资料的组织和呈现上融入“空间分析法”,将历史人物的出生、生活、任职、游历、田产、死亡、安葬等活动置于多维时空架构之中[19],实现资源可视化与空间分析,为研究者发现问题、解决问题提供了全新的方法和手段,是专题资料库基于历史地理信息进行GIS整合的成功案例。

ChinaXmap是哈佛大学针对中国历史研究推出的中国历史电子地图,涵盖中国历史上大多数朝代的基本历史地图图层,能够查询从商周时期到现代的所有数据,包括农业、气候、地理结构、古代海洋、人口、区域规划等信息[20]。ChinaXmap属于哈佛大学世界地图平台(WorldMap)的一部分,WorldMap是一个开源Web地图系统,支持多学科、多来源、多格式的数据发现,旨在帮助教学科研人员以及大众从空间和时间上更好地调查、分析、编辑和发布地理空间信息,进行可视化研究、通信和存档[21]。ChinaXmap是在WorldMap平台上创建的,哈佛大学中国研究院的许多学者作出了很大贡献。ChinaXmap数据集通过图层形式展示,不同朝代地域特点分别显示在不同图层,用户通过勾选特定朝代或地域,可以查看相对应图层,也可以上传自己的数据创建新图层。哈佛大学图书馆网站中的“哈佛地图库(Harvard Map Collection)”收集了数千份地图数据资源[22],汇聚成数千个图层的叠加,并且随着研究的深入,还在不断增加中。

中华文明之时空基础架构(ChineseCivilization in Time and Space,CCTS)[23]是我国台湾地区“中央研究院”进行的研究,构建了以中国为空间范围、以原始社会迄今的中国历史为时间纵深、以中国文明为内涵的整合性资讯应用环境。CCTS包含基本空间资料、Web GIS整合应用环境和主体化的属性资讯三大部分。项目以谭其骧主编的《中国历史地图集》为主要基础,整合研究院的汉籍电子文献系统、清代粮价资料库、明清地方志联合目录资料库等,并辅以各类其他历史地图和遥感影像等基础图像资源,提供上古至清代,上下逾两千年的中国历史基本底图。借助该系统,用户可以从古代地图为入口了解到当时的地名设置、区域大小、重要道路以及其他重要文化信息[24]。该项目是基于GIS的汉学研究综合应用环境。

“华人家谱总目·上海图书馆家谱知识服务平台”是上海图书馆推出的基于GIS的家谱知识服务平台[25]。家谱,又称谱牒、族谱、宗谱、家乘、世谱等,是同宗共祖的血亲团体记载本族世系和相关事迹、反映本家族繁衍发展过程的历史图籍。上海图书馆拥有全球最多的中文家谱原件,利用GIS技术实现家谱资源的可视化,是上海图书馆基于家谱资源提供数字人文服务的重要尝试。该平台基于时空关联进行发现和探索,主要有两种浏览方式:一种是“时间轴—地图”浏览,转动“时间轴”按钮,查看相应年份中家谱的地理分布;另一种是“地图画圈浏览”,在地图上划出范围,查看相应地域范围内的家谱分布[26]。另外,该平台还支持基于UGC(用户贡献内容)的知识进化和积累,鼓励专家、学生、民间团体贡献知识,撰写反馈意见进行交流互动,经过认证的专家可直接修改系统数据,经审核后发布,系统会记录每一次修改,使数据在使用过程中增值。

“秘籍琳琅——北京大学数字图书馆古文献资源库”[27]是北京大学图书馆在CALIS技术支持下建设的完整展示北京大学图书馆馆藏古籍的网络平台,读者可以在该系统检索北京大学图书馆馆藏全部各种类型古文献元数据,查看和浏览古籍书影、电子图书,以及拓片、舆图图像等。在该系统的时空检索模块,运用GIS技术作为主要检索方式,读者可以查看相应资源在地图上的分布情况,可以通过选择激活图层来显示国界、省界、地形、地貌、河流、省县级地名等信息。另外,读者还可以在不同朝代的历史地图上按照用户划出的区域进行检索,检索结果可以直接在地图上反映出来[28-29]。然而,目前该“时空检索”模块仅提供金石拓片资源的检索,包括墓志、墓碑、刻经、造像及全部拓片共5种类型的拓片资源。

2 GIS系统平台介绍

2.1 基于GIS的异构资源整合框架

基于GIS的异构资源整合框架分为三部分,分别为异构资源层、核心数据层、应用服务层,如图1所示。

图1 基于GIS的历史地理资源整合框架设计

(1)异构资源层汇集来自不同系统平台的同主题历史地理资源。笔者所在的数字人文项目组在2014-2017年间对全国师范大学图书馆联盟中涉及古籍善本、方志、民国图书等资源的164个特藏资源数据库进行了跟踪调研,其中,数据库软 件 平 台 有 TPI、 TRS、DIPS、 Apabi、 IDLETD(CALIS提供)、超星、麦达及图书馆自主开发平台,除TPI为封闭的KBase系统外,平台涉及的后台数据库多为MS SQL、MySQL等关系型数据库。异构资源平台的数据形态既包含了结构化数据(MS SQL、MySQL、Oracle等),也包含了大量半结构化及非结构化数据(Excel、KBase、XML等)。

(2)系统采用元数据收割协议OAI-PMH(The Open Archive Protocol for Metadata Harvesting),通过FTPS(Explicit/Implicit FTP over TLS/SSL)数据传输协议从异构资源层提取元数据信息,经过数据清洗、转换与解析,整合异构数据源中的历史地理信息,从时间维度和空间维度细化加工,构建GIS核心元数据集。时间维度包含纪年、年号、帝王等;空间维度包含经纬度信息、历史地名、今地名、行政区划等。根据异构资源的主题类型,选择合适的时空维度,通过时间维度和空间维度的交互呈现,提供多朝代多时空的人文研究。

(3)GIS核心元数据集采用RDF(Resource Description Framework)数据模型,利用统一资源标识符(Uniform Resource Identifier,URI)命名数据实体,而SPARQL[30](SPARQL Protocol and RDF Query Language)是为RDF开发的一种查询语言和数据获取协议,是W3C的推荐标准,也是主流网络数据库查询语言和数据获取标准。WEB GIS系统使用SPARQL作为GIS核心元数据集的查询与互操作协议,调用网络地图云API,实现数据的可视化分析、开放应用、语义化集成与共享。

2.2 GIS服务模式

GIS服务模式包含Web型、移动型、桌面型和嵌入型。WEB型GIS基于Web基础架构,采用B/S模式,使用网络浏览器为用户提供一致的界面,开发、维护成本较低,且具有良好的开放性,易于扩展。桌面型GIS采用C/S模式,通过安装在本地的应用程序(即客户端应用程序)和服务器进行交互操作,客户端响应速度较快,但开发困难、维护成本高,目前多数桌面应用系统已逐渐向WEB应用模式转变。移动型GIS主要针对以手机、平板电脑为介质的移动终端应用,实际开发过程中除需考虑传统因素外,还需考虑目标受众用户粘性、网络流量限制等问题,且开发成本较高。嵌入型GIS应用中,软件对硬件依赖性较高,不仅需要高层次软件技术人员,还需掌握硬件原理和接口的硬件设计人员,实现软硬件的高度配合,开发实施难度较大,但嵌入式GIS系统稳定性较强,运算效率高,提供友好的GUI,在人工智能领域具有广泛的应用。例如,美国北卡罗来纳州立大学亨特图书馆的自动仓储机器人系统[31],利用嵌入式GIS系统实现150万册图书的智能仓储,读者将所借书目信息输入系统后,机器人通过机械升降臂准确找到书籍,并运送至读者面前,整个过程只需几分钟,大大提高了工作效率,节约了时间和人力成本。

本文中,GIS系统以整合异构历史地理信息资源为目标,因此,在服务模式的选择上,应遵循简单、易操作的原则。前期阶段,选择易于开发,成本较低的WEB GIS服务模式,能够有效降低整合的技术门槛,实现异构资源最大范围内的整合。作为互联网的主要载体,Web能够提供随时随地的数据访问环境,Web基础架构以HTTP协议为依托并提供数据应用程序接口API,是互联网环境下数据开放应用的常规选择[32]。WEB GIS系统开发成本较低、可操作性强,在建站、引流、维护方面具有一整套成熟的架构体系,能够实现异构数据源的高效率整合。WEB GIS的开放性与扩展性也有利于系统后续的功能拓展与数据共享,实现集数据与功能的统一。

2.3 网络地图云API

网络地图服务商均免费提供了地图服务应用程序接口,WEB GIS核心系统只需调用地图接口API,即可访问地图服务商通过云平台提供的服务和数据,构建功能丰富、交互性强的WEB GIS服务系统,极大地减少了开发的技术难度,节约了开发成本。网络地图服务商种类繁多,GIS开发人员应从功能和性能上综合考虑,选择合适的地图服务接口。表1选取了6大主流地图服务商,分别从支持的API类型、页面渲染时间、平均操作响应时间三个方面进行对比分析。

关于API种类。表格中统计的API服务范围涉及WEB开发(如JavaScript API);移动端开发(如 Android SDK、iOS SDK);服务应用接口(如静态地图API、街景图像API、地点检索API、地理/逆地理编码API、路径规划API、批量算路API)。API支持种类的多少决定了系统功能的丰富性及可拓展性。

关于页面渲染时间及平均响应时间。页面渲染指浏览器将用户初次请求的页面资源基于一定规则(CSS、JS等)完成页面布局及绘制的过程。渲染时长反映了服务器的运算及数据存储能力。

关于平均响应时间。平均响应时间是指从用户发出一个操作请求开始,到接收返回结果页面所耗费的时间,本文中具体指API调用的平均响应时间。表1中页面渲染时间和平均响应时间均指WEB模式下的响应时长。响应时间在1秒钟之内,属于“很不错的”;在1~2秒之间,属于“好的”;在2~3秒之间,属于“勉强接受的”;超过3秒,用户很可能不会继续等待下去[34]。

表1 主流地图服务应用对比[33]

丰富的API接口有利于系统功能拓展,而系统渲染及响应时间直接影响到用户的使用感受。从表1中可以看出,搜狗地图和Bing地图的页面渲染及响应效率较高,然而,两者均不支持街景图像API服务;百度地图支持的API服务种类最多,虽响应时间略逊,但总体上在可接受范围内,因此,推荐选择百度地图作为GIS对接地图服务商。

3 GIS可视化应用服务

GIS可视化应用表现在时间轴检索、古今地名对照、POI检索、热力图、点聚合、测距、计算面积等,主要基于GIS时空本体模型、POI数据组织与检索、GIS聚类服务三个方面。

3.1 GIS时空本体模型

图2 基于地名的时空本体模型

本体是描述对象概念及概念间关系的一种形式化定义。GIS时空本体模型以地名为中心,诠释了历史地理信息资源的时空概念及其关系,如图2所示。地名是促成异构历史地理资源整合的重要信息,尤其是古地名,包含有特定的时间属性,其对应的行政区划、聚落、治所、归属关系都有特定的存续时间范围。时间维度上主要包含公元纪年、朝代、年号等。地名是空间维度的核心,不同的古地名对应着不同的生命周期(如新建、更名、治所迁移、撤销等),采用URI(统一资源标识符)将每一个历史上曾出现过的古地名进行标识、定位,建立古今地名在空间上的继承关系,以便在互联网进行访问。每一个地名都有唯一URI与之对应,通过唯一URI定位地名在空间的位置,也可以通过空间位置检索到与之相关的属性数据。例如通过访问地名URI可获取该地名的存续时间范围、空间范围、治所信息及其经纬度数据,以及与其他地名的行政归属和空间归属关系;也可根据地名的存续时间范围、空间范围、治所名称等查询该地名在时间序列上有同一关系的其他地名及其相关时空数据[35]。历史地理信息资源包含有大量历史、地理相关信息,利用本体技术从时间维度和空间维度构建GIS时空本体模型,实现GIS系统的时间轴检索服务及古今地名对照服务。

3.2 GIS聚类服务

基于历史地理数据属性及结构特征对异构资源进行关联聚合是实现资源在空间范围内可视化展示的关键。GIS在地图上通过空间标记点形式实现异构数据整合呈现。当数据规模较大时,地图区域内有大量空间点需要可视化表达,势必会造成某些区域空间点的重叠覆盖、显示困难、不易选取和查看等。GIS聚类服务采用地图空间点聚合技术,主要解决有限可视区域内或特定缩放级别下空间点分布密集问题。空间点聚合技术通过对空间点分布规律及密集性进行提取和抽象,用少量特征点代表某一区域范围内大量相似点标识,以更有效的方式表达空间点分布状态,使地图显示更清晰和明朗[36]。

空间点聚合算法主要有四种:基于网格的点聚合算法、基于距离的点聚合算法、基于方格距离的点聚合算法和基于K-means的点聚合算法。丁立国等在《专题图空间点聚合可视化算法研究》文章中详细探讨了四种算法的原理及性能优势[37],不再赘述。为便于分析,笔者将4种算法在聚合性能和聚合形态上分为4个维度,如图3所示。由图3可见,维度越高,算法越优。聚合性能由算法的复杂程度、运行效率决定,好的聚合算法能减轻系统负荷,消耗资源少,运算速度快,实时响应时间短。聚合形态指聚合可视化效果,好的渲染效果能全面展示原始空间点分布规律和特征,根据缩放级别实时调整分布形态,建立良好的交互体验。基于网格的点聚合算法运算速度最快,但点聚合展示效果最差;基于K-means的点聚合算法聚合效果最优,但运算速度最慢。从聚合性能和聚合形态综合考量,基于方格距离的点聚合算法聚合性能较优、聚合可视化形态较佳,是比较理想的选择,谷歌地图、百度地图、高德地图采用了基于方格距离的点聚合算法。热力图是聚类服务的典型应用。根据聚合量大小采用热力图方式展现聚合区域目标分布密集程度,直观显示各区域目标权重信息,为研究提供参考。

图3 点聚合算法对比

3.3 POI数据组织与检索

Point of Interest(POI)中文翻译为兴趣点,是一种代表真实地理实体的点状数据,包含经纬度、地址等空间信息以及名称、类别等属性信息。在地理信息系统中,每个POI都有唯一ID可供查询,对应一条数据资源,因此,通过POI空间分布特征能够识别资源分布集聚区域和热点区域,从而分析资源的集聚特征。

POI数据包含反映资源地理属性的空间信息和反映资源内容的属性信息,是基于位置服务的最核心数据。POI数据组织过程是根据用户需求,对原始数据中位置数据和属性信息进行提取、归集、融合和逻辑计算,形成适用于GIS所需数据格式的过程。通过对POI属性数据进行分词运算,结合位置信息,建立字典树索引,实现关键词快速检索查询。POI检索分为三种类型:周边检索、区域检索、城市内检索和POI详情信息检索。周边检索是以某一点为中心,指定距离为半径,根据用户输入的关键词进行POI检索;区域检索是在指定矩形区域内、根据关键词进行POI检索;城市内检索是在某一城市内,根据用户输入的关键词进行POI检索;POI详情检索是根据POI的ID信息,检索该兴趣点的属性信息。网络地图服务商为POI检索接口提供了丰富的类和方法,供开发人员调用,其中以测距和计算面积的应用最为广泛。

4 结语

GIS是专门管理地理信息的软件系统,不但能分门别类、分级分层管理与地理位置相关的信息,而且能进行各种组合、分析、再组合和再分析等[38]。面对图书馆馆藏资源的激增,GIS可视化技术是展示馆藏资源知识元及其语义关联的有效手段[39]。随着数字人文研究的不断发展,基于GIS技术的空间分析法在人文学科领域的研究不断深化,然而利用GIS系统进行异构资源整合的研究还比较少见。资源整合一直是图书馆研究的热点和难点,尤其是异构资源的整合和应用。

基于历史地理信息的异构资源以资源的地理属性为基础,运用GIS技术整合异构历史地理数据,实现相同主题异构资源的统一可视化呈现,不仅为人文学者的研究提供了新的思路和方法,而且对于数字图书馆建设具有重要意义。本文在充分调研国内外基于历史地理资源的GIS系统基础上,结合历史地理资源的地理属性特征,试图探索GIS系统在异构资源整合上的应用模式。GIS技术的发展为异构资源整合提供了很好的应用平台,加之网络地图服务商为开发者免费提供了丰富的API应用接口,帮助开发者构建功能丰富、交互性强的GIS应用,同时也大大降低了GIS系统开发和维护成本。笔者所在的华东师范大学图书馆调用高德地图API建立了异构方志资源的GIS整合平台,是异构方志资源整合的一次重要实践,也为本文的研究提供了强有力支撑。

猜你喜欢
方志异构检索
ETC拓展应用场景下的多源异构交易系统
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
试论同课异构之“同”与“异”
Development of a battery-operated floatingelectrode dielectric barrier discharge plasma device and its characteristics
The investigation of OH radicals produced in a DC glow discharge by laser-induced fluorescence spectrometry
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
黑龙江民国方志所刊名家墨迹选
吴健:多元异构的数字敦煌
浅议专利检索质量的提升