数字生活情境下的数据、信息和知识
——第十九届“亚太数字图书馆国际会议”综述*

2018-09-27 06:40

图书馆论坛 2018年10期

0 引言

亚太数字图书馆国际会议(International Conference on Asia-Pacific Digital Libraries，ICADL)是以数字图书馆为研究主题的著名国际学术会议[1]，目前已成长为以亚太地区为阵地，受世界关注的国际图情学术会议[2-3]。一年一度的ICADL不仅有中国、日本、韩国、新加坡、澳大利亚、新西兰等重要的亚太地区国家的学者参与，还吸引了美国、英国、德国、法国、瑞士、加拿大等欧美国家图情学者的关注。我国学者也积极参与和举办ICADL会议，ICADL 2011曾由清华大学成功主办，北京大学和中国国家图书馆协办[4]。亚太地区是我国推行“一带一路”战略的重要区域，在经济、文化、教育、科研等方面，亚太无疑是当今全球最具活力的地区之一。在此背景下，国内研究者保持对ICADL的关注有利于掌握亚太其他国家和地区学者们的研究进展和动向，为促进图情学科交流，扩大中国图情学科的区域影响力提供参考。

第19届ICADL会议(以下简称ICADL 2017)于2017年11月13-15日，在泰国曼谷由泰国朱拉隆功大学艺术学院图书馆学系(Department of Library Science，Faculty of Arts，Chulalongkorn University)成功主办，瑞士卢加诺大学(University of Lugano，Switzerland)、新西兰怀卡托大学(University of Waikato，New Zealand)、泰国国家电子与计算机技术中心(National Electronics and Computer Technology Center，Thailand)协办，指导委员会主席由来自日本筑波大学(University of Tsukuba，Japan)的杉本重雄(Shigeo Sugimoto)教授担任。

随着数字情境下的信息技术发展，用户的学习与生活方式不断发生变迁，数字图书馆也需不断变革以满足用户多元化的信息需求。在此背景下，本届ICADL会议以“数字生活情境下的数据、信息和知识”为主题，共收录21篇长论文和5篇短论文。会议按主题划分为自动分类与推荐、数据共享与检索、词汇与话语分析、移动应用、搜寻结果呈现与可视化、社交媒体、用户行为、文化遗产与原住民知识等8个主题分会。通过分析会议论文的内容与特点，本文对ICADL 2017会议集进行述评，在总结研究方法、研究对象、研究主题基础上，结合相关主题的其他文献进行适当补充，以呈现目前数字图书馆领域的研究热点。

1 近三年ICADL作者国家分布

为反映ICADL的发展趋势，本文对近3年ICADL会议集收录的论文作者国家分布进行描述性统计，如表1所示。ICADL近3年共收到来自全球5大洲超过30个国家和地区的科研人员提交论文，有21个国家的科研人员参会交流[5-7]。论文作者前三的国家分别是日本、新加坡、美国与泰国(并列)，我国作者人数位列第五。可以看出，ICADL的辐射面逐年扩大，来自欧洲与大洋洲的研究人员占比逐年增加。

表1 近3年ICADL作者国家分布(总计)

2 会议主题

2.1 自动分类与推荐(Automatic Classification and Recommendation)

数字图书馆的核心业务是针对种类众多的数字资源进行组织和管理，随着大数据环境下数字资源增长，当前的分类与推荐方法已不能适应多种类型数字资源。专利分类亦是如此，传统以手工为主的分类策略已不能满足现实需求。图情领域的自动分类与推荐主要涉及图书馆书目推荐、数字文本自动分类中的特征语义关联与加权方案、用户推荐系统等。ICADL 2017很好地反映了这些趋势，重点聚焦于数字图书馆用户应答、专利自动分类等方面的算法优化与设计。

为优化数字图书馆的信息检索算法，精准定位用户信息需求。Pinto等[8]介绍了数字图书馆如何解决“基于陈述的搜索式”这一新问题。基于陈述搜索式需要识别科学文献中的一个关键部分：知识陈述(Knowledge Claim，KC)。当前知识陈述隐藏在文献中的非结构化与自由文本表达中。Pinto等认为，知识陈述是指包含了一篇论文主要研究贡献的语句，并且知识陈述还能够表示一个特定领域内受关注实体之间的关联，能够用于解决数字图书馆中基于陈述的搜索。该研究以一种非指导性的新方法整合了嵌入在知识陈述中的中性词和基于图书的算法，从而分析如何识别知识陈述以用于接下来的信息抽取。Pinto等以医学领域为研究对象，选取PubMed数据库中的真实词汇作为实验数据，证实了方法的有效性。该研究实现了基于陈述搜索式对文档排名的功能，为相关研究者在优化数字图书馆搜索系统性能方面提供了较为新颖的思路方法。

专利作为体现技术与创新的关键智力资源，如何实现专利信息的有效获取是研究人员乃至产业界亟需解决的难题。当前最广泛使用的专利分类体系是国际专利分类(International Patent Classification，IPC)体系。Nugroho等[9]指出IPC体系还存在专利被授予多个分类号、专利类别相似度高等问题，当前专利审查员主要基于手工分类，较少利用机器进行专利自动分类。Nugroho等提出利用专利引文图谱结构，能够优化专利的自动分类，实现专利信息的有效获取。研究分析了仅使用单一文本特征的影响作用，该文本特征是基于识别任务引用图谱的专利类。研究结合了kernel-based方法来构建可以呈现引文相关信息特征的kernel函数，使用k-step随机函数来计算每个专利对支持向量机的分类任务，利用子图技术来表现专利知识图谱在引文方面的信息。该研究是基于图论中相邻算法的思想，而对算法的评价是基于美国专利与贸易局的相关实证数据，结果显示该研究算法优于之前相关研究提出的方法，专注于使用专利引用图结构，提出将大型专利图表示为代表引用图的信息技术，为解决专利信息获取提供了新思路。

过去数字图书馆中贮藏的科学文献主要依靠助记码和元数据来进行检索。Safder等[10]指出当前搜索引擎还局限于文本的简单描述，无法提供特定算法信息用于呈现运行时间复杂度、性能评估(如准确性、召回率等)、处理数据库容量的大小等内容。Safder等介绍了挖掘这些特定信息的算法并用于实际检验，利用递归卷积神经网络模型，研究将文献中包含的相应效能信息通过算法进行抽取和挖掘。通过对数据库中人工收集的258篇文献进行测试，结果显示76.35%的准确性，研究证实了该优化算法的可用性。未来研究可探索提取其他特定算法元数据的可能性，如运行时复杂性，输入、输出和兼容的数据结构。

除关键词或书目检索外，可供选择的文献检索途径是数字图书馆的成功因素之一。特别是在科学领域，化学物质、基因或数学公式等实体可能起着核心作用。Wawrzinek等[11]指出对于界限清晰的实体来说，在情境相似性和排名上的要求会有所不同。研究展示了在科学语料库中使用的深度学习技术如何对实体进行具体的情境化描述。Wawrzinek等以分子生物学领域的实体为例，阐释实体的学习情境和主页如何反映它们的实际作用和可能的新应用，如药物设计和再生产。评估结果表明，该方法相对于昂贵的人工判定分类更具优势，但由于实验仅依靠文本内容的深入嵌入，方法有效性有待其他领域应用的检验。上述研究创新了数字图书馆中特定学科领域的文献分类与检索模式。

2.2 数据共享与检索(Data Sharing and Retrieval)

科学数据是指通过科研活动等方式得到的反映客观世界的原始数据，或依据不同科研活动需要，进行整理加工的各类数据集。虽然科学数据能够为科学研究带来巨大的投资回报，但前提是科学数据能在研究人员间实现良好的共享，并提供便捷的数据检索以供研究。ICADL 2017主要关注不同类型的数据检索，以及研究人员的态度对数据共享的影响。

目前大部分研究出版物(文本)与研究数据(数据集)使用相同的搜索引擎。Bugaje等[12]指出研究数据集中的用户交互特征形式与研究出版物具有显著差异，当前搜索引擎不适合作为数据检索和使用的长期解决方案。Bugaje等通过系统实验论证了研究出版物(主要是文本)检索和研究数据(即数据集)之间的根本差异，包括服务器载荷、文件类型、大小和格式等方面的差异，证明了建立更高效数据检索系统的必要性。该研究有助于以用户为中心的、面向学科的数据检索服务的实现，同时有助于数字图书馆领域绿色信息服务的实现。

世界各地的政府和资金机构已经主张研究数据的开放存取(Open Access，OA)。Chowdhury等[13]强调OA可带来显著的社会与经济效益，但是研究人员对于是否想要以及准备分享其研究数据仍存在困惑。为此，Chowdhury等对英国、法国和土耳其3个国家的大学研究人员进行调查，发现研究人员对OA存在担忧，主要是缺乏对数据公开使用和访问要求的理解。研究指出应对OA政策加强宣传力度，促使OA的愿景成为现实。该研究表明研究人员在研究数据创建和共享方面的看法与行为之间存在着较大的现实差距，并强调了学术与资助机构对OA所做的贡献。基于这项调查，后续研究可以对相关数据开放政策进行针对性的探讨，从而为构建OA的良好环境奠定基础。

2.3 词汇与语篇分析(Lexical and Discourse Analysis)

目前图书情报领域在自然语言处理方面的研究集中在算法及技术上的抽取和机器学习。词汇分析方面的研究大多从语言学角度出发，统计分析的指标主要是词汇频率、词汇密度、词汇长度及词汇增长率，而自动问答与自动摘要等自动语篇生成系统也是自然语言处理与人工智能的主要研究主题。当前文本挖掘的相关研究粒度正在逐渐细化，语义关系、情感分析等主题是当前研究热点。ICADL 2017主要聚焦于自动预测、应答和提取等相关技术的实现，以及用户行为模式的识别。

每一个作者都有其独特的写作风格，包括选词、句长、词频和虚词等。Hassan等[14]指出，通过深度学习，根据文本语义与语法特征能够实现作者归属的自动预测。Hassan等以PLoS数据库作为研究平台，获取了158，918篇文献，从中选取203位作者撰写的803篇文献作为研究对象，使用基于长短期记忆(Long Short-Term Memory，LSTM)的深度学习模型来预测作者归属。结果显示，88.17%的作者归类正确，熵误差最大为0.2。未来研究可结合著作者、作者所属、主题领域、期刊标题、城市、参考文献和关键词等指标改进该深度学习模型。

在线问答社区用户规模的迅速扩大使面向问答的自动应答技术日益得到关注。Tagami等[15]指出在线问答(Question Answering，QA)可分为事实型与非事实型，但是当前自动应答技术仍无法处理考试等事实型的QA问题。为了满足用户需求，Tagami等提出了一个基于入学考试填词问题的QA方法并将其运用到世界历史考题中。在分析问题时，根据填空的周围词汇来估计答案类别，用于提取候选答案。此外，通过引入与周围词汇类别和情境一致的指标来评估候选答案。该研究通过与基线方法进行比较，提升了自动应答技术中答案预测的精度。

知识单元间的关系是进行知识重组、知识关联和知识挖掘的基础。关系抽取在信息检索、问答系统和知识组织中有着广泛的应用。Wu等[16]认为知识可以表示为两个实体之间的关系，两个实体之间的影响关系表现了一个实体对另一个实体的影响，但是这些影响关系是否跨领域相似还有待检验。Wu等考察了实体间的影响关系在不同领域中是否相似，研究如何使用现有技术从结构化文档中提取影响关系。基于此研究问题，研究者收集处理了医学、国际关系和环境科学三个领域中的实体影响关系。结果显示，影响关系在3个领域的语义关系中占较大比例，3个领域共享一套共同的影响关系，每两个领域之间都具有相当数量的共同影响关系。该研究有助于在提取非结构化文档影响关系的过程中使用现有技术。

随着文本挖掘研究的粒度逐渐细化，用户生成内容的语篇特点也引起图情界的关注。Yada等[17]强调社交媒体上的现有研究主要集中在账户社交网络(即关注者和追随者关系等)和推文(即回复和喜好)以及主题转换(即主题趋势检测等)，并且情绪是所有类型研究的关注重点，而当前鲜有研究分析不同帐户或帐户类型Twitter的话语特征。Yada等测量了Twitter序列的语篇规模，并观察其特点。研究选取240个日本的Twitter帐户，收集每个帐户的3000条推文。通过话语量表计算应用于每个Twitter账户的前50个话语关键词。结果显示，无论用户的兴趣如何，每隔大约15条推文用户都会提及他们的兴趣。通过检查社交媒体中的关键词类型和主题频次，能够对用户特征进行细分。

2.4 搜寻结果呈现与可视化(Search Results Presentation and Visualization)

图书情报领域在信息搜寻结果呈现方面的研究集中在算法与技术的优化和个性化结果的呈现。对图书馆数字资源的信息单元与信息组织方式进行可视化建设，能够运用信息与数据的可视化语言表达揭示抽象的数据，优化信息搜寻结果的呈现，为各类资源或数据库提供更直接的使用入口，增强平台的可操作性与用户粘性。ICADL 2017此次关注学术搜寻结果的呈现和搜索系统的改进。

解决信息需求和服务的个性化问题，提供个性化信息服务，是目前数字图书馆研究的重点与方向。Hagiwara等[18]强调了标题和摘要在选择相关文献时的重要性，并且也是决策制定的核心参考依据。Hagiwara等利用观察法分析研究人员如何从学术数据库的搜寻结果中选择文献，主要探究研究人员会对搜寻结果中的哪些元素进行检查，并以何种方式进行排序。研究结果可用于改进数字图书馆的个性化信息服务。此外，Bainbridge等[19]指出数字图书馆中的元数据错误在学术文献集合中已普遍存在，导致用户在数字图书馆中检索自己已刊登的文献时遇到问题。为了解决这一问题，Bainbridge等提出了MEDDLE概念验证系统，用以解决数字图书馆的此类搜索问题。同时，还提出可以向数字图书馆服务商提供已确定的问题及解决方法，以便进一步改进系统，典型的案例便是MEDDLE识别与处理重音、连字等，这都有助于数字图书馆的优化。

在搜索系统的改进方面，国际图联书目记录功能要求(Functional Requirements for Bibliographical Records，FRBR)中定义的书目实体模型表明了从数字卡片目录到以实体为中心的目录。Aalberg等[20]指出虽然以实体为中心的目录含有丰富实体结构和明确定义语义关系，但是如何更好地搜索和呈现这种以实体为中心的书目数据仍存在挑战。Aalberg等提出了一个以实体为中心的搜索系统，以及一种全新的以实体为中心的文献搜索结果呈现的评价方法。由于包含实体数量的不同，基于词频的默认排名在对片段进行索引时存在困难，未来研究可以探究结果排名。

探究查询中两个实体之间的可能关联是检索系统优化的难题。Pinto等[21]强调数字图书馆满足信息需求的核心功能是提供文献利用等方面的搜索功能，由于用户决策的潜在影响，向查询的用户提供高质量的结果至关重要。Pinto等对检索结果进行多样化处理，并重新排列结果列表，通过论文声明的使用以实现结果集的多样性。该研究主要探究医学领域实体间关联的声明，专注于涉及两个实体的查询问题。研究通过查询PubMed获得的语料库来实证评估该研究提出的解决方案。结果表明，研究提出的论文声明概念可用于优化检索结果，未来研究可结合用户反馈来优化本研究方法。

2.5 移动应用(Mobile Applications)

针对移动应用的研究主要集中在两方面，一方面是对应用功能特点的改进，另一方面是以此为平台研究用户行为的特点。把握用户的需求偏好及其行为趋势，能有效支持个性化推荐，优化移动应用的产品和服务，从而显著地提高社交媒体中用户的个人体验和用户粘度。ICADL 2017主要关注用户信息需求预测、用户移动应用的使用与分享行为。

随着移动APP的快速发展，移动设备已从单纯的通信工具转变为满足个性化需求的途径。Bahrainian等[22]强调APP组织可作为个人信息管理方式，即在正确的时间访问正确的APP，或重新安排应用APP，以便更容易访问APP。上述模式的实现可依据实时信息检索(Just-In-Time Information Retrieval，JITIR)，例如预测用户将要使用的下一个APP，并在用户尝试访问之前将其显示在主屏幕中。为此，Bahrainian等提出新型预测方法，根据用户智能手机中记录的活动记录和情境，预测用户在不同时间和特定情境下的活动。根据预测结果个性化地组织手机上的内容。该研究设计的时间模型能在连续的时间片段上捕捉用户的本地行为模式。同时，基于APP应用数据集的实验结果证明了该预测方法的有效性，其效率超过了最新的奇异值分解(Singular Value Decomposition，SVD)和作者主题模型(Author Topic Model，ATM)。未来研究可分析与评估用户和智能手机APP间的交互内容，以便设计能够及时检索用户信息需求的模型。

智能手机以移动应用的形式提供功能和传递内容，更多用户开始倾向于使用移动应用进行线上学习。Hinze等[23]指出移动学习被认为是未来人们学习的主要方式，在高等教育中，移动应用在收集处理信息、访问内容、促进交流协作等方面具有极大的灵活性。为了解学者对移动应用的使用情况，Hinze等进行了在线调研。在受访者中，有三分之二使用移动APP进行学术研究。在教学工作中，移动APP被用作向学生推送信息的手段。在学术研究中，移动APP被用作自我组织、与同事合作、存储信息或与研究保持同步的工具。此项研究能够为教育背景下的个人信息管理和高校图书馆服务提供积极借鉴。当前，在学术实践中如何利用移动APP以满足学术用途与潜在的用户需求是新的研究热点，移动APP的使用是数字素养的重要组成部分，在改变教学和研究实践方面拥有潜力。

如今众包和游戏融合的趋势，引发了一系列众包游戏的兴起。图书馆项目利用这类游戏获取地理参考元数据并开展相关研究。Pe-Than等[24]强调相较于传统方法，众包能以更加高效与廉价的方式生成内容，如图像标记、语料库注释、语言翻译、地理参考数据和元数据创建，但是用户动机是驱动众包的核心影响因素。为了更深切了解众包游戏机制中的用户参与动机，Pe-Than等分析了游戏中的协作和竞争如何影响玩家分享移动内容的动机。该研究分别使用非游戏应用程序和两个虚拟宠物主题游戏进行实验。结果表明，众包游戏可以给用户带来更高水平的享受、沉浸和社交体验。此外，不同的协作竞争类游戏在用户成就、休闲、任务效率和技能发展方面带来的体验也有所不同。未来研究可探究更多的游戏机制对用户动机的影响差异，同时考虑到游戏之间的机制差异，可检查机制差异能否吸引不同兴趣偏好的用户。

2.6 社交媒体(Social Media)

针对社交媒体的研究主要包括社交媒体中用户关系研究、用户生成内容研究、用户行为研究、用户满意与接受度研究等。此外，社交媒体阅读推广、社交媒体舆情、社交媒体谣言等主题也成为图情领域新的研究点。ICADL 2017主要关注特定情境下的社交媒体信息行为、社交媒体谣言，以及社交媒体信息的自动检测，分别涉及社交媒体的“用户—内容—平台”三个层面。

当前社交媒体研究开始细化，更多研究者开始关注特定情境下的社交媒体信息行为研究。Dodd等[25]强调了探究社交媒体上的行为方式(即沟通、访问和分享信息等行为)的重要性，但是社交媒体上的信息交流也会导致数字鸿沟，并非所有用户都能及时平等地获取信息。Dodd等研究了大学入学背景下的青少年社交媒体信息行为。作者以Twitter为研究对象，采用词频分析来处理一个大样本(n=494，180)的Twitter数据，以确定社交媒体信息交流中的主要参与者。通过分析入学过程的不同阶段中青少年的主要交流对象，指出在大学入学等特定情境下，青少年在社交媒体上的交流量与其生活方式显著相关。同时，研究指出虽然青少年在社交媒体上与教育机构进行交流的意愿较低，但是其主要交流对象依然是学校。该研究通过词频统计探究了大学入学情境下年轻人的信息行为，这为特定情境下信息行为的研究提供了新思路。

社交媒体是传播信息最快的平台之一，但同时也被用作传播谣言。辟谣信息是指用作驳斥谣言的消息，是减少谣言传播的重要手段。Goh等[26]指出网络谣言会对发布准确信息的社交媒体平台产生负面影响，损害个人和组织的声誉并降低社会凝聚力，对于谣言与辟谣信息的研究迫在眉睫。Goh等对社交媒体中的谣言与辟谣信息进行了分析，主要探究Twitter中产生的谣言与辟谣信息的类型。研究以某国领导人的错误报导为对象，对关于某国领导人死亡的4321条Twitter消息进行了内容分析；结果显示共有六类谣言信息、四类辟谣信息以及两类其他类型消息。研究结论指出辟谣信息较谣言数量更多，在线用户确实试图通过辟谣信息来阻止谣言的传播。同时，该研究也存在一些局限性，如仅检查了Twitter上的谣言传播，不同社交媒体(Facebook、微博等)上的谣言传播可能具有差异性。同时，谣言的类型也会影响谣言的传播机理，未来研究可对比自然灾害、生理健康、政治事件等方面谣言传播的特征。

社交网络使用户可以进行实时信息交互，在泰国，包括青少年在内的社交网络用户达数百万。Tuarob等[27]指出社交媒体的口语属性鼓励了某些不符合标准的语言表达，其中一些被认为是辱骂和冒犯性语言，对社交媒体语言的自动检测能够规范网络用户，营造文明的社交媒体交流环境。相较于英语等语言，泰语等小语种还缺乏有效的滥用语言自动化筛选工具。Tuarob等研究了社交媒体中泰语滥用的自动检测，社交媒体中的泰语使用者越来越习惯性地使用不礼貌的语言风格。作者指出如果辱骂性的语言在没有得到适当指导的情况下暴露给青少年，青少年可能会习惯于不文明语言风格的使用。为解决上述问题，作者提出了一套基于机器学习的算法，在社交网络中自动检测滥用泰语。经检测，该算法的最高收益率为86%(精确率为88.73%，召回率为83.53%)。未来研究可通过不同社交媒体上的数据集来测试算法准确率，并可尝试使用不同语言的语法结构来提高分类效果。

2.7 用户行为(User Behavior)

数字化技术的革新推动用户行为模式产生显著变化，在新技术环境下探究用户行为成为如今重要的研究趋势。用户行为主要涵盖用户行为理论、用户行为模式、用户行为影响因素等，研究热点包含用户协同行为、搜寻行为、健康信息行为等主题。ICADL 2017主要关注信息检索行为、音乐信息行为、健康信息交流模式以及视频信息搜寻，囊括了国外用户行为领域的研究前沿。对于音乐、健康与视频等方面的用户行为研究，国内尚处起步阶段。

用户信息行为研究是图书情报学的核心领域之一，其中用户信息搜寻行为的研究尤其受到重视。近年来学者们开始关注情绪在搜索过程中的重要作用。Choemprayong等[28]认为由于搜索策略涉及时间短，并且搜索期间用户的情绪状态不断变化，因此，探究搜索阶段的情绪状态转变比关注某种情绪状态更为合适。Choemprayong等探究搜索策略对Google使用时情绪转变的影响。研究以本科生为研究对象，来自曼谷两所大型公立大学的38名泰国本科生被要求使用Google执行3项搜索任务。基于史密斯的互联网搜索策略模型，采用半结构式访谈和直接观察法分析参与者的搜索策略。结果表明：评价策略与情绪转换呈正相关，而文件结构策略、搜索成功率、任务难度与搜索过程中的情绪转换呈负相关。基于该研究，未来研究可扩展到情绪元素在信息搜索中的理解，例如，本研究在很大程度上依赖于观察情绪状态的自我报告，不同的观察技术(面部表情、语音语调或心电图)可以帮助验证结果。

音乐流媒体服务的出现、分布式采集方案的应用以及其他常见音乐资源的易逝性促使了个人音乐收藏行为的产生。围绕音乐信息的需求表达、搜寻、管理和分享等信息行为已成为用户日常信息行为的重要内容之一，Cunningham等[29]指出存储的音乐信息涉及音乐作者信息、音乐类别等描述性元数据。Cunningham等研究了用户音乐收藏行为，重点关注音乐媒体和格式、收集组织方案以及音乐获取和使用的方法。研究通过对28份自动民族志数据的分析，指出用户更多地使用音乐流媒体和云存储服务，制定个性化的音乐列表，同时进行元数据级别的备份工作以保障音乐的可用性。用户音乐信息行为是国外用户研究的关注热点，主要探究用户音乐信息需求与表达和音乐信息搜寻行为。当前国内图情领域较少涉及，未来研究可关注基于信息行为相关理论的、基于多影响因素的、基于移动互联网的和基于用户个人因素的用户音乐信息行为。

虽然当前东南亚地区在线健康信息搜寻的研究较多，但是缺乏在线医患健康信息交流研究。Inthiran[30]指出在线医患交流是获取健康信息的最简单快速的方法，通过探究在线健康信息交流模式能够提升用户粘性与满意度，优化健康信息咨询流程。Inthiran以东南亚用户为研究对象，招募50名参与者进行在线健康信息搜寻，参与者被要求描述在线搜寻信息中的医患沟通过程。研究指出参与者向医生询问的有关在线健康信息大都属于初步或防护类健康信息，而沟通风格、文化和社会规范、沟通环境和健康素养水平阻碍了医患沟通。同时，作者指出医生应承担协作角色而不是咨询角色，开展面向患者和医生的健康培训和教育计划，以鼓励持续的医患健康信息沟通和讨论。研究为东南亚地区健康信息科学的发展提供了理论依据。该研究还表明在线健康门户可以向用户提供应向医生咨询问题的建议，同时未来研究可对健康信息交流模式及影响因素进行探究，以优化健康信息交流成效。

视频已被用于多种情境中以支持学习，YouTube、Vimeo等公共在线视频存储库可为自主学习(Self-Directed Learning，SDL)提供良好资源。Loke等[31]指出视频搜寻过程可分为视频资源的选择、查询制定/重新制定、选择预览视频、预览视频，以及搜索任务的决定。而在SDL期间的视频搜寻属于探索性搜索任务，具有模糊性，传统信息搜寻模型与研究结论并不能应用于此类搜寻。Loke等探究了青少年SDL视频搜寻行为，研究招募了14名大专学生，设置了两个视频搜寻任务，在视频搜寻过程中，研究参与者展示了至少两个级别的评估以完成视频搜索任务。首先进行初步筛选，其次进行启发式的评估。这两个级别的评估表明，视频搜寻者通过搜寻视频线索和元数据，能以最小努力获取相关视频的内容。而视频检索界面的优化有助于视频信息搜寻过程中认知负担的减轻，弹性略读(Elastic Skimming Technique，EST)等技术也可帮助预览视频工作量的减少。

2.8 文化遗产与原住民知识(Cultural Heritage and Indigenous Knowledge)

信息技术的不断发展，促进了传统人文研究生态体系的变化，开始出现诸多以信息技术为支撑，面向文化遗产与本土知识的人文研究课题，如历史事件可视化演示、家谱知识库建设、古籍数字化等。信息技术在为人文学科研究范式转变提供新思路的同时，也丰富了人文领域的方法论体系。而图书馆、档案馆和博物馆等机构拥有的诸多非结构化文化数据资源，本身也对数字人文研究具有重要价值，数字人文已成为当前图情研究的热点。ICADL 2017主要聚焦于数字资源语义建模、文化遗产数字化影响因素，以及非物质文化遗产组织。

直接表示知识库可以增强甚至提供以文件为中心的数字图书馆替代品。Allen等[32]强调了为数字人文资源建立索引的难度，并提出了发展具有丰富知识的“社区模式”(Community Models，CM)来改善检索，CM可用于描述与日常活动和设施相关的事物，能够涵盖陶器、服装、舞蹈和宗教传统等有形和无形的文化遗产。Allen等探究了在知识库中对现实生活中的日常活动和基础设施进行语义建模，整合各类话题、本体集合和一系列其他知识资源。Allen等首先考虑模拟支持人类活动的常规程序技术。其次，考察技术与社会组织的相互作用。然后，分析了发展与验证各实体间关系解释的方法和问题。研究分析了日常活动和基础设施中本体和模型的应用问题。这些本体论和模型建立在基本形式本体论(Basic Formal Ontology，BFO)严格的语义上，未来研究可探究如何将BFO的约束扩展到日常基础设施，然后扩展到社会和文化描述中。

当前各类记忆机构(如画廊、图书馆、档案馆和博物馆)正利用数字技术，包括社会网络技术来数字化、分享和保存遗产资源，通过建立国家知识库来规避未来记忆的空白。记忆机构正力求与文化遗产拥有者与利益相关者合作对资源进行数字化。Boamah等[33]指出发达国家和发展中国家对于记忆机构中文化遗产的数字化皆面临挑战。在发达国家，记忆机构主要探究如何实现对庞大数字资源的有效导航；在发展中国家，对数字化的消极态度阻碍了数字化管理的进程，其中文化遗产所有者担忧永久丧失其遗产资源，关键利益相关者缺乏相关积极性，信息工作者是发展中国家推进文化遗产数字化进程的主要力量。Boamah等分析态度对文化遗产数字保存的重大影响。结果指出在数字化和维护文化遗产的过程中，如果涉及源社区和各利益相关者，态度维度应该是一个关键考虑因素，在文化遗产研究与数字化进程中应当明确，未来研究可将态度作为数字人文资源存储的重要维度，并纳入问卷的量表设计中。

记忆机构拥有大量文化遗产信息(Cultural Heritage Information，CHI)，如何实现文化资源的有效连接、发现、获取和使用是一个重要问题。Wijesundara等[34]提出了数字环境下的文化遗产组织资源(Cultural Heritage in Digital Environment，CHDE)，使得数字环境下的组织与非物质文化遗产得到有效组织。基于元数据的一对一原则，该模型将收集到的相关数字资源简化为网络环境下的单一数字档案。Wijesundara等采用实例来组织非物质文化遗产，通过将提出的模型映射到成熟的文化遗产模型，以确定组成实体并澄清其优缺点。研究利用南亚和东南亚的文化遗产信息评估了模型的适用性。而通过区分物质与非物质文化遗产，可以开发面向不同文化遗产类型的CHDE广义模型，有助于实现物质与非物质文化遗产的分类存储。

3 总结

第十九届亚太数字图书馆国际会议(ICADL 2017)作为图书情报学科的重要学术会议，其录用的论文反映出数字图书馆领域理论与应用研究的最新成果，研究主题涵盖了数字图书馆领域学术研究和技术发展的前沿。文章从研究对象、研究方法、研究主题三个视角对此次会议进行了总结：

(1)在研究对象方面，此次会议关注的研究对象涵盖科研人员(教授、博后、科研助理等)、文化遗产利益相关者、高校学生、图书馆员、青少年等。并对其在特定情境(如健康信息搜寻、音乐信息搜寻、视频信息搜寻、社交媒体谣言、众包和游戏融合等)下的数据库使用、数据检索与共享等模式进行细粒度分析。

(2)在研究方法上，此次会议论文超过90%皆为实证研究，研究者通过数据挖掘(算法构建)、问卷调查、情境实验、直接观察、访谈等方法获取研究数据。同时，研究者对日志数据、调研数据、数据库数据、平台API数据进行定性分析，涉及日志分析、主成分分析(Principal Component Analysis，PCA)等多种内容分析方法。本次会议论文还注重多种研究方法的交叉使用，实验与访谈、访谈与日志分析、问卷调查与访谈等。

(3)在研究主题上，本次会议以“数据、信息和知识”为关键词，系统从“用户—内容—服务”三个维度展现当前最新研究进展，面向用户主要探讨个性化服务和用户建模、安全和隐私等主题；内容构建主要涉及信息可视化、多语言支持、元数据编目、系统互操作性、检索和浏览界面的数字内容建设、开源工具和系统等主题；服务建设主要分析新环境下的数字图书馆内容和使用、文化遗产呈现，以及移动服务端优化等议题。

数字生活情境下的数据、信息和知识——第十九届“亚太数字图书馆国际会议”综述*