数字图书馆个性化移动视觉搜索机制研究

2019-03-20 06:52山东科技大学图书馆

图书馆理论与实践 2019年2期

李默（山东科技大学图书馆）

随着移动智能设备的迅速普及以及大数据、人工智能、无线网络传输等技术的不断进步，越来越多的用户利用移动设备进行网络信息检索，而且由传统的文字输入检索方式逐渐向文字、图像、视频等多种输入方式相结合的综合性检索转变。此外，在移动网络环境影响下，数字图书馆作为知识存储、组织和传播中心，其提供的信息资源也不再局限于文本格式的数据，而是包含了大量的图像、视频等视觉数据资源。基于文本的检索方式已经无法适应不断增加的视觉数据资源检索，如何提高视觉数据资源的检索效率已成为数字图书馆信息资源建设的重要内容。

移动视觉搜索（Mobile Visual Search，MVS）的出现为数字图书馆视觉数据资源检索提供了新的技术解决方案，它是一种利用移动智能设备采集图像、视频等视觉数据，通过移动网络进行视觉资源数据库检索以获取关联信息的信息检索方式。［1］目前，MVS已广泛应用于医疗、商业、数字人文等多个领域，与文本检索、语音检索相比，MVS缩小了用户查询意图与语义表达之间的鸿沟，提高了检索结果的准确度。［2］但是，MVS也存在着检索结果同质化、智能化服务水平低以及个性化功能不足等问题，因此，如何提高MVS的检索效果和智能化水平、并提供个性化检索功能的MVS服务机制研究具有重要意义。Agent是能够根据外部环境变化自主实现其设计目标的计算实体，且具有自治性、感知性、反应性和协作性等特征，而多Agent系统中Agent之间可以相互协调和通信，完成某一共同任务，［3］因而，多Agent系统成为构建个性化移动视觉搜索引擎的首选技术。

1 相关研究概述

1.1 数字图书馆移动视觉搜索研究现状

MVS概念自Chen等人在2009年斯坦福大学举行的首届MVS研讨会上提出以来，［4］受到了产业界和学术界的广泛关注，许多国内外著名大学和研究机构对MVS展开研究，取得了一定的进展。其中，Google公司推出了面向MVS的Google Goggles系统；亚马逊利用Snap Tell系统向智能手机用户提供MVS服务；在国内，淘宝开发了基于MVS的手机购物App“拍立淘”；京东也为用户提供了具有MVS功能的“拍照购”，用户可以将物品拍照或截图进行检索，满足了用户随时随地搜索物品购买的需求。另外，Rui Zhang等［5］提出了一个MVS多模态标签定位方法，该方法可以显著提高用户的MVS体验；钟志鹏等［6］开发了一个基于MVS的博物馆导览系统，该系统可以在服务器端和手机端对展品进行实时识别；胡海洋等［7］研究了基于极限学习机的MVS方法，并通过实验证明了极限学习机在MVS方面的可行性和高效性。

MVS研究的推进也引起了图书情报科学领域学者的广泛关注。张兴旺等［8］将MVS引入到数字图书馆建设中，分析了数字图书馆移动视觉搜索机制的内涵、分类与架构设计，其后又提出了一种领域导向的、自适应的、可演化的数字图书馆MVS引擎；［9］朱庆华等人对数字图书馆MVS进行了一系列的研究，如基于关联数据的数字图书馆MVS框架与应用［10-11］、大数据环境下MVS的游戏化机制设计［12］、数字图书馆MVS的众包模式［13］、基于情境感知的图书馆MVS服务设计［14］、基于语义关联的图书馆MVS资源与服务聚合研究［15］等；曾子明等人也在MVS研究方面开展了系列工作，取得了许多研究成果，主要有大数据环境下面向科研用户的MVS模型研究［16］、基于SoLo-Mo的智慧图书馆MVS服务研究［17］、智慧图书馆MVS服务及其技术框架研究［18］、去中心化的智慧图书馆MVS管理体系研究［19］等；另外，余婷婷［20］分析了MVS在数字人文领域的应用方向和前景；韩玺等［21］则提出了基于MVS的图书馆、档案馆、博物馆资源融合服务模式；孙翌等［22］将MVS应用于李政道图书馆特藏陈展服务中，并详细阐述了MVS在图书馆特色资源的陈展服务中的各项应用功能。

1.2 基于Agent的个性化搜索引擎相关研究

信息技术的快速发展和网络数据的爆炸式增长，使得搜索引擎由最初的目录式搜索引擎、全文搜索引擎逐渐向个性化、智能化搜索引擎转变。而Agent技术自提出以来，由于其在智能软件建模方面的优势，较早地就被应用于分布式数据源的信息搜索与处理中。Haverkamp等［23］在分析了已有的基于多Agent的分布式数据源信息检索系统基础之上，认为Agent的智能性在应用于互联网分布式信息检索系统时将更为重要。Keyhanipour等［24］提出了基于多Agent的元搜索引擎WebFusion，该系统可以通过分析用户的点击行为数据来预测用户偏好，从而返回更加准确的检索结果。国内也有很多学者对基于Agent的个性化搜索引擎开展了研究，其中，钱瑛［25］构建了一个基于智能A-gent的网络搜索和推荐信息服务系统；李青山等［26］研究了基于Agent的智能元搜索引擎个性化方法及功能实现技术，设计了基于动态更新的用户检索兴趣挖掘机制和搜索引擎评估调度策略机制。

数字图书馆服务平台的建设需要个性化搜索引擎，而与互联网领域面向大众的搜索引擎不同，其处理的数据主要是专业领域的信息资源，并且除了提供传统的相关度排序、高级检索、快速检索等功能外，还要能提供信息过滤与推送、用户兴趣识别、多种类型信息资源检索、内容语义理解等功能。国内许多学者对基于Agent的个性化搜索引擎在数字图书馆的具体应用进行了探索，如，庞英智［27］研究了基于多Agent技术的个性化搜索引擎，并重点分析了其在数字图书馆服务工作中的应用；马崴［28］论述了多Agent智能搜索引擎应用在图书馆信息服务工作中的优势和意义；宋喆等［29］设计了一个基于多A-gent系统的数字图书馆个性化信息检索结构模型。综上，随着搜索引擎向智能化、移动化、个性化和交互便捷化的方向发展，数字图书馆个性化搜索引擎也从传统的文字识别向视频识别、音频识别、图像识别等多模态自然语言处理转变，并从PC端向移动终端泛化，实现感知用户个性化需求的检索导向技术。

相关研究深化了信息检索理论，但尚未有数字图书馆个性化MVS的文献研究。因此，本文在现有国内外研究成果的基础之上，基于多Agent系统的协作性、适应性和自主性，构建支持个性化检索的数字图书馆MVS体系结构，为用户提供智能化的MVS服务。

2 数字图书馆个性化移动视觉搜索体系结构

为了实现数字图书馆MVS的个性化功能，本文设计了基于多Agent的数字图书馆个性化MVS体系结构模型，该模型包含了基础数据层、检索业务层、多Agent服务层和用户应用层四个部分（见图1）。在数字图书馆个性化MVC体系结构中，基础数据层是基础，检索业务层是核心，多Agent服务层是枢纽，用户应用层是展示，四个部分在具体应用过程中会进行实时信息交互，形成一个有机的整体。

2.1 基础数据层

基础数据层主要用于获取、整理和存储各类数字图书馆移动视觉资源（包括文本、图像、音频、视频、3D模型等），并对资源数据进行日常管理和维护，是整个体系结构的前提和基础。其中，云存储模块的功能是把数字图书馆各类信息资源进行集成和融合并存储于云端，实现信息资源的统一化管理和分布式共享；资源采集模块用于获取各类资源数据，包括学术文本数据、图像信息数据、音视频数据、用户情境数据等。通过对获取的各类数字资源进行语义标注，在不同类型数据资源之间建立语义关联，形成文本资源库、视觉对象库、情境模型库和语义标签库等多种数据库；而用户知识库则用来存储用户在数字图书馆MVS过程中产生的各种行为信息数据，它是构建个性化MVS用户行为模型的数据来源。

图1 基于多Agent的数字图书馆智能MVS体系结构

2.2 检索业务层

检索业务层构建在基础数据层之上，是数字图书馆个性化MVS的关键和核心，主要功能是将加工处理后的信息资源进行语义关联，并融合用户情境信息以响应用户检索需求。① 数据处理模块主要负责从资源数据层访问、获取和分析海量基础数据，这些海量数据包括各类信息资源数据、用户行为数据和情境信息数据等；② 情境建模模块首先对获取的情境信息建立形式化模型，然后通过模型推理挖掘隐藏的信息和用户需求，最后得到情境分析结果；③ 语义分析模块的功能是对各类信息资源数据进行语义抽取和分割，并描述知识语义信息和数据信息之间的对应关系，最后利用语义标签库对语义标注进行规范化处理，使得可以完整描述各类资源数据的语义信息；④特征提取模块的功能是检测获取的视觉检索对象，筛选出用户感兴趣的目标和区域并提取视觉特征，采用候选区域网络方法来提高视觉检索对象识别的准确度；⑤ 资源匹配模块是以视觉资源库的数据为中心，对各类数字资源的特征元素进行关联匹配，返回与用户视觉检索对象相关的各类数字资源集合；⑥ 检索执行模块是在上述功能模块的基础上执行检索任务，完成相应的视觉检索功能，得到满足用户检索意图的以相关度排序的检索结果。

2.3 多Agent服务层

多Agent服务层是数字图书馆个性化MVS体系结构的枢纽和中转，主要负责系统的功能模块调用，由多种Agent协作完成用户行为分析、调度管理、个性化推荐以及检索结果合成等功能。① 检索Agent主要完成调度Agent分配的检索任务，根据检索类别对复杂条件进行转化，并返回检索结果；② 调度Agent主要用于数字图书馆MVS任务的组织和分配，根据用户检索请求与其他Agent进行交互，协作完成MVS检索任务；③ 用户Agent的功能是在用户进行视觉检索时通过获取用户行为信息对用户兴趣进行分析，并挖掘用户查询日志之间的关联，将分析结果存储在用户知识库中；④ 推荐Agent根据用户Agent对用户行为分析的结果，使用推荐算法向用户推荐相关资源数据信息。

2.4 用户应用层

用户应用层是数字图书馆MVS的运维和信息共享平台，同时与用户进行交互，为用户提供检索接口、结果展示、评价反馈、个性化推荐等功能，是整个系统的前台和展示。① 用户可以在不同智能终端上通过多种方式利用检索接口输入检索图像，然后检索接口将用户的检索请求发送给界面Agent；② 结果展示模块将系统返回的多种类型信息资源进行相关性融合，并以可视化的方式描述知识资源之间的联系，提高知识的易理解性；③ 评价反馈模块负责收集用户反馈信息，对数字图书馆MVS服务的效率和满意度进行评价，评价采取显示评价和隐式评价两种方式同时进行，依据评价结果对数字图书馆MVS模型进行改进；④ 个性化推荐模块根据用户的情境信息、检索行为与特征、社会网络等数据进行逻辑推理，发现用户的兴趣偏好，为用户推荐相关的信息资源，提升用户的个性化MVS服务体验。

3 数字图书馆个性化移动视觉搜索服务流程

数字图书馆个性化MVS是将MVS服务与Agent技术相结合，满足MVS智能化功能需求，达到MVS服务以人为本的目的。为了发挥多Agent系统协作性、自治性、感知性的特点，并适应海量数据访问、用户情境多变的互联网环境，本文基于FIPA（Foundation of Intelligent Physical Agents）标准设计了五类Agent，分别是界面Agent、检索Agent、调度Agent、用户Agent和推荐Agent，其内部结构和交互关系见图2。

图2 基于多Agent的数字图书馆智能MVS服务流程

（1）界面Agent主要完成检索接口和结果合成两方面的任务，即一方面它需要负责接收用户检索请求，并将用户检索请求发送给调度Agent执行检索任务；另一方面它将检索结果进行去重、合并、排序并展现给用户。因此，界面Agent分为检索接口模块与结果合成模块两部分。在检索接口模块中，用户除了能够输入图像进行检索外，也可以选择传统的文本输入检索，并将检索接口与数字图书馆移动终端检索界面融合，充分考虑用户的移动应用行为习惯，提高MVS服务的可用性和便捷性。结果合成模块是用户与MVS检索功能的连接部分，它的作用是让用户在感受MVS服务操作流程的同时获得检索平台返回的各类信息资源数据，为了保证检索结果中包含符合用户兴趣和需求的信息资源，界面Agent还需要从推荐Agent处获得推荐信息，然后集成起来加入到最后的检索结果集中。

（2）检索Agent的主要功能就是接收调度Agent分配的检索任务，并与调度Agent交互获取所需的检索资源数据，完成检索后将检索结果返回给调度A-gent。检索Agent在接收到检索任务后，首先，对检索图像进行语义分析，并从调度Agent中获取语义标签标注检索图像或添加新的语义标签到语义标签库中。然后，利用情境建模模块对影响用户的情境进行过滤和逻辑推理，建立计算机可以理解的情境模型，通过与调度Agent交互对情境模型库中已有的模型进行匹配，根据匹配度不同得到读者偏好并存储到情境模型库中；特征提取模块对MVS检索图像进行视觉热区检测筛选出用户的兴趣目标和区域，得到检索图像的局部特征，再对局部特征进行聚合得到检索图像的全部特征，另外在视觉特征提取的同时也要提取其文本特征，达到兼顾检索结果几何一致性和语义相关性的目的。最后，资源匹配模块将MVS检索图像的特征描述符与视觉资源库中数据的特征描述符进行匹配，根据匹配结果对包括视觉信息资源在内的各类数字资源进行评分和排序，将检索结果列表返回给调度Agent。

（3）调度Agent是多Agent服务层的核心，它是各类Agent进行交互的桥梁，包含任务分配与数据管理两个功能模块。① 任务分配模块首先接收来自界面Agent的用户检索请求，然后根据用户请求的检索类型向检索Agent发送检索任务，并将得到的检索结果列表返回界面Agent，同时与用户Agent、推荐A-gent进行交互，对用户兴趣模型以及评价反馈信息不断进行更新。② 数据管理模块主要是对数字图书馆智能MVS系统中的各类数据库进行读取、修改、删除等操作，它从任务分配模块获得数据库操作请求，是调度 Agent与检索 Agent、用户 Agent、推荐 Agent之间进行数据传输的接口。

（4）将个性化技术应用到数字图书馆MVS体系之中，针对用户需求和偏好提供不同的检索结果。用户Agent包含行为感知、用户分析、兴趣挖掘三个功能模块。行为感知模块是在用户进行检索时与用户进行交互，将用户的检索日志和行为记录在系统中，包括用户的点击顺序、检索内容、使用时长、跳转链接、来访时间等信息；用户分析模块是在用户行为感知的基础上，学习用户兴趣以及挖掘用户群组特征，另外分析注册用户时还要把用户的身份、职业、年龄、位置、天气等信息进行综合逻辑推理；兴趣挖掘模块首先采用用户兴趣学习及更新算法建立用户兴趣模型，然后与调度Agent交互更新系统内部的用户知识库，将用户兴趣数据存储下来，为推荐Agent提供数据支持。

（5）推荐Agent负责主动向用户提供检索内容相关的信息资源，提高了用户的检索效率和对数字图书馆MVS系统的黏着度，另外能够激发用户的潜在兴趣，拓展用户的检索广度和深度，它主要包括推荐引擎和评价反馈两个功能模块。① 推荐引擎模块首先与调度Agent交互，接收任务分配消息、用户兴趣模型以及各类相关信息资源数据，然后利用一种或多种推荐算法计算出与用户检索内容相关的信息资源，对于注册用户还可以根据用户的群组特征进行推荐计算，最后将推荐资源列表返回给调度Agent；② 评价反馈模块根据用户对推荐资源的使用行为来获取评价反馈信息，用户的评价反馈信息包括显式评价信息（用户评论、打分、转发等）和隐式评价信息（点击浏览、忽略推荐、拒绝推荐等）两种，利用用户评价反馈信息进一步更新用户兴趣模型，并将更新后的用户兴趣模型通过调度Agent存入用户知识库中，改进数字图书馆个性化MVS服务的推荐效率。

4 数字图书馆个性化移动视觉搜索关键问题

4.1 个性化推荐机制问题

推荐机制是实现数字图书馆MVS系统个性化服务的关键，而检索推荐内容要以视觉数据资源为中心、包含多种格式学术资源的知识展示方式提供给用户。此外，在一般情况下推荐内容都会产生信息过载现象，因此，针对上述情形要综合采用多种推荐算法，以提高推荐内容的多样性和相关性。再者，为了提高推荐内容的准确性，要从多个方面完善用户兴趣模型，常用的用户兴趣建模方法有关键词列表表示法、基于布尔模型的表示方法、基于向量空间模型的表示方法、基于本体的用户模型表示方法［30］等，而由于视觉数据本身缺乏描述性文本，可以将用户兴趣标签作为语义素材来构建用户兴趣模型，利用视觉数据分词标签与用户兴趣标签的映射关系定位用户兴趣，并及时捕捉用户兴趣的变化。

4.2 用户隐私安全问题

数字图书馆MVS系统要实现准确高效的个性化推荐功能，必须充分挖掘用户的个性化信息及知识需求，但获取精确检索内容推荐的同时也会带来用户隐私安全问题。数字图书馆用户隐私安全保护需要解决三个方面的问题:① 确保用户个人信息在传输和存储过程中不被篡改；② 对用户身份及个人数据访问权限进行严格验证；③ 对用户个性化数据的使用采用授权机制，以利于用户隐私泄露时对泄露源进行追踪。因此，数字图书馆应制定相应的隐私保护策略，如，实施用户个人数据的多级保护机制，在数据层采用数据加密算法对数据进行加密，在应用层使用隐私增强技术，在数据发布层利用匿名化方法；［31］对采集的用户个性化数据进行过滤、清理和删减，清洗掉与用户的行为分析、知识需求以及群组关系判定无关的隐私数据；［32］为数字图书馆用户提供更细粒度的访问控制机制，由用户自己设置个人敏感信息的保护级别和保护范围；对MVS服务效用与用户个人隐私之间做到更好的权衡，在满足用户知识需求最大化的同时最小化隐私等。

4.3 视觉资源数据处理问题

优质的视觉资源数据可以为用户带来良好的数字图书馆MVS个性化服务体验，而且能够提高系统的检索速度和易用性。因此，对于视觉资源数据处理要从两方面着手，一方面，为了应对移动环境下实时应用的需求，加快视觉资源特征提取的速度，视觉资源的形状、纹理、颜色和轮廓等低层次特征信息应采用局部特征提取方法，并减少视觉资源内容由于视角变化、旋转缩放等带来的特征失真现象，而对于视觉资源的高层次语义信息则可以采用深度学习、卷积神经网络等方法进行提取，为用户提供具有更强语义匹配能力的视觉资源特征；［33］另一方面，为了降低视觉资源特征在移动网络中的传输和存储消耗，需要使用视觉特征压缩方法（如二进制哈希法、特征量化法等）来减少传输流量，以尽可能少的特征比特数传递尽可能多的视觉资源检索信息，并采用分布式的高维索引方法建立支持大流量高并发的视觉资源数据库，实现大规模视觉资源的快速准确匹配。