图书馆用户数据共享空间的构建及应用研究

2021-07-14 08:28袁先文程结晶扬州大学社会发展学院
图书馆理论与实践 2021年4期
关键词:数据服务图书馆空间

袁先文,程结晶(扬州大学社会发展学院)

数据已经成为世界上最有价值的资源[1],在大数据环境下,数据资源呈指数级增长趋势,数据素养是社会大众适应现代社会发展的必备素养。目前,已有许多图书馆从数据科学角度出发开展数据素养教育,主要以数据管理系列课程、在线课堂、实践指南、专题研讨会等方式开展,内容涉及数据共享、数据处理、元数据、数据科学、数据科学管理、数据分析工具、机器学习、数据挖掘,以及高校图书馆员在目前研究生数据管理和数据策展能力培养中的作用与角色和数据素养教育实践中的实施主体、前期计划调研、教学设计、实施方式、结果评估等,此外还有图书馆为用户提供有关数据管理的定题服务[2]。但由于用户学科领域、知识结构、研究方向、科研环境的差异以及各图书馆对数据素养存在不同的认识与理解,目前的数据素养相关研究仍存在不足。因此,本研究在探讨图书馆与用户数据、数据素养以及数据共享空间相关文献研究的基础上,构建图书馆用户数据共享空间模型,以期为图书馆塑造以用户需求为中心的服务环境、提高数据素养能力、培养新型智慧人才提供参考。

1 相关文献综述

1.1 数据素养研究

国外数据素养研究起步较早,已经形成了较为成熟的数据素养培育体系,且研究重点偏向于实践应用领域,主要涉及数据素养意识、数据素养技术平台等方面,尤其重视图书馆作为主体在数据素养教育过程中的角色定位研究。如,弗吉尼亚大学图书馆深入教学团队开展数据素养能力培训,并针对特定学科进行了数据认知素养分类介绍[3]。

国内对于数据素养的探讨主要集中于数据素养内涵、课程内容设计、影响因素与发展策略等理论研究方面。司莉等调研了iSchool联盟院校图书情报专业的数据素养课程设置情况,从调查结果和课程设置的特征角度进行分析[4];沈玖玖等以南昌大学为例,基于教师专业素养、教学方式、教育资源环境、教学内容四个因素构建了数据素养影响因素模型[5];张静波提出,大数据时代数据素养的发展策略主要包括借鉴国外的成果和经验展开多种方式教学、掌握我国数据素养发展态势、采取多方协同发展的管理机制[6];隆茜构建了数据素养能力指标体系,并基于该体系对大学教师、本科生、研究生群体的数据素养能力现状开展调查[7]。

综上,国内外已经开展了部分数据素养相关的理论与应用研究,研究角度各有侧重,均取得了一定的研究成果。但是随着新技术的日新月异,用户的数据素养需求逐步呈现出个体差异,现有的数据素养培养方式与用户需求不适应等问题日益凸显,具体表现为以下三个方面:①数据素养培育模式较为单一,一般仅由教师或馆员单向推广,不能够根据学科领域、兴趣以及用户自身的数据素养水平进行分类教学;②缺乏数据管理与分析技术的实践培训,缺少可供用户与馆员相互交流的共享系统平台,且未将数据素养与图书馆业务和资源进行深度结合;③数据素养的培育缺乏系统性与层次性,未考虑到数据管理的周期性与科学性。因此,本研究拟从图书馆用户数据共享空间的角度出发,旨在打破空间限制,依据动态变化的用户环境灵活调整服务策略,从而更好地满足差异化、智能化的数据素养需求。

1.2 数据共享空间研究

20世纪90年代初期,信息共享空间理论被引入人文社会科学领域,自此开始,图书馆界对于“共享空间”进行了广泛研究和实践探索。随着信息社会的发展,图书馆空间的发展逐步走向多元化,衍生出了智慧学习空间、知识共享空间、创客空间等多种模式。受e-Science环境下密集型科研的影响,在面对大量庞杂无序的数据时,科研人员亟需一个稳定而灵活的数据平台来解决在科研数据生命周期中遇到的相关问题。

为了应对这种情况,数据共享空间(Data Commons,DC)应运而生,其主要应用于公共服务、教育以及医学等相关领域。美国国家癌症研究所的基因组数据共享(Genomic Data Commons,GDC)项目是一个用于癌症研究计划中基因组和临床数据的导入和标准化的数据共享平台,作为一个数据库工具或可扩展的知识网络,GDC可实现跨癌症基因组研究的数据共享,以支持精密医学[8]。美国国家科学基金会生物科学局资助的CyVerse平台是一个提供数据存储、生物信息学工具、图像分析、云服务、API等服务,以处理庞大的数据集并进行复杂分析的网络基础设施平台[9]。目前,国外对于数据共享空间的研究主要围绕其管理和控制、框架构建、实践发展、相关法律政策等方面展开。

国内对于数据共享空间的研究相对较少,主要集中于对国外数据共享空间建设的经验介绍和数据共享平台的建设方面。吴雅威等分析了国外不同领域数据共享空间建设的典型案例,并提出了数据共享空间功能框架[10];张计龙等以复旦大学社会科学共享平台为例,在介绍其主要功能的基础上提出了有针对性的建议[11];邓仲华等从用户应用层、数据服务层、平台管理层、数据资源层四个层面构建了“互联网+”环境下的科学数据共享平台的框架模型[12]。但是,在已有研究中鲜见关于将数据共享空间理论应用于图书馆领域的探索,尤其是对基于数据素养服务的图书馆用户数据共享空间的定义和内涵还没有特别详细的阐述。

1.3 用户数据研究

目前,国内对于用户数据的研究主要集中在用户数据的定义和内涵、用户数据权利、用户数据隐私保护、用户数据溯源体系等方面。黄国彬等通过对用户数据相关研究的梳理和内涵的界定,划分了用户数据的十四种基本类型[13];谢珍等在阐述智慧图书馆视角下用户数据与隐私权保护两者矛盾的基础上,提出了用户数据应用与隐私保护之间的平等原则与平衡方案[14];陆康等对我国的《中华人民共和国网络安全法》与欧盟的《一般数据保护条例》中关于数据隐私、用户信息权的条款进行比较分析,并提出了其对智慧图书馆的启示[15];殷建立等在用户数据溯源分析的基础上构建了溯源管理体系,包括溯源管理模式、技术支撑体系、政策法规保障体系、追踪溯源管理平台四部分[16];王忠对有奖励和无奖励两种情形进行了细分并建立举报隐私泄露模型,比较分析不同举报行为的收益,进而完善用户数据隐私泄露举报机制[17];马兰梦等基于学科背景、用户类型、重要用户以及需求峰谷四个维度对图书馆科技查新用户数据进行分析,并结合其需求特征提出精准查新服务策略[18]。

可见,以上研究成果主要探讨的是用户数据隐私安全方面的问题,对于将用户数据与图书馆数据服务相结合方面的研究还不够全面。鉴于已有经验与相关研究成果,笔者认为,本研究所探讨的用户数据是用户在享受图书馆知识与数据服务的过程中产生的行为数据痕迹,包括用户基本数据、行为数据、情感状态数据等,这些数据是建立用户兴趣模板、实现图书馆智慧化资源推荐服务的基本要素。

2 用户数据、数据素养、数据共享空间的内在关联

2.1 用户数据与数据素养

党的十八届五中全会首次提出“国家大数据战略”,并发布《促进大数据发展行动纲要》,指出“数据已成为国家基础性战略资源”[19],数据的应用前景被广泛认识。用户数据作为数据社会环境的组成部分,也发挥着重要的作用。如果说信息素养是信息社会不可或缺的一种能力,那么数据素养则可视为大数据时代用户开展研究与交流的能力,对于新形势下信息素养能力的不足之处辅以丰富的补充。

用户的数据技能和数据管理能力是其数据素养的外在表现,用户数据技能与数据素养教育主体、数据素养教育资源的投入、教育方式、专业领域等均存在一定的联系。如,数据素养教育主体越多元(以图书馆为主导、其他技术部门为辅),数据素养教育的资源投入度、数据技能培训课程就越丰富,相应地,用户了解与利用数据的机会和数据管理能力就越高。而且教育方式越多样越能更好地满足用户的数据需求,更好地促进其数据技能快速提升[20]。此外,需要注意数据与文献不同,不同领域的用户数据差距很大,如自然科学领域的用户往往偏向于利用数据分析工具来处理获取的数据。

从社会发展的角度来看,全面提升社会的整体数据素养需要从用户个体到团体再到整个社会进行不断推广,而图书馆作为数据与知识的重要载体,其在数据管理与服务方面具有先天优势,因此图书馆可充分发挥主导作用,并联合社会其他图书情报机构,共同促进社会数据素养教育泛在化。尽管数据素养的培育可以从多个方面展开,但其落脚点始终在于提升用户的数据素养能力,通过个体向团体进行传播,积极提升社会对数据素养的重视,并最终推动数据素养环境的形成。

2.2 数据共享空间与用户数据

随着社会信息化和智能化程度的快速提升,技术环境也发生了巨大的变化,大数据作为一种新的理念和技术,对现代生活产生着重要影响[21]。数据共享空间是大数据时代的新兴产物,它将数据、方法和用户需求三者最大限度地融合起来并集中管理,为用户提供数据收集、数据标准化、数据监护、数据分析、数据共享、数据创新等多种功能[22]。需要注意的是,在利用大数据技术促使用户数据收集变得更加全面高效的同时,也要考虑大数据可能给用户带来数据泄露的风险。

一方面,用户数据是数据共享空间开展用户深层次服务的前提。图书馆数据服务逐步以用户为中心,以用户为中心不仅要帮助用户参与数据采集、分析、共享与发布等数据管理过程,还应主动为用户提供更深层次的增值服务,这就要求图书馆不能仅对用户数据进行浅层次的汲取,还要依靠数据管理模式的精准呈现促使用户充分表达其需求,实现对用户行为规律的实时感知和深入挖掘。数据共享空间的用户数据主要包括:用户利用图书馆数据资源的日志记录、用户使用分析工具的记录、用户浏览数据共享空间动态的记录等,只有实现了对用户数据足迹的识别和抓取,才能更有效地拓展数据共享空间的服务与功能,增加用户黏度。

另一方面,数据共享空间必须考虑对用户隐私数据和机密数据的保护。密集型数据环境在推动社会发展的同时,也对数据安全提出了一些新的要求。用户在使用数据共享空间的数据管理与共享功能的过程中,往往会在数据引用、数据著录格式、数据使用政策等方面涉及隐私安全问题,因此,数据共享空间责任主体(如图书馆)、相关科研机构及政府需要制定元数据标准和用户控制规则,并建立相关匿名协议来实现透明化用户数据管理,防止数据滥用。数据共享空间需要关注用户数据匿名化,最大程度地保护用户隐私和规避知识产权问题。

2.3 数据素养与数据共享空间

数据素养和数据共享空间是当前图书情报领域研究的重要课题,随着数据素养教育的不断拓展和数据共享空间研究的逐步深入,二者因为“数据”这一纽带而产生的联系更为密切。数据共享空间的目标之一是提升用户的数据素养,数据共享空间可将数据资源与数据处理工具相结合,分析用户科研与服务过程中可能存在的问题,并利用多样化的数据服务方式来满足用户数据素养需求,帮助用户真正认识到数据素养与科研数据管理服务之间的关系,从而提高对于数据素养的重视度。数据共享空间是图书馆数据素养服务的应用与体现,是数据素养服务的一种载体。

综上,本研究基于图书馆领域用户数据、数据素养、数据共享空间三者间的内在关联,将三者的概念有机融合,提出图书馆用户数据共享空间的新构想:图书馆用户数据共享空间是将物理空间和虚拟空间相结合的一种以物理空间(图书馆主体空间)为基础、大数据技术为手段,满足用户数据服务需求和学习交流需求的空间。

3 图书馆用户数据共享空间构建的维度分析

数据素养教育和图书馆用户数据共享空间的目标都是为满足用户数据需求、培养用户数据分析与利用能力,同时,二者都是在大数据开放获取环境和以数据为核心的新型范式下逐步发展起来的,二者之间的结合是可行、合理的。

3.1 环境维度

数据素养教育与图书馆用户数据共享空间的构建都需要依托一定的数据基础环境。用户数据素养的培育不能仅仅依靠理论课程知识,还应融入特定的实践环境中,如培养用户的数据意识需要用户对特定数据环境进行感知,提高其主动利用数据的能力。随着手机、电子阅读器、平板电脑等智能终端的不断普及,用户更加注重情境体验,图书馆用户数据共享空间则恰好可依托大数据、智能设备、人工智能技术等为用户提供智慧化体验环境。智能环境还可以帮助用户随时随地学习数据素养课程或者进行数据在线分析,形成与用户相伴随行的个人学习空间,在潜移默化中提升用户的数据素养。此外,通过智能化、情境感知的信息网络,将图书馆实体空间与虚拟空间的数据资源相融合,为用户提供一个交互性、智能化、体验性的图书馆用户数据共享空间环境。

3.2 智能维度

当前,人工智能科技产业的发展势如破竹,图书馆用户数据共享空间也应考虑在智能维度上通过人工智能技术打造智能化数据素养服务体系。其具体实现路径为“数据收集—数据发现—数据分析—服务交互—问题解决”:借助智能感知设备收集并整理用户行为和情感数据;依靠机器学习、数据关联等相关技术将数据资源层的各类数据与用户数据进行实体、属性、关系描述,为不同来源的数据之间建立连接,从而构建由各个最小知识单元组成的知识网络,完成数据发现和分析过程;通过设置智能数据聚合社区、智能数据资源推送等服务模块促进用户与图书馆用户数据共享空间相互交互;通过用户评价反馈对问题解决的效果进行核查。

3.3 需求维度

数据素养教育和图书馆用户数据共享空间均要考虑用户的数据需求,但又各有不同:数据素养教育在了解不同用户群体需求的基础上,针对性地开展数据素养服务,常见的分类是面向不同层次(本科生、硕士生、科研人员)或不同学科的用户,但缺乏对单个用户精准需求的抓取;图书馆用户数据共享空间是面向用户的智慧化数据服务,需要对用户的隐性需求进行深度挖掘与匹配,从而为用户提供更为精准的服务。用户数据共享空间的用户需求获取主要通过三个步骤完成:①用户在注册登录系统时填写姓名、专业、兴趣爱好等静态信息,并通过调查问卷、留言等方式反映自己长期的需求,平台据此初步确定用户需求;②在用户使用该系统一段时间后,平台主动对用户检索方式、浏览轨迹、下载与使用软件分析记录等动态数据进行收集,进一步获取用户个性化需求;③根据收集的用户行为数据信息和反馈信息对用户重新进行分类,比较用户前期需求与后期行为的偏差,进而调整服务内容。

3.4 能力维度

数据素养教育的最终目标是提高用户的数据素养能力。传统的数据素养教育主要根据教学目标来安排课程,未考虑到整个数据生命周期,而图书馆用户数据共享空间作为一个开放式的空间平台,主张嵌入性,即围绕科学数据生命周期来培养科研人员的数据素养能力。科研人员的数据处理能力贯穿于数据生命周期的各个阶段,如数据创建(查询)与数据保存(存储)、数据分析、数据引用与数据共享等。在图书馆用户数据共享空间中,主要由数据服务层内数据共享服务的部分模块来体现数据生命周期环节(见下表)。

表 涉及数据生命周期环节的数据素养能力维度分析

综上,笔者以图书馆内外部的数据资源作为数据基础环境、以智能平台为依托,连通虚拟空间与实体空间,将数据生命周期的各个环节嵌入图书馆用户数据共享空间的模块中,构建了图书馆用户数据共享空间总体设计模型,以期为用户提供以应用为导向、以能力为基础的数据素养服务,满足用户的数据智慧化服务需求。

4 图书馆用户数据共享空间模型

图书馆用户数据共享空间模型由感知层、数据资源层、技术处理层、数据服务层、用户层构成(见图1)。图书馆用户数据共享空间模型是智慧化的数据素养服务生态系统,各系统层级之间相互影响、相互作用,共同聚焦于用户空间化与动态化的数据服务诉求。

图1 图书馆用户数据共享空间模型

4.1 感知层

感知层主要应用于泛在化的智慧环境,通过多种情景感知设备(如摄像头、传感器、感官捕捉器、眼动仪、智能机器人等)获取用户行为和情感的信息数据,并将其存储至数据资源层的感知设备数据库中。

4.2 数据资源层

数据资源层主要集成社会科学类、医疗类、经济文化类等领域的开放专题科学数据、公开的研究报告以及相关政策法规等,具体类型包括图书馆自建特色数据、用户提交数据、感知设备数据、外部数据(政府、企业、科研院所)、网络数据等。由于该层中的数据资源具有多个种类,而将半结构化数据与非结构化数据标准化是实现数据检索、分析与共享的前提,因此,开发数据字典、制定全面完整的元数据标准至关重要。

4.3 技术处理层

技术处理层是实现系统数据处理、挖掘与分析的重要层级,主要由情感计算、深度学习、机器学习、自然语言处理、5G技术、关联数据技术、语音识别等技术模块组成。需要注意的是,各个技术模块之间可自由结合,通过不同的组合方式为图书馆用户数据共享空间的数据服务层提供符合各个单位实际情况的技术支撑。

4.4 数据服务层

数据服务层是图书馆用户数据共享空间的核心层,主要由数据共享服务、智能服务、用户数据服务三个模块构成。其中,数据共享服务模块主要以数据为中心向用户提供相关的数据服务,智能服务模块的主体逐步从数据转向用户,相应地,数据服务也转向更高层次的知识服务、智能服务。

(1)数据共享服务主要围绕数据生态系统展开。通过加强用户在数据查询、数据分析、数据保存、数据发布等数据管理过程的参与度来提升用户数据素养,实现数据增值与深度揭示。

(2)智能服务。当前功能单一、仅围绕数据开展的服务已无法满足用户的多元化需求,故数据服务层的构建必然要扩展相关智能服务。①智能问答咨询主要利用自然语言处理、情感计算等技术,以智能客服的形式与用户进行一对一交流,对问答咨询过程中用户语言呈现出来的情绪、态度等信息进行快速分析并给出准确回复;②智能在线测评可利用语音识别技术对学习者的数据素养综合能力进行测评,帮助系统对用户能力进行科学“素描”并提供不同层次的智能培育方案;③超高清视频直播主要依托5G技术,将数据素养精品课程以细粒度的方式呈现给用户,实现互动性较强的“面对面”服务场景;④智能数据资源推送主要利用神经网络算法智能分析并抽取用户的兴趣需求,通过智能标签细分用户群体,为不同群体用户提供精准推送服务;⑤智能数据聚合社区即提供数据交流与共享的交互式社区,该社区利用上述智能标签将具有相同兴趣的用户聚集在一起,通过小组讨论的方式使思维相互碰撞,在虚拟社区中进行相互协作。

(3)用户数据服务。该模块可帮助用户从数据消耗者转变为数据创建者,主要围绕用户信息管理系统、注册登录服务、智能化培训、服务反馈等功能展开,其中智能化培训包括共享空间相关资源的运用、分析工具的使用、相关元数据标准等指南。用户信息管理系统可将用户的数据集、相同领域的合作者、数据分析方法等相互关联,创建统一规范的数据标准,便于他人对其数据进行引用。

4.5 用户层

用户层即通过接口帮助用户进入该系统的一个入口。图书馆用户数据共享空间目前设计了三个入口,主要包括手机、Pad等智能设备及电脑等客户端与嵌入应用系统。在“大数据+移动网络+人工智能”相互联合的环境中,用户与数据资源、图书馆用户数据共享空间以及终端设备三者互通互联,实现不同环节紧密相连的多向交互圈,满足用户“人人、处处、时时”的智能化学习服务。

5 图书馆用户数据共享空间模型的应用

5.1 基于情境智能感知的图书馆用户数据共享空间原型系统的设计

根据图1,笔者进行了基于情境智能感知的图书馆用户数据共享空间原型系统的设计。需要注意的是,该原型系统主要体现了图书馆用户数据共享空间模型感知层的思想,将基于智能设备的图书馆用户数据共享空间与实体空间通过感知层联系在一起,借助情境感知技术和设施形成了一个虚实结合的智能学习空间,如图书馆实体空间配置的智能感知设备主要有无线传感器、智能显示交互系统、面部情感状态捕捉设备、用户语音行为捕捉设备等。智能设备获取到的所有用户学习状态信息通过网关提交给后台服务器,并将搜集到的用户行为和情感数据信息反馈至智能终端的图书馆用户数据共享空间中。对于数据素养教育来说,通过原型系统的情境感知设备对于用户的心理状态、动作行为、实时情况进行智能捕捉,全面监控用户以及科研人员的需求,能够有针对性地提高用户数据素养技能,如利用眼动仪对用户眼球注视时长进行监测,实时抓取用户对于数据意识、数据价值以及数据应用知识的认知状态,从而诊断用户的数据素养水平,挖掘背后更深层次的信息。

5.2 基于智能设备的数据资源推荐与实现

本研究通过智能代理Agent设计了基于智能设备的智能化数据资源推荐机制(见图2),该机制是实现图书馆用户数据共享空间交互的关键,由此完成用户“需求—推荐—反馈”机制。智能化数据资源推荐的流程如下:首先,为智能感知设备收集到的用户基本信息、用户行为信息、用户情感状态信息等分别建立对应的用户特征数据库,构建用户画像;其次,依据现有的元数据标准将数据资源层中各个领域的非结构化数据转化为结构化数据,并按照主题进行聚类,挖掘数据与数据之间的联系,将不相关的数据进行异质性处理;再次,通过资源匹配Agent将处理好的数据资源与用户的特征联系在一起,计算两者之间的匹配值;最后,将算法Agent优选的合适推荐策略传送至图书馆用户数据共享空间的智能数据资源推送模块。

图2 基于智能设备的数据资源推荐机制

5.3 基于知识细粒度的数据资源聚合

粒度作为知识的基本组成单元,其大小是度量知识的抽象程度[23]。传统的图书馆服务处理并解决的一般是粗粒度的用户需求,仅仅提供一些基础性数据服务,而图书馆用户数据共享空间可实现以用户需求为导向的细粒度的知识服务。要实现用户需求细粒度化,就要对图书馆内外部的数据资源进行结构化处理,对其进行LDA聚类分析,更加快速、彻底地挖掘内容价值,建立基于知识层面的用户需求网络,从而帮助用户减少使用资源时的障碍,构建“用户需求—知识聚合”两级映射。图书馆用户数据共享空间的数据服务层可将数据提炼至满足用户的目的,为形成完备的数据服务体系奠定基础,使图书馆用户数据共享服务更具针对性。

5.4 基于智能设备的用户地理位置定位功能的实现

图书馆用户数据共享空间的智能数据资源推送服务首先应对用户所处的环境进行监测,如用户应对图书馆不同空间位置采取不同的推荐策略、选择有针对性的推荐资源内容。常见的智能设备定位技术包括Wi-Fi、GPS、iBeacon、谷歌地图等,本研究使用GPS定位系统来精准定位用户位置并提供智能化服务推送。此外,可将iBeacon技术应用于图书馆智能定位系统,在图书馆内部署iBeacon基站,通过统一的API接口将用户智能终端与图书馆用户数据共享空间App相连接。该技术的实现原理是:当用户打开智能设备的蓝牙功能并经过图书馆iBeacon节点附近时,图书馆用户数据共享空间App会自动接收到节点信号并发送至图书馆服务器,从而获取用户的地理位置信息[24]。目前,数据素养的培育主要以传统的学校课程教育方式为主,而图书馆用户数据共享空间可利用iBeacon引擎实现馆内定位功能,感知用户具体位置,向其发送该节点位置相关的数据资源,为用户提供情景式数据素养体验。

猜你喜欢
数据服务图书馆空间
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于数据中台的数据服务建设规范研究
空间是什么?
创享空间
图书馆
数据服务依赖图模型及自动组合方法研究
去图书馆
QQ空间那点事
空间