数据圈背景下的智慧图书馆数据汇聚研究

2019-11-07 09:28:42 现代情报 2019年10期

陆康

摘 要:[目的/意义]互联网社会的形成让高校处于数据圈之中。高校用户的数据搜索习惯存在着差异性。Web搜索仍然是用户信息查阅的基本方式。大数据的非结构化、数据量大以及数据挖掘与语言处理等问题的存在,用户对搜索结果的满意度不高。高校用户的“小数据”能够反映其显性需求,其数据分析与挖掘能够反映出用户的隐性需求。以用户为中心的服务体系是提高服务效率、提升用户满意度与忠诚度的最有效方法之一。[方法/过程]以文献分析为基础,分析高校图书馆业务数据的构成、收集意义、规范、方法与用途。探索高校图书馆业务数据收集方法,以及构建“数据圈”支持图书馆智慧服务开展的必要性。[结果/结论]高校图书馆“数据圈”的形成,是智慧图书馆伴随着互联网社会发展的必经之路,也是智慧服务得以有效实施的基础。“数据圈”形成的规范化、标准化也是智慧图书馆领域所要重视的问题。

关键词:数据决策;智慧图书馆;数据圈

Abstract:[Purpose/Significance]The formation of the Internet society makes universities in the Datasphere.The data search habits of university users are different.Web search is still the basic way to access user information.Due to the unstructured big data,large amount of data,data mining and language processing,users are not satisfied with the search results.The“small data”of university users can reflect their explicit demand,and the data analysis and mining can reflect their implicit demand.User-centered service system is one of the most effective methods to improve service efficiency,user satisfaction and loyalty.[Method/Process]On the basis of literature analysis,this paper analyzed the composition,collection significance,norms,methods and USES of college library business data.This paper explored the methods of data collection in university libraries and the necessity of constructing“Datasphere”to support the development of intelligent services in libraries.[Results/Conclusion]The formation of“Datasphere”in university libraries was the inevitable way for smart libraries to accompany the development of Internet society,and also the basis for the effective implementation of smart services.The normalization and standardization of“data circle”was also an important issue in the field of smart library.

Key words:data decision;wisdom library;datasphere

IDC(International Data Corporation)和希捷(Seagate)最新發布的一份报告称,随着中国对物联网等新技术的推进,中国每年将以超过全球平均值3%的速度产生和复制数据,并将于2025年成为全球“数据圈”(Datasphere)的“领头羊”。根据IDC的定义,每年被创建、采集或是复制的数据集合就是“数据圈”[1]。在数字时代,人们很直观的一个感受就是信息不断跃进。信息从PC本地化,到互联网共享,再到移动互联网的随时随地共享,信息的丰富性和多样性爆炸性提升,形成终端极大丰富、信息极大过剩的数据大跃进[2]。数字图书馆处于转型时期,数据的产生、收集、存储、分析、挖掘、发布与销毁成为探索智慧图书馆必不可少的过程之一。以图书馆用户行为数据为主的“小数据”决策推动智慧服务的实施成为提升高校图书馆运行效率的重要途径,也是探索“数据圈”信息管理与应用,保障服务质量的措施之一。作为高校用户行为的搜索数据,是高校图书馆对用户需求动态掌握的信息源。有效利用高校图书馆各业务数据,发掘数据价值,提升服务质量,最终实现服务的“智慧”化,是图书馆集成各业务系统形成“数据圈”,以决策业务的实施,达到提升管理水平与效率目的。

1 文献回顾

数字图书馆发展初期,日志数据的挖掘对图书馆采访工作有决策意义[3]。随着互联网技术的演变,物联网、传感器、云计算以及移动阅读等技术得以发展,重构了数字图书馆的业务模式。高校图书馆中用户个体行为数据——“小数据”应用于图书馆的个性化服务。高校用户小数据能够准确体现其个性化阅读与知识的需求[4]。然而高校图书馆不仅需要“小数据”做微观分析,以便开展精细化服务,也需要“大数据”的多维度宏观分析,以实施业务规划与决策。图书馆领域的部分学者将小数据概念引入到业务工作中,“小数据”支持业务的个性化服务的开展[5]。行为表达与用户感知是图书馆数据的用途[6]。而图书馆用户数据的有效管理有助于服务质量的提升[7]。PDA(读者决策采购)模式就是感知用户需求进而开展精细化服务的一种方式[8]。高校图书馆业务系统的数据汇聚成大数据。基于大数据的挖掘与决策分析体系的建立,为高校图书馆全面实施个性化服务提供了基础的保障[9]。无论是用户个体的“小数据”还是多维度的用户群体的“大数据”,数据决策业务是图书馆新的工作流程,也是图书馆提高业务效率,提高用户满意度与忠诚的一个有效方法之一。数据决策依托数据开展,数据收集以及规范化保存、使用等也是图书馆所需面临的问题。“数据圈”的形成,无论是“小数据”还是“大数据”,都作为高校图书馆数据决策的来源,其用途与效果的评价也是智慧图书馆实践与完善的重要步骤。本文从“数据圈”角度,对高校图书馆数据收集过程进行梳理,提出“数据圈”决策高校图书馆业务发展的概念,对数据使用的规范化问题加以分析,探索可行的方法,为智慧图书馆业务的实施提供参考。

2 高校图书馆业务数据的构成

“小数据”倾向于微观性,而“大数据”则趋向于宏观性。高校图书馆的业务数据的多维度、多元化特点,融合了这两种数据类型。智慧图书馆既需要不同学科背景的用户的教学、科研文献资源,又需对高校等机构内用户的科学研究的预测、发现与感知。智慧图书馆既需要微观层面的个性化服务的支持,又需要宏观层面的科研动态发现与感知。智慧图书馆是“数据圈”的汇聚中心。

2.1 高校图书馆业务数据的内涵

数字图书馆伴随着互联网的发展而不断智能化。业务系统提供各种服务以及为了保障系统运行而产生的日志数据,成为高校图书馆数据产生的渠道之一。业务数据是高校图书馆数字化业务系统发展过程中出现、积累,其中涉及到业务运行情况,用户使用情况以及管理规则制定情况等。数字图书馆的不同系统数据汇聚到一起,形成高校图书馆的“数据圈”,构建多维度的垂直整合与横向共享的完整的生态体系,具备大数据的“海量”特点。高校图书馆通过“数据圈”中相关数据的使用,可以将数据的应用价值转换成时间价值,以及管理价值与经济价值等,充分体现了数据支持智慧服务,完善用户服务效率,提高用户的满意度与忠诚度。

2.2 高校图书馆业务数据的构成

根据大数据的概念,高校图书馆的业务数据(不包括资源数据)可以概括为3类,第一,传统业务系统数据,包括CRM Systems的用户数据、传统的ERP数据、库存数据以及日志数据等。第二,设备与传感器数据(Machine-generated/Sensor Data):包括呼叫記录(Call Detail Records)、设备传感器、设备日志(通常是Digital Exhaust)、业务实施数据等。第三,社交数据(Socialdata):包括用户行为记录、反馈数据等。如QQ、微信等社交媒体平台。如表2所示。业务数据形成了多维度的用户行为数据,为智慧图书馆的实施提供了决策依据。高校图书馆的业务数据的构成,如图1所示。

高校图书馆的数据组成较为复杂,不仅包括文献资源类的数据,如电子资源的CNKI期刊、超星电子书、纸质资源的汇文管理系统等数据。还包括空间管理系统,如门禁系统、无线网络系统、座位管理系统等数据、数字资源管理系统、数据流量监测的数字资源使用数据等。高校图书馆的数据产生是多维度的,各业务系统都在时刻产生数据,而对于这些数据的归类、挖掘、分析,从中提炼应用价值,是提高图书馆服务效率,提升服务质量的最有效途径。

高校图书馆“数据圈”,剔除文献资源等庞大的数据后,用户行为数据成为“数据圈”的重要组成部分。智慧图书馆的“智慧”体现,需要“数据圈”支持。“数据圈”中数据的准确性、实时性是图书馆开展精细化服务,以至智慧服务的关键。用户需求存在着时效性,及时地、准确地资源服务成为智慧图书馆成功的关键点。

3 用户图书馆业务访问行为研究

高校图书馆的数字化系统发展至今,提供了便捷、高效的互联网资源服务平台。在有效的访问范围内,用户都能够享受到图书馆提供的各项服务,例如数字资源的访问、浏览、检索与下载服务等。在“互联网+大数据”大趋势下,用户由于知识背景的差异性,其需求也呈现多样化。高校图书馆必须重视“数据圈”的开发与使用,加强“小数据”与“大数据”的同步规划建设,完善“小数据”的精细化服务机制,加强“大数据”的宏观调控与发展制度的建设。

3.1 高校用户资源使用背景

高校图书馆提供各类型的资源服务,资源的数字化水平随着互联网社会的发展而不断提高。高校用户的信息获取的方式受到互联网社会的影响而形成互联网思维。

互联网社会中,用户信息获取方式仍然采用搜索引擎进行问题发现与解决。为了满足信息需求进行问题的搜索,是一种直接的解决问题的方式,属于小数据探索性分析过程。高校图书馆提供的资源服务平台,都提供了搜索服务功能,以满足用户信息获取的需求。高校图书馆“数据圈”的建立,就是为了实现大数据的整合,用于智慧图书馆的宏观描述性分析、探索性分析以及运营决策。

3.2 用户数字资源使用分析

高校图书馆为了满足用户的教学与科研的需要,提供了多样化的数字资源平台,以满足用户的互联网获取资源的习惯。由于用户获取资源的意图存在着差异性,并且相同意图的用户之间也可能存在着搜索途径与方式的不同。如表3所示[10]。

智慧图书馆从“数据圈”中发掘用户的意图,从微观层面,可以掌握用户的近期教学、科研的动态。图书馆可以对其进行资源服务的精细化推送,以提高服务效率。从宏观层面,图书馆可以观测到资源内容建设与用户实际需求是否匹配,根据结果反馈至资源建设工作中,实行动态调整,以提升资源建设效果。图书馆用户行为的分析与研究,是掌握用户需求,是开展一系列精细化、针对性的服务基础,也是实践“智慧”有效的方法之一。

4 用户访问数字资源数据收集

4.1 行为数据收集的意义

随着数字图书馆建设不断深入到图书馆各项业务中,互联网新技术不断被借鉴。图书馆从网络平台到智能服务,都在逐渐丰富服务功能。从资源服务、到空间管理,各种为管理提供便捷服务的系统被运用到具体业务中。用户行为数据收集、分析可以更好地开展“以用户为中心”的服务理念,想到用户所想资源、推送用户所需资源。对图书馆的运行状况进行动态监测,及时了解各业务系统的可能存在失误或者错误。图书馆对用户行为等相关数据的收集,不仅仅是为了获取用户需求,也是对自身各业务系统的运行情况进行动态监测与管理的一种方法。

4.2 行为数据收集的规范

国家标准化管理委员会2017年第32号中国国家标准公告,全国信息安全标准化技术委员会组织制定和归口管理的国家标准GB/T 35273-2017《信息安全技术 个人信息安全规范》于2017年12月29日正式发布,将于2018年5月1日实施[11]。信息收集方面提出了3点要求:第一,合法性,要求个人信息控制者(机构、组织等)在法律、法规所规定的范围内利用合法的方法、获取信息的渠道,并在征得个人信息主体同意的前提下收集个人信息或要求信息主体提供个人信息。第二,最小化,要求个人信息的收集类型、频率和数量应在必要性的最小要求之内,即符合最少够用原则。在能达到所需目的条件下,只处理最少的个人信息类型和数量。第三,授权同意,要求个人信息控制者处理个人信息时的目的、方式、范围以及相关规则,均要经过个人信息主体的授权同意。智慧图书馆的数据使用,也要遵循《个人信息安全规范》,并与智慧服务业务深入融合。图书馆对个人信息的收集、存储、使用、处理与共享、披露与销毁都要严格规范实施。

4.3 行为数据收集的方法

资源服务管理方面:纸质资源的使用情况,可以通过汇文系统等图书馆管理系统的后台数据的汇聚,分析获取。数字资源的管理方面,可以通过互联网数据抓包分析(非HTTPS数据)以及重定向代理服务的方式获取。空间管理方面:多认证渠道的门禁系统,汇集IC卡认证、二维码动态码认证以及人脸识别认证等。图书馆内部空间管理监测,例如无线局域网的接入用于用户的空间位置判定与管理等。这些后台数据的汇聚至“数据圈”中,用于用户空间偏好的判断,以指导图书馆空间管理人员的配置。传统服务模式已经不能够适应高校图书馆资源的数字化、服务的网络化环境,用户需求的获取也不能够借助于问卷调查法等传统方式获得,互联网工具与概念的使用是创新服务、改善服务质量、提高服务效率的有效途径。

以数据为基础的智慧服务,依托互联网社会的发展而不断“精确”“智慧”,多维度的数据汇聚为宏观分析提供决策依据,也为微观服务提供精准信息。智慧图书馆的“智慧”性体现源自于“数据圈”支持,而“数据圈”的业务决策也是未来图书馆发展不可或缺的基本功能之一。

5 “数据圈”决策业务的实施

数据是数字世界的核心,数据价值不断增加,依据此社会更加智能化、用户体验不断完善、数据(数据系统)具备自我学习能力以及数字服务将不断改进[12]。这一切将围绕着“数据圈”以及相关技术开展。高校图书馆的资源数字化以及围绕服务开展的服务,也在不断改进。下一代图书馆系统[13]也围绕着数据服务技术构建现代化的用户体验与服务核心。

5.1 “数据圈”的形成

“数据圈”是指在互联网社会中被创建、采集或者复制的数据的集合。娱乐数据与视频数据成为数据圈增长的重要因素,物联网设备信息、元数据(应用于人工智能)以及业务数据(生产力数据、用户行为数据等)在互联网社会的数字化世界里增长更快。数据增长的速度与相关产业的发展呈正向关系。智慧图书馆也是如此,随着图书馆领域对数据的关注程度提高,数据决策业务的发展以及应用于知识发现,图书馆领域的“数据圈”也逐渐形成。以知识发现为主的学科性“数据圈”和以智慧服务为目的的用户相关“数据圈”成为主要类型。

5.2 “数据圈”的用途

“数据圈”最主要的功能是用于存储数据,众所周知只有知识型数据才会以永久的方式保存,大部分的数据都不会以永久的方式保存。“数据圈”内的数据在被使用后都会“消失”。数据在被收集之前,机构、部门都会评估其获取数据的机制。数据质量的高低,直接关系到数据价值的高低。数据收集、存储、挖掘与分析虽然程序越来越智能化,也存在着成本消耗。智慧图书馆的“数据圈”除了知识类的数据以外,其余“数据即服务”用于业务实施,并在使用周期结束后加以消除。

5.3 “数据圈”的效果

在安全性威胁、实时数据难以获取、数据碎片化现象日趋严重的背景下,构建多维度“数据圈”的汇聚系统,加强数据安全管理,增强数据的时效性,将碎片化数据重新整合,规范化管理“数据圈”系统,不仅可以保障数据的安全、时效性与全面性,也能够提高业务实施效率,动态监测业务系统的运行情况,指导业务流程的完善等,并对以上业务、管理起到促进的作用。智慧图书馆的业务是传统图书馆业务的“智慧”化升华,“数据圈”支持业务的发展,但是也离不开智慧图书馆对“数据圈”的规范化管理。“数据圈”影响智慧图书馆实施的效果,也离不开数据的准确性、完整性与时效性。

5.4 “数据圈”的实践

高校图书馆对数字资源使用的状态数据进行动态监测,其中,数字资源的访问、浏览、下载与检索行为成为用户行为“数据圈”汇集的重要组成部分。如图3所示。

高校图书馆对数字资源的管理,借助于网络数据监测技术,形成一种常态化的监测机制,用于数字资源使用情况的“数据圈”汇聚,其中宏观数据,例如用户访问、浏览、下载、检索的信息,则可用于数字资源运行情况的评估。微观数据,例如单一用户或者群体用户对某类文献资源或者学科领域的倾向性、偏好,则可用于精细化的文献推送与保障服务,以提高服务效率与智慧性。高校图书馆的文献资源、空间保障与服务平台成为“数据圈”形成的主要内容。文献资源内容的数据圈汇聚,不仅需要资源商进行内容的完善,也需要图书馆根据学科建设需要而进行资源的汇聚,例如以众筹的方式实现图书馆特色资源内容的汇聚[14]。高校图书馆不仅需要文献资源的数据汇聚,也需要业务运行数据的数据圈形成,以支持智慧图书馆业务的开展。感知用户需求开展针对性的服务,是提升服务质量,实践智慧图书馆的有效方法。

6 数据圈问题与解决方案

数据圈的形成,为图书馆实践智慧服务提供了决策基础。数据决策也逐渐成为图书馆业务开展、质量提升、效率提高的方法之一。然而数据圈的形成也存在着一些问题,例如数据规范化使用包括按需收集、安全存储、合理挖掘、客观分析与匿名发布等问题[15]。其中涉及到用户部分的,必然与数据隐私息息相关。随着“棱镜门”等隐私泄露事件被披露,用户对隐私的关注度日益提高,这也使得图书馆作为数据的控制者与处理者,对数据主体(用户)的数据隐私保护,承担着一定的责任与义务。

6.1 数据规范性使用

用户对自身数据的担忧以及机构的数据管理的缺陷,使得数据安全、数据隐私等问题日益严重。智慧图书馆作为数据的管理者,建立数据规范化使用制度迫在眉睫。“数据圈”需要有一定专业背景的人员进行管理,该类人员不仅拥有技术经验与能力,也需要拥有一定的数据素养,对数据隐私与数据伦理等问题要有一定的认识。数据控制者与处理者的数据素养教育,数据规范化使用,不僅需要技术工具的支持,也需要安全策略的保障[16]。数据的完整性、安全性、全面性的收集,对后续的数据挖掘与分析,获取高价值的信息有着至关重要的作用。数据全面收集必然涉及到用户的个人信息,而精细化、智慧化服务需要对个人行为分析以获取用户的真实需求。数据规范化使用涉及到数据控制者与处理者的数据素养问题,包括数据能力、数据伦理等方面的培养。数据规范化使用需要根据智慧服务具体业务需求,制定与业务相融合的规范性使用规则,做到数据主体(用户)、数据控制者(图书馆)与数据处理者(业务馆员)权责分明。数据规范化使用与智慧图书馆业务的融合紧密相关,两者高效配合能够保证图书馆智慧服务机制有效运行,也能使得智慧图书馆这个概念性仍然较强的理念得到较好地实践。