大数据背景下引入图书馆指数的探索与研究

2018-03-01 05:59张利永
图书馆界 2018年6期
关键词:指标图书馆服务

张利永

(南京图书馆,江苏 南京 210018)

在物质文明快速发展之后,精神文明与物质文明发展出现“内轮差”,为此推动全民阅读活动,营造浓厚的社会阅读风气,推动文化发展,提高居民素质,提升文化软实力,是党和国家建设文化强国目标的重要举措。

近年来,对于图书馆相关指数的研究呈上升态势,研究的方向有:城市阅读指数、H指数研究、阅读指数调查等。2015年8月份,中国的第一份阅读指数报告在广东省中山市发布。这份报告是由清华大学、中山市委网信办和全通教育联合发布的。这项研究通过数据化研究,抓取了当当网和京东商城在2014年7月至2015年7月一年时间内书籍销售情况,同时该报告还抓取了2 944个微博、微信阅读类账号的数据,照顾到了新媒体阅读受众,研究样本具有广泛性。通过这项研究的结论,能够看到:我国的北上广深地区人均购书最多,体现了阅读与经济发展状况的正相关性;手机已成为大众阅读的第一途径;在传统的纸质书领域,青少年读者占据了半壁江山。

1 大数据的采集与分析

图书馆是公共文化服务中的重要一环,是建设书香社会的重要基地。图书馆每天会接纳众多的读者前来阅读、休闲。这些读者每天在图书馆的活动会产生大量的数据资源,对于图书馆管理者而言,这是未开发的“矿产资源”,蕴含了大量的有用信息。然而,在以往的管理中,这些数据并未被有效利用。以现有的技术资源,可对读者的阅读行为、阅读环境、阅读活动、阅读爱好、来源背景等做分析和加工,形成体现图书馆特质的相关数据,即图书馆指数。图书馆指数就是一个数据集合,它把阅读量、阅读意愿、阅读热度、阅读频率、社会投入等各项具体指标按照预设规则组合在一起,析出综合反映居民阅读情况的数值。它跳出了单纯的阅读指数的框架,是阅读指数的广义延伸。

图书馆的数据资源数量庞大,但不是所有的数据都可以被认为是大数据。有些“孤岛数据”与外界的客观对象没有联系或很少有联系,是一种静态数据,比如书目、馆藏等。我们需要的是与其他对象有客观联系的数据,这才是有用的大数据。依据科学性、导向性、前瞻性的原则,在数据采集、指标标定、数据分析、理论研究方面强调客观与科学,对占有的数据资源进行再加工,从芜杂的数据中过滤出符合规则的数据。数据来源于图书馆产生的基础资源,包括业务系统与服务系统,从数据的属性来看,包括基础性数据和运行数据两大部分。

1.1 图书馆基础性数据

图书馆基础性数据指机构的设施设备、服务资源、人员、用户情况数据:1)图书馆设施设备数据:包括建筑、功能空间、各类软硬件设施设备数据。2)图书馆服务资源:包括图书、报刊、古籍、声像等传统文献资源数据,以及电子书、多媒体、数据库等数字资源。实体资源信息包括揭示资源的主题、语种、形态等内容描述性信息,也包括资源相关的馆藏置、数量、购买时间、新增情况等其他描述性与统计性信息。3)图书馆读者背景数据:指读者相关的个体详细信息。

1.2 图书馆运行数据

图书馆运行数据是图书馆进行业务开展、读者服务所产生的数据,是基础性数据中的要素发生服务或使用时产生的服务数据与行为数据,包括:1)图书馆传统业务与管理数据:采访编目数据、典藏流通数据、活动开展数据、读者流量数据。2)图书馆数字与信息服务数据:公共检索数据、文献传递数据、数字资源检索服务数据、移动网络数据、互联网访问数据。3)图书馆各类传感器和监控设备数据:通过红外技术、视频技术、定位技术所获取到的各楼层、架位、室内任意位置的读者流量数据。4)RFID数据:无线射频技术获取的数据信息。

1.3 图书馆采集的大数据主要来源

1)图书馆读者流量统计系统,利用视频分析技术、红外技术、门禁刷卡等技术统计分析馆内区域人流量、滞留时间。2)图书馆馆情调研统计系统,主要采集图书馆资源、服务类的统计信息数据。3)电子阅览室管理系统,对电子阅览室进行用机管理、读者管理、上网行为管理、报表分析等功能。4)数字图书馆服务平台,包括图书馆门户网站、移动APP应用、社交公众平台等。5)数字资源服务系统,包括统一检索、数字资源数据库。6)数字图书馆专业服务系统,包括联合参考咨询、文献传递、馆际互借等。7)数字图书馆运行统计分析系统,包括访问日志、系统运行日志。

1.4 大数据采集技术是进行数据存储、预处理和挖掘的前置条件

传统的数据采集方式已经不能够满足现实的需要如普查、抽样调查和统计报表等。大数据采集的来源方式有以下几种:1)传统数据ETL。采用E(抽取 Extract)、T(转置 Transform)、L(加载 Load)将来自不同数据库中的数据按照统一的模型集成整合到采集数据库中,是获取数据的重要方式。2)日志信息。信息化平台在运行中会产生大量日志,需要从不同的日志产生地收集,集中存储便于集中统计分析处理。3)媒体流获取。媒体流技术是网络音、视频技术发展到新高度的产物,涉及数据的采集、处理、编码、解码、传输等多项技术。4)网络数据获取。网络数据获取指通过网络爬虫工具或公开API等方式从互联网上抓取数据。网页中的数据是非结构化的,将其存储为统一的本地数据文件之前,需要进行结构化处理。5)传感器获取。传感器是系统检测外界数据的是一种检测装置,将收集到的信息以一定的方式转换为能传输、处理、存储、应用的电子流。

数据挖掘就是从海量的、非完整的、有背景噪声的、非关联的应用数据中,发现蕴含其中的、当前不为人所知的但经处理能形成有价值数据的过程。基于采集的大数据,形成数据池,对数据进行筛选、分析、揭示内在联系。根据实际需求,可以预设场景,建立关于读者的特征分析指标,如对读者的职业、知识结构、兴趣、偏好、个性、忠诚度等的判别。在读者特征分析的基础上,进行读者聚类与分群的研究,发现群体需求与热点。作为一种发现规律、探索未来的活动,这不是主观臆断的唯心主义,而是建立在科学的数据分析之上。

从水平和垂直两个维度深度整合,汇聚、整合公共文化服务机构各级各类信息,建立文化系统大数据的采集、处理、应用综合服务平台。充分利用互联网、物联网、移动技术,从多个渠道收集用户、资源、环境信息,实现2A服务模式,即无所不在的网络互联服务(Anywhere)和随时的数据智能融合服务(Anytime)。多元跨域数据融合,深度融入互联网,加强与机构外部的合作,充分利用互联网络、机构外部数据资源为自己服务。重视人的主体地位,重视关注用户视角的大数据分析和服务设计,积极利用来自政府、市场、社会的资源,协同实现公共文化传承服务能力提升。向联合体、集群化管理的方式发展,实现知识与信息的整合,大数据将作为指导公共文化基础设施建设、资源配备、服务与管理的决策基础。

数据分析需要建立统计指标或数学模型对主观变量进行确定。需要关注读者阅读终端类型、阅读终端地理位置、用户位置移动数据、个性化服务历史数据、用户需求反馈数据,科学判定读者的个性化服务需求和最佳服务方式。数据挖掘的一般过程为:数据收集—数据处理—数据变换—数据挖掘—模式评估—内容表示(图1)。这是一个数据筛选、降维、转换的过程,消除没用的“脏数据”,对经过规范化改造的数据进行分析和建模,分析过程中建立各项指标和变量,通过规则聚类,发现内在规律和特征,为建立图书馆指数奠定数据基础。

图1 大数据分析过程

2 图书馆指数的解析与发布

2.1 图书馆指数的解析

阅读指标的选取与确立原则有适时性、客观性、针对性、导向性,能够真实反映社会群体的阅读状况,并能根据环境的变化调整部分指标。科学合理地建立指标选取、权重处理、系统分析体系。通过建立科学的图书馆指数体系来量化阅读行为,走精细化管理道路,为了解居民阅读现状与阅读环境提供重要参考。

阅读量:藏书量是衡量一个图书馆综合实力的指标,对于个人或群体而言,阅读量是衡量读书多寡的指标,涉及读书调查的活动基本都会用到这个指标。

阅读意识:内心对于阅读的渴望程度。由于个体的差异每个人对于阅读渴望程度有所不同,甚至是区域间的群体阅读意识也有差异,将阅读意识作为一衡量指标,出发点是对于未来的阅读行为的预测。

阅读频率:在强调阅读量的同时,也应看到阅读频率,此项指标体现被调查对象阅读的连续性。

阅读环境:阅读环境至关重要,在公共场合需要营造温馨舒适的阅读环境,要让大众喜欢阅读、享受阅读。对于图书馆而言就是场馆功能布局与陈设,跨出图书馆的范围就是地区内的公共文化设施的配备与分布,人口密度与图书馆之间的关联,大的社会环境就是要营造“书香社会”。

社会投入来自政府和民间。虽然总体上公共图书馆以政府主办为主,但在部分地区也已经出现了民办图书馆,它们不同于官办图书馆,是官办图书馆的重要补充。社会投入对于图书馆事业的发展有重要的决定作用,没有投入就没有发展。

政府支持力度:发展图书馆事业,倡导全民阅读,没有政府持续的投入与支持如同无源之水。公共图书馆是纯公益性事业单位,公共文化事业的发展与地方政府的全力支持不可分割,可以说离开政府支持,图书馆事业发展就会停滞。

阅读热度:区域内功能区划和人口素养分布的差异会导致人群阅读行为的差异,阅读活动频繁程度自然也存在差异。将读者阅读活动的原始数据通过技术处理,用颜色的明亮程度表示地区读者活跃程度(热衷读者和阅读频率),活跃程度从低到高依次描述为紫色、蓝色、黄色、橙色。数据来自读者的注册信息(手机号、微信号),通过位置定位确认其来馆频率、活动区域、来源地,高亮区域为该区域内阅读人群较集中、阅读频率较高。使用热力图可以清晰地看到区域内的阅读活动,图形化展示与文字报告相比较,一目了然。以南京图书馆为例,其坐落于玄武区大行宫地区,该地区读者活跃度高,呈橙色表示,地理位置近,自然来馆频率高。较远市区,呈紫色均匀分布,显示读者均匀分布于市区(图2)。

图2 南京图书馆读者在市区的分布和聚集度

2.2 图书馆指数发布的渠道与形式

形成指数的最终目的是发布到公共的空间,让社会大众知晓。通过微博、微信公众号、图书馆网站,定期发布。

指数的发布需要采用一定的表达方法,不同的表达方式效果各异,选择一个适合的表达方式尤为重要。经过实践证明,对于内容信息量较大的,采用蜘蛛网图是一个比较合适的选择,蜘蛛图又称戴布拉图、雷达图,在财务报表中应用较多,将其引入到表征图书馆指数是考虑到其直观明了的视觉效果。在一个图表上展示包含多个维度的信息时,随着维度的增加,一般的图表将无法充分和直观的展现这些信息,而文字描述又过于干涩。引入特定的图表可以直观地表现机构运营者的意图。公众对于信息的表达倾向于简单明了的方式,一个表达方式即使设计再精妙,但难以理解,也不为公众所接受。

经调研,设计的戴布拉图设计指标有阅读量(I1)、阅读意识(I2)、阅读频率(I3)、阅读环境(I4)、阅读热度(I5)、社会投入(I6)、政府支持力度(I7)。指标的设立依据当下社会阅读的趋势和需求做出,新需求的出现会促进指标的更迭。指标的具体数值基于原始数据,综合地域人口环境,通过一定的算法得出。一般而言,以每个行政区域为绘图单位,多个行政区域形成多个戴布拉图。在同一个坐标系下,多个戴布拉图可以重叠放置,以颜色区分。以图3为例,蓝色、红色区域各指代南京某区的阅读指数中各指标值,数据简洁明了,主题性强,易于理解。在生活节奏飞快的当下,容易为公众所认可和接受。图书馆指数LI(library index),是将戴布拉图中的各个指标进行加权处理后生成的综合指数。表示为LI=∑In*Pn,其中In为各指标原始数据,Pn为各指标在指数体系中的权重比例。In和Pn是动态可调的,会根据社会需求的发展适时调整内容和权重,这也是一个逐步完善的过程。

图3 阅读指数

3 研究意义

“忠厚传家久,诗书继世长。”阅读可以启迪心智,可以传承文化,对个人和社会而言就是“开卷有益”,阅读能增强城市精神凝聚力,读书活动是精神领域的享受,对个人和社会的影响是全方位的。社会倡导全民阅读,着重于观念上的引导。醇厚书香徐徐而来,带来的是沉稳和优雅,祛除的是浮躁和粗俗,礼贤驱逐暴戾,理智占据主流。公众的价值观念悄然而变,书香社会渐成气候,最终将使城市成为一座因热爱读书而受人尊重的城市。

全民阅读调查提供的更多是直观的数据,一方面是信息量有限,另一方面对数值背后的信息未做进一步的解析。如果要研究区域的整体阅读详情,单靠阅读率、阅读量这样的指标,不具有科学的区分度,而引入图书馆指数就能把握整体,反映较全面的阅读状态,比如阅读意识、阅读热度、社会投入、政府支持力度、阅读环境等。

3.1 让图书馆指数成为图书馆营销的重要抓手

对于一个公益非盈利性质的公共文化服务机构,从信息传递角度出发,图书馆需要营销。图书馆的定位不能仅限于信息服务,还需要衍生与渗透,向着信息服务、参考咨询、政府参谋、立法决策方向发展,立足于专业,多维度渗透,所谓“一专多能”。营销的目的就是加强图书馆与读者之间的联系,让图书馆与读者之间能无障碍交流。

图书馆指数包含的丰富内容能够改变过去图书馆刻板的公众形象,以生动活泼的个性对外展示,能够成为图书馆营销的重要抓手。图书馆指数的发布,能够在互联网时代树立一块行业招牌,凸显个体形象,为公众所熟知,乃至成为社会关注的焦点。

3.2 让阅读指数成为社会的风向标,成为政策制定的参考依据

图书馆指数以量化的指标表征居民的阅读情况,以期提升全民阅读水平纳入到社会建设的统筹规划中,促进阅读活动,打造了良好的阅读氛围,促使人们养成崇尚阅读、自觉阅读的习惯。国务院政府工作报告中已经连续多次提出要建设书香社会,各级政府对于公共文化服务的投入持续加大、在提供高质量的阅读资源、改善公共图书馆环境等举措上持续发力,这将有助于提升本地居民的阅读水平,促进社会整体阅读氛围的形成。

国外图书馆行业在政府的决策领域发挥了重要的作用,甚至此项工作已成为工作一部分。可以将引入图书馆指数为契机,积极与各级人大、政协沟通交流,根据用户的个性化需求, 在公共图书馆的网站上建立决策信息服务平台,建立个性化的信息库,帮助决策机构利用好外部资源,了解和掌握社会舆情。大数据应用为政策制定提供科学依据。传统决策方式缺乏多来源、全方位的充分信息支撑,决策者决策前获取的信息是片面的、有选择性的,有了大数据支撑,决策的方式就可能改变。图书馆指数有利于主动评测政府在文化建设方面的实际成效,借居民阅读行为与认知调查之分析,表达出社会元素对阅读方式的影响,阐释来自图书馆的社会观点,通过连续性地监测与发布,清晰地呈现全民阅读的基本建设和阅读文化的发展轨迹。

猜你喜欢
指标图书馆服务
聚焦“五个一” 打通为侨服务渠道
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
图书馆
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
采掘服务个股表现
去图书馆
读者反馈 订阅服务
服务与咨询