公共图书馆大数据实证过程中的问题分析与对策

2017-03-06 00:04银晶
新世纪图书馆 2017年1期
关键词:公共图书馆大数据

银晶

摘 要 大数据的核心实际是一种数据思维,国内公共图书馆目前已做了一些利用大数据尝试。论文从单个城市公共图书馆到图书馆业内,以及图书馆与社会跨界三个维度的实证分析,反映出大数据运用时产生的各种问题,并给予建议和对策,同时也展望了图书馆未来大数据运用情况,以期对国内图书馆业内有所借鉴。

关键词 公共图书馆 大数据 数据思维

分类号 G250.76

DOI 10.16810/j.cnki.1672-514X.2017.01.012

Analysis and Countermeasures on the Empirical Process of Big Data in Public Library

Yin Jing

Abstract The core of big data is a data thinking. At present domestic public libraries have made some attempt of using big data. This paper analyzes the empirical process of big data from three dimensions, including public libraries in different cities, library industry, and library and social cross-borders. It reflects some problems of using big data, and gives the suggestions and countermeasures. Also it outlooks the future of big data in libraries, and hopes to give reference for domestic libraries.

Keywords Public library. Big data. Data thinking.

大數据时代要学会用数据说话,其核心就是要拥有数据思维[1]。作为服务行业的公共图书馆,数据的产生及收集是非常丰厚的,利用大数据思维,可以从更多维度来了解馆情,不仅可以了解馆内读者行为、资源使用情况,改进或调整管理决策、服务过程、技术手段以及宣传策略,提升图书馆服务质量和水平、提高资源利用率等;也可以在业内进行比较,帮助发现问题,了解所处行业位置和业务水平;还可以将数据与外部环境关联对比,在社会大环境中看清楚图书馆的服务价值、提升空间及发展方向。

1 图书馆对大数据的认识才刚刚开始

大数据目前虽然已经成为业界的话题,但在图书馆,大多数人认为它离我们还遥远,在实践中还没有认认真真地着手基础数据的挖掘工作,一些看似简单的、无用的、杂乱的数据还没有有效地应用于图书馆的各项工作中,图书馆对大数据的认识也才刚刚开始。

国内图书馆将一些业务服务数据向社会公布始于2013年,率先是由上海图书馆开始尝试。上海图书馆于2013年推出了“我的悦读2012”,即注册读者2012年的阅读账单,大获好评,其数据内容为上海图书馆的读者每人平均借阅书本册数、借阅量最大的读者借过多少册、借阅频率最高的书被多少名读者借过、上海市中心图书馆的规模等有趣的统计数据[2]。2015年,深圳图书馆对外公布了深图2014年大数据服务结果,包括到馆人次、服务读者量、文献外借册次、全年举办各类活动场次,微媒体粉丝、数字阅读服务量、年度检索热词、图书馆设施设备情况及场馆服务宣传等内容。同年,杭州图书馆则在其微信公众号增加了“阅读账单”功能,绑定读者帐号后,读者可了解自己在2014年的全年借阅量及排行、文献种类、持证时间等数据内容。2016年初,东莞图书馆、广州图书馆、佛山图书馆等也相继在媒体上公布本馆大数据服务内容。尽管众多的图书馆向社会陆续开展大数据服务,但笔者认为真正实施大数据分析的图书馆却少之又少。

2 图书馆数据源统计应用实证分析

大数据理论上需要全的数据,图书馆目前已有的数据并不少,特别是采用绩效管理模式的图书馆,数据源更是种类多样,这就需要对馆内部的数据进行梳理、分析,进行查漏补缺、合并重复数据,形成数据整合报表,一目了然,清晰明白,而一旦其中数据有异样可以准确发现问题环节,这样才具有参考决策意义。

2.1 案例一、流通文献书目数据

以流通文献为例,流通文献的统计在系统建设前期,已经设计了各种数据字段的数据表等,需要什么字段的内容,语句命令调用即可。基于东莞图书馆图书馆Interlib系统后台调用日志,采用SQL统计方法,对2014年1月1日—2014年12月31日图书馆借阅文献进行统计,并按照文献借阅数量排序,显示年文献借阅量达1万次以上数据统计结果,见表1。

(1)该热门文献借阅统计表需要与馆藏文献统计表等相关业务数据进行对比,对于文献馆藏比例调整、采购选择有了参考依据,馆藏文献统计表、预约文献统计表、续借文献统计表、热门检索文献统计表等此类数据的统计就需要纳入业务数据统计范畴中。

(2)该表分析有如下结果,成人读物与少儿读物类别比例对分,即1:1。成人阅读最热内容,除小说及家庭教育之外,个性心理学(人格心理学)、图形图像识别、人生观与人生哲学、证券市场也进入了热门借阅榜。儿童阅读最热内容,以图画故事书为主,各种童话、寓言、儿童笑话、谜语、神话其次,位居第三的美国图书故事书深受欢迎,随后是各科简易读物、对照读物、注释读物、幼儿读物、常识等等。

(3)对于此表的统计还发现文献编目数据应有更详细的制定规则。以I247.57为例,就有长篇小说、言情小说、中篇小说、三部曲(作品)、日记体小说、历史小说、短篇小说空值等35项分类说明,不仅增加了统计难度,而且统计出来的结果无法适用于实际工作。

2.2 案例二、监控数据的作用

以到馆人次为例,东莞图书馆2014年到馆人数为230万,其中参与用户培训人数占0.79%,参加讲座人数占1.4%,参观展览人数占18.9%,合计有21.09%的读者到馆是参加各种活动、讲座或培训。其中书刊文献外借人次占流通人次的38.17%,到馆使用文献资源,那么还有40.74%的到馆读者在做什么呢?自习、休闲、开架阅览是观察中得到的结论,并无数据支持,而这部分数据是可以通过已有的门禁系统、视频监控系统等进行数据统计。除了统计数量之外,监控数据时间分布趋势对安全管理措施制定有重要的参考意义。

以上仅以两个案例说明在图书馆内外部反映业务成效数据中需要厘清数据源,在对一种业务数据报表统计时要与关联数据表相互佐证,籍此来发现是否有遗漏的价值数据。业务数据不能是孤立的,单个报表只反映了客观事实的一部分,如安全管理的数据,门禁监控数据之外,还有能耗、资金投入、修缮等一系列方面的数据。

3 通过各类数据对比识别社会服务价值

图书馆的各种统计数据除馆内管理决策使用之外,还要有纵横比较,一个是与馆内相关数据进行对比印证客观事实;二是与业内同行纵向进行比较,来确认在业内的服务水平和业务能力等;三是跨界比较,可与服务地域的人口结构、教育水平、文化程度等进行跨界比较分析,从另一个角度来认识图书馆的服务效果。

3.1 馆内相关数据对比印证

东莞图书馆的用户数据统计分析结果中,读者平均年龄为32岁,男女比例基本持平,男性略占优势,学历数据统计结果显示,小学以上学历占32.83%,其中中学类占8.15%、大学占23.75%,研究生以上占1.3%;而填寫其它/空白,即无学历占67.13%,表明大部分读者学历不高或太高或无学历。与2014年文献借阅统计分析得出预估读者群体特征相一致。

3.2 与业内同行纵向比较

当单馆的业务数据与同行相比较的时候,数据差异会在一定程度上说明各馆的服务差异,但更多的则是数据本身有各种问题。以下案例中国内几个公共图书馆大数据结果来源均出自媒体报道或其工作年报,或直接采用,或根据其数据与相关数据进行演算后得出,没有数据则空白显示。

(1)主要读者群体年龄段。表2数据显示,各馆的主要年龄段分布在18-45岁之间。

(2)年流通人次及日均到馆人次。表3数值统计中包含了各馆分馆的数据,统计方式各馆都不同,东莞图书馆曾采用红外线计数器,但这种设备对于群体出入的数量无法精确记录,后更新换代成单人出入闸口,使得数据统计更为准确。

(3)年文献外借册次。表4中可以看到,上海图书馆的年文献外借册次惊人。其它馆的外借册次虽然相比而言并不多,却不能说明服务水平不高,因为数字阅读的服务已是现代图书馆文献服务的重要领域。

人均借阅册次=外借册次/持证读者数

数值=(未成年人6册次+成年人5册次)/2

(4)持证读者占城市常住人口比例。表5中的数值比例本意是想表达图书馆的社会价值和作用,然而读者证却是一言难尽的,有些城市图书馆的读者证与类似便民服务卡的城市管理服务相融合,使其服务卡也具备了读者证功能,比如社保卡,电子学生证或校园卡等,通常都归因于当地政府是否大力支持,具有典型的地域特征。而其它图书馆没有这样的强力支持力度,则会从读者证的有效性、活跃性等方面发出疑问。因此,如何确认读者证的真正价值,或者考虑用其它可以替代的数值项来表达图书馆对于本地社会的价值和作用。

各城市常住人口数值均取自各地《2014年X市国民经济与社会发展统计公报》,如《2014年广州市国民经济和社会发展统计公报》

(5)数字资源服务量。表6中各馆对于数字资源使用的统计方式,统计项等并不统一。数字资源的点击量如何统计、册次与篇次又有什么区别,如何计量?下载到本地还是缓存等都无定论。数字资源使用需要用什么样的指标来确认,各馆均有自己的看法。

(6)热门借阅文献。对于热门文献的界定,显然也不统一,各馆对于热门文献的分析角度也不同,比如上海图书馆对于不同年龄层进行了分析,青年人阅读经济类图书的比例远高于中老年读者,老年人阅读经典读物、人物传记图书的比例高于中青年读者。深圳图书馆书刊借阅部主任张桦介绍[9],工业技术类和经济类,这两大类正好与深圳重点发展高新技术产业、金融产业的城市发展方向相吻合,进一步细分之后,在工业技术类中,计算机软件类的书籍借阅量较大;在经济类中,金融理财和企业管理类的书籍比较受到读者的青睐。广州馆则给出了热门文献前十名的排行榜,只列出了具体书目文献信息,没有类别的统计分析。

综上所述,当馆内统计的数据与业内同行比较时,产生了各种问题,追究其原因,(1)没有数据统计的标准,特别是数字阅读使用量,而传统业务数据的已经不能客观反映业务真是情况。(2)大数据运用中,该统计什么样的数据项,如何对数据项进行有效分析。(3)大数据分析结果要对社会发生什么样的影响作用需要考虑,既要积极指引阅读的作用,也不能抹去存在的问题和困难。(4)数据公布是为了带动业内发展,促进交流,为本地读者提供更好的服务。

3.3 跨界比较

图书馆对社会的影响力到底有多大,或者说对于社会的价值贡献有多少,在大数据时代,各行各业都开始重视数据,单纯的数据没有了行业间的阻隔使得跨界比较成为了可能。以东莞图书馆用户分析数据与东莞市人口数据的比较为例。数据比较1:2014年末东莞市全市常住人口834.31万人,其中城镇常住人口740.95万人,户籍人口191.39万人。常住人口以外来务工人员为主,大部分学历为中学/中专以下,与该馆读者群体分析一致。数据比较2:东莞图书馆2014年总分馆到馆人次为713万,表明东莞图书馆总分馆为全市85%的常住人口提供了服务,去过身边的图书馆/基层公共电子阅览室。数据比较3:东莞图书馆图书馆2014年提供数字阅读服务量达到了1千万次以上,以当年的东莞市常住人口计算,人均约1.2次。上述比较反映了一个城市的图书馆对于本地社会的服务情况,侧面反映出它的社会影响力。

除以上对比之外,还可以与当地人口文化水平、学历水平、社会经济发展情况等各方面进行跨界对比,城市图书馆为本地市民提供服务的质量、数量更能准确反映该图书馆对于当地社会的价值、对市民及行业的影响力,以及对未来服务发展方向的了解等。

4 图书馆运用大数据的问题与对策

4.1 标准规范制定是大数据利用前提

4.1.1 规范原始数据类型,夯实数据统计的基础

经过数据整理会发现各种数据统计问题,规范原始数据非常必要,比如原始数据登记内容是否完整、数据类型分类数量酌情增减、数据源是否增加等。

4.1.2 数据统计方式要明确,便于数据采信利用

目前业内对于图书馆业务数据并无统一标准,而实际业务中发生的数据纷繁芜杂,以图书馆提供数字资源服务的数据库为例,统计数据项中的点击量、下载量、浏览量并无统一的标准解释,或者由图书馆根据自己的理解去统计,或者由数据库提供商提供资源使用的数据统计结果。这样的数据结果采信值较低,不利于反映出业务服务的真实情况。

4.1.3 亟待解决数据统计标准规范的制定

从采集渠道、采集种类、统计方式、统计结果呈现方式等进行规范。在标准制定过程中需要参照行业外部的相关数据统计标准规范,以便与之可以对接,具有可比较性等。

4.2 大数据的技术解决方案

4.2.1 技术改进,便于使用

大数据实际使用中不是必须重新研发技术平台,特别是目前图书馆业内不会花费高昂的成本进行,可以考虑在现有业务/服务系统后台中搭建小型的统计模块,对既有的数据进行随时统计,将大型数据统计分散到每月/周/日進行统计再汇总,而在很多图书馆的业务系统,特别是采用interlib系统的图书馆,数据表库中已经包含了较为完整的业务数据信息,只需要根据需求调用统计即可。

4.2.2 借力第三方

大数据统计不是必须由图书馆自己操作完成,可以借助第三方工具、网站、软件、科研机构等等,在可信的基础上,借力得出与自己有关的价值数据。中研院信息科学研究所研究员陈升玮[10]指出,在绝大多数情况下,大数据项目其实不需要建置Hadoop系统。就技术面来说,现在有许多业者开始提供成本较低的大数据处理工具和云端系统,有些甚至跟App一样,只要根据自身需求挑选需要购买的功能即可,例如科智提供的工业化数据管理工具即为一例。

4.3 构建数据管理机制

(1)图书馆的大数据运用定位需要明晰。大数据应用是为图书馆管理、资源、服务提供参考依据或数据支撑,它是一种方法、一种工具,不同层级的数据统计分析结果应对应不同层级的管理模式。从数据的产生源,数据结果用在哪里,让从管理层到一线员工能够清晰的了解他所负责的服务内容和业务目前的运营状况。

(2)建立数据驱动机制。当通过数据分析某个细分用户群时,发现用户群的活跃/降低规律时,基于用户的特征,就要针对此现象开展数据关联查询,发挥各个环节数据的价值以便形成具有个性化的服务方案。

(3)对于数据结果,还需要实践论证。比如根据流通文献数据统计结果进行对应的资源采购、服务推广,除了进行数据统计分析,还要与之前数据进行对比验证,不断完善和改进数据统计方法,提高数据准确率,提升数据利用价值。

(4)加强合作方数据管理。在数据统计过程中,有些数据,如数字资源在线使用的数据等,不是由图书馆统计或处理的,在处理数据安全、用户隐私、数据可信度以及数据使用等方面需要考虑。

4.4 生产数据产品

数据产品最大的价值在于辅助使用者优化决策,以及辅助决策价值的实现。因此图书馆大数据产生的数据产品需要注意两点,一是认清掌握的数据能给受众带来哪些有价值的服务。二是认清掌握的数据可以通过哪些合理的方法提供。

图书馆可以产生的数据产品包括用户行为数据产品、文献服务数据产品等大类产品,每类数据产品又可以细分成各具特色的数据产品,用户行为数据产品可以按不同时段的到馆人次、人口籍贯、文化程度、借阅次数等进行细分,而文献服务产品数据就更多,文献借阅册次、种类、出版社、作家、年份等,或者二次以上的文献再开发、不同主题资源整合、专题深度挖掘等数据产品。这些数据产品除了图书馆自身掌握和运用之外,还可以为当地政府提供管理服务参考;与文献/资源提供商对已有文献产品服务升级进行谈判的基础;为拓宽服务内容、服务方式、创新服务模式而引入社会团体,并与之对接开展合作的基础等等。

5 展望图书馆未来大数据运用

从图书馆业务管理角度出发,大数据的运用是图书馆大数据运用的初级阶段,当技术发展到更高层次时,图书馆真正的大数据运用是知识大数据,图书馆的服务也将从文献信息服务过渡到知识服务。苏新宁[11]认为以知识为导向的文献信息将进行深度开发,知识单元加工与重组,智能词表、自动分类词表的组织与共享都将成为未来图书馆的实践领域,馆藏文献数据资源将与社会资源整合,文献整合服务向综合信息资源服务发展,以往简单文献推荐信息指引将被知识单元数据集替代,真实而具体为读者答疑解惑等等。

从外部环境融合角度来看,大数据的运用是图书馆数据开放的运用。除了必要的保密数据(用户隐私数据等)之外,业务数据、馆藏数据、资源数据等都可开放出来。提供数据开放服务,包括开放技术平台,提供个性化阅读学习功能模块构建;提供大数据学习课件、软件支持工具、讨论专区;提供资源拆分、重组等软件工具、学习课件及讨论专区。

从用户角度来看,构建众包模式,鼓励万千读者创建个性化的阅读学习资源库,对资源进行拆分、重组、再生产,甚至按照自己喜欢的方式呈现。还可依照个人兴趣或阅读学习方式来创建如报纸、期刊、文档、视频等载体类型的读者个性化阅读学习资源。知识的再生产已不再是独属于图书馆或者馆员的专利,人人都是知识构建、分享者。采用众包模式,海量数字资源真正成为知识的宝藏,人人都可以通过自己的方式学习和发现更多更有价值的知识内容,图书馆真正成为知识的宝库。

从第三方合作角度来看,将数字阅读平台(PC端、移动端)的接口开放API(Application Programming Interface,应用程序编成接口),让第三方不仅可以访问网站内容,还可以对内容进行修改、整合和再创作,或者增加功能模块,或形成新的应用在第三方平台上向用户推送等[12]。合作的目的是采用正确的创意,采用正确的科技和媒体策略,集合各类能人以有效和高效的方式完成任务[13]。不仅第三方能以较少的成本、较高的成功几率来创业,图书馆服务内容也更加丰富、形式更加多样,获得更多的关注以及扩大社会影响力。

图书馆内外双向发展,大数据带给图书馆的将会是颠覆性的,业务、管理、服务、思维方式等等随之而变,而图书馆是否已做好应对了呢?对于图书馆来说这是最好的时代,也是最坏的时代。

参考文献:

[ 1 ] 吴明辉.忘掉你的大数据,数据思维才最重要![EB/OL].(2015-10-15)[2016-03-13].http://www.cbdio.com/BigData/2015-10/15/content_3972102.htm.

[ 2 ] 上海图书馆推出读者年度阅读“对账单”[EB/OL].(20

13-02-16)[2016-03-13].http://www.wenming.cn/book/pdjj/201302/t20130216_1070126.shtml.

[ 3 ] 東莞图书馆:十年书香漫莞邑[EB/OL].(2016-01-18)[2016-03-13].http://epaper.southcn.com/nfdaily/html/2016-01/18/content_7509723.htm.

[ 4 ] 上海图书馆持证读者增至310万,超半数年外借14册书[EB/OL].(2015-04-22)[2016-03-13].http://cul.jschina.com.cn/system/2015/04/22/024447365.shtml.

[ 5 ] 广州图书馆.2014年报:业务统计数据[Z].广州图书馆,2014.

[ 6 ] 图书馆大数据:年人均借书17册 深圳人都爱看些

啥?[EB/OL].( 2015-10-30 )[2016-03-13].http://www.sznews.com/news/content/2015-10/30/content_124201

90.htm.

[ 7 ] 佛山读者7年增14倍 最喜爱图书出炉[EB/OL].(20

15-04-23)[2016-03-13].http://www.citygf.com/FSNews/FS_002008/201504/t20150423_5641555.html.

[ 8 ] 去年广州图书馆入馆人数远超国家图书馆成全国第一[EB/OL].(2016-01-14)[2016-03-13].http://city.igdzc.

com/a/20160114/68850.html#0-tsina-1-12273-

397232819ff9a47a7b7e80a40613cfe1.

[ 9 ] 深圳人到图书馆都爱借阅些什么书?大数据告诉你![EB/OL].(2015-04-23)[2016-03-13].http://www.sznews.com/news/content/2015-04/23/content_114981

57.htm.

[10] 李欣宜:一次搞懂大数据,《数位時代》第251期[EB/OL].(2015-04-01)[2016-03-13].http://www.bnext.com.tw/article/view/id/35807.

[11] 苏新宁.大数据环境数字图书馆面临的挑战[EB/OL].(2015-06-10)[2016-03-13].http://www.lib.bnu.edu.cn/balis/2015/2.pdf.

[12] 周婷婷.大数据时代数据运用的理念与实践研究:以英国《卫报》为例[J].江汉学术,2015(1):123-128.

[13] 鲍勃·罗德,雷·维勒兹.大融合:互联网时代的商业模式[M].朱卫未,等译.北京:人民邮电出版社,2015:36.

猜你喜欢
公共图书馆大数据
纽约州公共图书馆服务体系政策研究
基于图书奖评选的公共图书馆采访创新研究
MOOC时代公共图书馆服务探索研究
公共图书馆延伸服务的实践与思考
谈公共图书馆如何建立自助服务推广长效机制
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索