大数据理念与图书馆大数据

2014-07-09 01:26李恬

新世纪图书馆 2014年6期

李恬

1 大数据和大数据理念

1.1 数据到大数据的演变

其实，数据的存在由来已久，人类自从诞生以来就在源源不断地创造着数据，各行各业的发展都离不开对数据的处理，当数据量增长到一定程度就形成了海量数据（达到TB级别的数据），但一般认为海量数据还不足以称作“大数据”[1]。在飞速发展的数字信息环境中，数据成本的下降促使数据量急剧增长至PB级别（1024TB）甚至更多，根据IDC作出的估测，预计到2020年，全球将总共拥有35亿GB的数据量[2]；数据类型除了结构化数据外，还有半结构化数据和非结构化数据，而且有调查发现，85%的数据属于广泛存在于社交网络、物联网、电子商务之中的非结构化数据，这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术应用的不断涌现[3]。

事实上，在“大数据”这个概念产生以前，一些商家就已经发现了大规模数据的价值。早在20世纪70年代末，沃尔玛公司就开始通过挖掘数据来改善自己的供应链，陆续采用了条形码扫描系统和公司内部卫星系统，使得总分部之间可以实现实时、双向的数据和声音传输，在此基础上于2007年建立了一个超大的数据中心，其存储能力高达4PB以上[3]。通过对数据中心内消费者的购物行为等非结构化数据进行分析，沃尔玛成为了最了解顾客购物习惯的零售商，并创造了“啤酒与尿布”的经典商业案例[4]。同样，在医疗、交通、电信、城市管理等其他领域，移动终端、社交网络的全民化应用以及信息化程度的提高，也使数据有了巨大的应用空间。也就是说，大数据是伴随着信息技术和数字信息环境的发展，信息量呈指数级增长、数据类型及数据结构的日趋复杂化的情况下产生的。

对于大数据的定义目前还没有明确的界定，得到公认的是大数据的“4V”特性，即容量（Volume）、速度（Velocity）、价值（Value）和类型（Variety）。其中容量（Volume）指收集和分析的数据量巨大；速度（velocity）指数据处理速度要足够快；价值（Value）指数据中蕴含着潜在的价值转化；类型（variety）指数据类型多样复杂。所以，有人总结大数据是“海量数据＋复杂类型”的数据，包括分析、带宽、内容三个要素，其核心因素是蕴含价值[5]。

1.2 大数据理念

大数据的广泛存在已经得到从企业界与政府层面越来越多的重视，人们看到了其中隐藏的价值和非同寻常的机会，但大数据只有在数据、技术、思维三个条件同时具备时才会发挥它的价值。谷歌的首席经济学家哈尔·范里安（Hal Varian）说“数据非常之多而且具有战略重要性，但真正缺少的是从数据中提取价值的能力”[6]，这种能力除了技术能力外，也包括运用大数据的思维能力，随着计算机业的发展，技术上的困难终将被克服，大数据能否发挥作用，最终取决于分析数据的思维能力。而且，大数据概念的出现本身就给人们提供了一个思维方式，即可以从很多看似平常的数据或资源中挖掘有用的信息，通过对海量数据的分析，获得更多有价值的产品和服务。从这个意义上说，大数据不仅是一种资源，更是一种理念，其最大的价值不是数据本身，而是通过对数据的分析来改善和提高工作质量和水平，这就是大数据理念，其具体内涵有以下几方面。

（1）从数据的视角分析问题。大数据是复杂类型的数据，这里的复杂可以是结构上的，也可以是形式上的，包括结构化、半结构化和非结构化的数字、文字、图片、声音、影像等一切存在形式都可以作为数据进行分析和研究。如谷歌对翻译功能的改进，就是将互联网上的语言视为能够判别可能性的数据，而不是语言本身，甚至它所发布的上万亿语料库囊括了互联网上的很多废弃内容和错误的数据，依此推算出英语词汇搭配在一起的可能性。

（2）重视数据整体。一般认为只有当数据规模达到一定程度才算得上大数据，但有些情况下，小规模的数据也能帮助人们发现问题和解决问题，那么它便也具备了大数据的意义。其实，这里的“大”只是相对意义上的，它更强调数据的整体，而非部分或样本。尽可能多地掌握所有数据，这是大数据与一般数据的区别之一，只是数据规模越大，越有可能准确地考察细节和全面地分析问题。

（3）从数据中寻找关联关系。即从大量的数据流中发现异常，通过寻找数据之间、数据与其他事物的关联关系发现事物发展的规律和预测趋势。大数据的核心就是“建立在相关关系分析法基础上的预测”[7]，亚马逊的个性化推荐系统就是通过分析大量的用户浏览记录和购买记录的关联关系，预测用户的需求和兴趣点，从而有针对性地推荐相关产品。

2 大数据理念下的图书馆“大数据”

图书馆在长期的工作中积累了大量数据，虽然在规模和数据处理速度上远未达到大数据的标准，但在图书馆变革和向知识服务转型的实践中仍有很高的利用价值，它们就是图书馆的“大数据”。运用大数据理念，我们有必要充分挖掘图书馆“大数据”的价值来拓展工作和服务方向。

2.1 馆藏知识数据——文献信息服务到知识服务

图书馆最大的优势就是拥有大量包括纸质资源、电子资源、网络资源、图片、音频、视频等各种内容和载体形式的馆藏资源，这是图书馆开展服务工作的基础。但根据帕累托定律，用户主动获取的、利用率较高的资源主要集中于20%的馆藏资源上，即图书馆的大部分馆藏资源没有物尽其用，而且随着人们获取知识的方式和途径日益网络化，越来越多的图书馆资源处于闲置状态。产生这个问题的根源是传统的图书馆服务是被动式的文献提供，而人们需要的是能快速高效地获取具体的知识，现代图书馆应该更多地侧重于发展“在复杂创新需求下的知识组织、知识集成、知识融汇、知识发现、知识创造”[8]的知识服务。毫无疑问，知识正是图书馆的主体资源，用大数据思维看，图书馆的馆藏实质是知识数据的集合。相对于零散、无序的网络资源，图书馆馆藏资源已经通过科学的方法和特定的标识符（分类号、主题词）进行了初步的整序，形成了一个个有序的知识块，但知识服务不仅是对知识存储的整序，更是基于知识内容的融合分析与归纳，即通过分析各种知识因子及相互之间隐含的关联关系，从中找出与用户需求相匹配的知识。因此，开展知识服务的关键环节是从馆藏知识数据集中寻找关联，揭示规律或发现新知识。但目前知识服务仍限于口号，缺乏实质性的转变，除了图书馆在认识上对知识服务缺乏理解外，在实践中也没有从“大”图书馆资源观和数据的角度对馆藏资源进行分析和处理，这使得知识挖掘与整合的力度远远不够。随着信息技术的发展，包括电子图书、电子期刊、数据库、音视频资源、网络资源在内的图书馆数字资源也在急速增长并占据了相当大的比例，这将为图书馆运用大数据技术和大数据理念进行知识挖掘提供了便利条件。

2.2 书目数据——开放、共享、关联

上世纪90年代初，美国就通过启动“完全、开放、无偿”的科学数据共享计划[9]鼓励民众把数据流动过程中和数据应用过程中的各种价值充分挖掘出来，既提高了科学数据的利用率，又为人们发挥才华创造了良好环境，并促进了整个社会的经济发展。

书目数据，作为图书馆界的科学数据，是海量的、高度规范的结构化数据，图书馆每年投入大量人力物力建设的这些数据却长期以来处于非常闭塞的环境中，未能充分发挥其潜在价值。2010年，大英图书馆宣布向研究人员和其他图书馆免费提供书目数据，让用户超越传统图书馆的局限开发和利用这一重要的国际资源[10]；2012年，哈佛大学图书馆也向公众开放了涵盖73所分馆的1200万书目记录，希望以此来促进世界范围书目数据的开放以及对新型应用性产品的研发，正如哈佛大学图书馆实验室的副主任David Weinberger所说“这就是书的大数据”[11]。书目数据不仅用于检索，还可以发挥更多的价值，如大英图书馆提供给知识产权办公室（IPO）的八百万条书目记录，用于1650年以来出版行业的动态研究，并从中揭示出反对知识产权立法进程的种种模式。

与此同时，书目数据的关联化研究则成为书目大数据的另一开发领域。书目数据的关联化是指“使用URI作为书目记录的名称，通过使用HTTP、URI，可以定位到书目记录，并且通过相关的URI链接发现更多的对象”[12]，包括书目记录的关联和书目数据的关联。前者是从一条书目记录链接到其他书目记录，在有相似或相关特征的书目或不同载体形态的资源之间建立关联；后者则首先将书目记录分解为书目数据（记录书目信息的最小独立单元，包括题名、责任者、主题词等），再将每一条书目数据作为独立资源建立URI链接，如责任者可链接到责任者个人信息、职业、其他著作、相关其他责任者。通过书目关联使用户不仅能更深入全面地了解馆藏，还能进行扩展查询和知识发现，实现多类型知识内容的整合和集成，也可从社会网络反向链接到图书馆馆藏信息，吸引更多的用户群，由此便会产生大量的书目关联数据，或者说书目关联的“大数据”。

以大数据理念处理书目数据，还可以促使我们进一步思考如何编制书目记录，以便于向关联数据转化，例如最早将书目数据发布成关联数据的瑞典联合目录（LIBRIS）所使用的词汇表就是包含了元数据、书目本体和简单知识组织系统的综合体，而并不局限于图书馆领域[13]。随着越来越多的图书馆开放书目数据和发布关联数据，书目大数据的开发利用存在着广阔的发展前景。

2.3 用户数据——以用户需求为导向

由于长期受“以文献资源为中心”的思想束缚，图书馆一直将工作重心放在自身建设与技术开发应用等方面，忽视了对用户需求的分析。知识服务是基于用户需求的服务，需要从用户类型、群体特征、年龄、职业等各方面对用户的需求状态、特点、信息心理、行为及信息利用过程和效果等展开研究，这样才能针对不同的用户提供相应的知识信息，取得最佳服务效果[14]。因此，用户资源已成为现代图书馆最重要的战略资源之一，对用户数据的管理和研究则成为图书馆提高服务水平的关键问题。

图书馆获取的用户数据有两种，一种是传统的问卷调查数据，一种是用户使用图书馆服务系统所产生的交互数据。前者是目前用户研究的主要途径，但这种方法存在一定的弊端，如效率低、样本数量有限，调查效果取决于调查问卷的设计是否合理、是否充分准确地表达了调查者的意图、调查结果又是否充分反映了用户意见、被调查者的态度是否真诚等各种因素，使调查结果存在误差或无法充分表达用户的真实想法和具体需求，事实上，用户有时很难准确地表达自身需求；而交互数据是用户在使用图书馆的过程中所产生的自然数据，包括读者信息、访问数据（访问时间、路径、相关链接）、借阅信息、咨询信息、检索数据、下载数据，甚至RFID射频数据等，它们是直观、客观、实时和动态变化的，能迅速反映出用户需求的变化趋势，关注和分析这些数据，可了解和揣摩用户的心理和习惯，并根据变化及时调整服务策略，快速满足读者需求。但在实际中，图书馆对这部分数据的利用还远远不够。

大数据理念就是利用全部数据，没有偏见地关注更多的细节，从不同的角度更细致入微地观察和研究数据的方方面面。图书馆可以从读者访问路径中了解读者的阅读倾向；根据读者常用的检索方式改进检索系统；从检索结果为“0”的数据中发现资源购买漏洞。大数据可以帮助人们从数据之间的关联关系中分析某一现象产生的原因，例如：为什么图书馆的利用率越来越低？通过数据则只需关注图书馆在资源供给和服务上出现了什么问题；当学科馆员因遭受冷遇对自己的价值产生怀疑时，可以通过图书馆网页上“学科馆员”的访问数据了解究竟有多少人关注学科馆员，从访问数据和咨询数据的对比中，分析用户是根本对学科馆员不感兴趣，还是对学科馆员的服务不满意。

很多时候，大数据正是把研究者的视角从表面延伸到真实的内核，更客观准确地洞察用户，不仅及时发现问题，还能发展受用户欢迎的新业务和新功能。

2.4 工作数据——利用数据提升工作效率

工作效率受工作理念、工作制度、工作模式、技术效率等多方面因素的影响，依赖于管理者在掌握现有工作数据的基础上对资源的合理调配。图书馆工作的自动化和数字化在技术上提高工作效率的同时，也产生了大量使管理者可以掌握工作人员及业务处理的相关数据。

（1）流通数据。包括读者到馆的时间、次数、到馆率、文献借阅率、借阅记录、流通率等，这些数据一方面能反映读者利用图书馆的情况，另一方面能客观反映读者阅读倾向、及时了解读者需求的变化和各类图书的供求状况。对流通数据的分析可作为图书采购和馆藏建设的依据，从而利用好购书经费，有效合理地补充藏书，有针对性地改善文献服务，开展文化阅读活动。

（2）采访数据。采访工作是图书馆资源建设的基础，其过程中产生的大量包括书商提供的书目数据、订购数据、入藏数据、到馆周期、到馆率、入藏利用率等采访数据，如果加以充分利用将在很大程度上影响着后来的采访工作，也是图书馆用户考察图书馆供货商（又称“书商”）的重要依据。可以说，采访数据是采访工作研究的着眼点，不仅能为图书馆的管理者和决策者提供经费预算的执行情况，评估采访计划及合理性，预测资源建设及经费支出发展趋势，还能了解各学科资源建设状况、不同载体文献占用资金的比例，从而制定图书馆资源建设发展方向和最佳采购方案，尽最大努力满足全校师生的学习、教学和科研需求。

（3）编目数据。除了指书目数据外，还包括编目工作相关数据，尤其当编目大量外包以后，对外包编目员的管理和书目数据的质量控制就成了编目工作的重点。外包编目员的个人信息、工作经历、业绩、流动更替等数据可帮助图书馆根据需要考察和选择合适的编目员；编目数据来源、审核记录、出错率、错误类型等数据能帮助领导者分析和评估外包工作的质量和效率，从而制定科学合理的人员管理和质量控制策略。

（4）咨询数据。互联网和通讯技术的发展使图书馆的参考咨询工作呈现出形式多样化的局面，FAQ、BBS、电子邮件咨询、IM咨询、社交网络（微博、博客）咨询等产生了大量非结构化的咨询记录，有的图书馆还开发了咨询管理信息系统[15]，通过记录和统计功能形成了结构化的咨询数据。无论是非结构化的咨询记录还是结构化的咨询数据，从大数据的视角去思考和分析，对研究用户、评估咨询质量和效果、开发咨询新业务等方面都大有裨益。

3 结语

图书馆变革的目标就是为了适应在信息量不断增长的情况下更好地满足人们获取有效信息和知识的需求。当人们抱怨信息过量，需要借助一些媒介从海量的信息中筛选出有用信息甚至直接获取知识时，正是图书馆发挥作用的时候，但服务水平仍亟待提升。毫无疑问，大数据为图书馆提供了新的视角，不仅更细致准确地洞察用户，而且能更深入地剖析业务工作，引导图书馆向更人性化、专业化的层面发展。即使目前还无法预测大数据在实际工作中将会产生何种具体效用，但其独特的魅力和理念将吸引研究者们进行更多的探索。

[1]樊伟红，李晨晖，张兴旺，等.图书馆需要怎样的“大数据”[J].图书馆杂志，2012（11）：63-68.

[2]云计算环境下大数据及其智能处理技术[EB/OL].[2013-07-12].http://wenku.baidu.com/view/b20357b065ce050876321384.htm l.

[3]大数据蓝海[EB/OL].[2013-07-12].http://content.businessvalue.com.cn/post/6687.htm l.

[4]啤酒与尿布[EB/OL].[2013-08-30].http：//baike.baidu.com/view/1978239.htm.

[5][英]维克托·迈尔-舍恩伯格，肯尼思·库克耶.大数据时代[M].盛杨燕，周涛，译.杭州：浙江人民出版社，2013：176，75.

[8]李麟，初景利.国外文献信息服务机构知识服务实践研究[J].图书情报工作，2012（15）：5-8.

[9]数据开放与国家振兴[J].科技成果纵横.2002（4）：4-15.

[10]大英图书馆宣布开放数据服务 [EB/OL].[2013-10-12].http：//www.nlc.gov.cn/newtsgj/gtqk/tyck/2010nzm l/120/120dt/201012/t20101202_23991.htm.

[11]Andrey Watters.Strata Week：Harvard Library releases big data for its books[EB/OL].[2013-07-24].http//strata.oreilly.com/2012/04/harvard-book-datacloudera-hadoop-splunk-ipo.htm l.

[12]张海玲.图书馆书目数据的关联数据化研究[J].图书馆论坛，2013（1）：120-125.

[13]杜敏.图书馆书目数据关联化浅议[J].科技信息，2013（6）：204.

[14]杜也力.知识服务模式与创新[M].北京：北京图书馆出版社，2005：96.

[15]宋洁，张敏.大学图书馆参考咨询服务数据的管理和利用实践[J].农业图书情报学刊，2011（6）：186-189.