大数据环境下图书馆数据来源与采集研究

2017-11-08 10:26孙慧
智能计算机与应用 2017年5期
关键词:数据采集数据分析数据挖掘

摘要:随着图书馆数字化、网络化的发展,数据挖掘及数据分析技术的层出不穷,通过对图书馆产生的大量的用户行为信息记录、资源信息和服务信息数据的分析和挖掘,为图书馆的发展提供了重要的依据,本文针对图书馆各种软件、系统及资源数据建设现状,总结了大数据环境下图书馆可以采集的数据,为大数据环境下图书馆数据分析与挖掘提供借鉴和参考。

关键词: 图书馆; 数据采集; 数据分析; 数据挖掘

中图分类号: G250; TP391

文献标志码: A

文章编号: 2095-2163(2017)05-0140-02

Abstract: With the development of library digital network, data mining and data analysis technology is endless. Through the analysis and mining of a large number of user behavior information records, resource information and service information data produced in the library,laying the important foundation for the development of the library, therefore aiming at the current situation of library software、system and resource data construction,this paper summarizes the data that the library could collect in the large data environment, which provides the reference for the analysis and excavation of the library data in the large data environment.

Keywords: library; data collection; data analysis; data mining

0引言

图书馆大量的数据是图书馆馆藏的最重要的组成部分,数据作为原始类的产品经过加工、整理和分析可转化为有意义的信息和知识。图书馆的数据是图书馆的珍贵典藏,这些数据信息真实地展示了图书馆的整个发展过程,同时也充分体现了图书馆的服务水平和发展方向。

本文主要针对大数据环境下图书馆的数据搜集途径进行了详细地阐述,数据来源主要为用户行为数据、图书馆建设数据及网络数据等,而用户行为记录则是其中颇具规模的应用组成内容。图书馆的首要设置功能就是资源和服务。具体来说,服务数据来源如表1所示,资源数据来源如表2所示。

1服务

1.1流通借阅

流通借阅是图书馆服务的根本,也是图书馆原始数据的直观展现。流通借阅系统后台数据中存放了图书馆大量的图书信息、用户信息、用户借书记录、还书记录、续借记录等一系列流通历史数据,可通过对历史数据分析研究得到用户借阅规律、用户借阅需求和阅读倾向。

1.2信息咨询服务

目前,图书馆的信息咨询服务主要分为面对面咨询、电话咨询、QQ咨询、平台咨询、微信咨询等,涉及范围大体上包括了业务咨询、意见反馈、下载行为等方面,这些咨询方式产生的咨询记录一定层面上展示了图书馆服务的不足,指明了服务的改进方向,为制定更好的决策提供帮助。

1.3图书馆门禁系统

门禁系统是一款已广泛应用于图书馆通道安全管理的软件,根据门禁系统形式不同分为密码门禁、刷卡门禁和生物识别门禁系统,也有许多高校使用混合验证方式(即指纹+密码+卡验证)来保障高级别的安全环境,无论哪种形式的门禁系统都可以详细记录图书馆的到访人员信息、到馆时间、在馆时长、离馆时间等。通过对图书馆门禁系统數据的搜集和统计,可以求得图书馆空间利用率,为改善图书馆服务积累更多的实施依据。

1.4图书馆座位管理系统

图书馆座位管理系统是用来管理图书馆座位空间的一款软件,可以保证图书馆座位空间的合理利用。用户可以利用该系统进行座位选择、续约座位、放弃座位等。可以通过搜集该系统中的用户信息、用户使用座位信息、使用时长等,进行图书馆座位空间使用率的分析,也可以与门禁系统、流通借阅系统数据相结合,有效展开各类专用数据分析。

1.5图书馆电子阅览室上机系统

图书馆电子阅览室上机系统是用来管理图书馆电子计算机合理利用的一款软件,用户可以使用该系统进行刷卡上机和刷卡下机。通过搜集该系统中的用户信息、用户使用计算机的时间及使用时长等,对图书馆电子计算机的使用率而建立推理演绎及分析,对馆内各个阅读空间内的计算机实现合理配置。

1.6图书馆网站

图书馆网站也是图书馆配设中的一种服务,图书馆网站展示功能通常包括图书馆基本概况、服务、资源、咨询、新闻更新、资源动态等,这些信息是图书馆功能的开放式设计属性。通过采集图书馆网站的新闻动态、资源动态、资源种类变化等动态信息可以发现图书馆一段时间内的资源更新规律,通过总结多个图书馆网站发布数据,并进行对比分析,可以为改进服务功能发挥至关重要的参考价值作用。

1.7图书馆微信公众平台

近年来,随着微信用户使用量的增加,图书馆微信公众平台已经发展成为图书馆中堪称现代高效的自媒体活动的宣传手段,通过微信公众平台发布消息快捷、方便、直接且涉及范围较广。微信公众平台的定制开发功能可以与图书馆其它系统和平台进行对接,方便用户使用。通过微信公众平台推送的新闻动态之后,用户可以对动态新闻信息进行反馈,这些反馈信息以及教师与学生在公众平台实现的咨询互动过程都可采集到大量的数据资源,因而成为现代化图书馆建设的又一重要数据来源。endprint

2资源

2.1数字图书馆

数字图书馆是图书馆现代化、智能化、网络化的必然选择,承载着各种文献(图书、资料、文献、杂志)、各种印刷型文本(含古籍、珍本、善本)、地图、缩微资料、视听资料等的数字化内容。用户通过平台进行检索、浏览和下载文献,通过长时间浏览量、检索次数以及下载次数的汇总分析,可以对资源的使用情况进行统计,作为评价资源的重要标准。

2.2图书馆远程访问系统

图书馆远程访问系统是一种针对使用者由于受到IP的限制而无法访问内部资源的一种解决方案,用户可以通过远程访问系统随时随地地联入资源的访问,系统可以记载资源的信息、资源的使用量和下载量,还可以通过系统提交意见反馈,同2.4节结合来评估数字资源,并记录反馈结果。

2.3文献传递

文献传递是将用户所需的文献复制品以有效的方式和合理的费用,直接或间接传递给用户的一种非返还式的文献提供服务,国内5个比较重要的文献传递服务系统:CASHL、CALIS、NSTL、LCAS和中国国家图书馆基本上能够满足国内各高校及研究院所的文献需求,提高对文献传递信息的处理能力,可以主动掌握读者文献信息需求变化,从而利于生成有效的资源整合机制,构建知识资源导航体系。

2.4汇文系统

汇文系统中除了1.1节中的流通借还功能,还有图书加工、到书分类统计、采访经费统计、各类图书比例是否合理等功能,充分利用系统中的数据的分析可以更好地推进采访工作,改善采购服务,提高工作效率。

3数据采集

3.1系统数据

综上论述可知,图书馆大部分数据都存储在图书馆管理系统的数据库中,涉及到的数据种类也比较多,如:MySql、SqlServer、Oracle等。若要使用这些数据,就需将有用的数据信息导出到一个固定格式文件或导入到一个统一的数据库中,经过字段格式处理,将多个数据库中的数据结合起来,再去除冗余数据,经过清洗、加工等转换成可以送入数据分析与挖掘处理的数据源。

3.2网络数据

由于网络数据量迹近庞大,如果不利用一些工具和程序将无法及时捕捉到有用信息,时下常用的网页信息采集器有八爪鱼采集器、火车采集器等,而且还可依据需要采集的网络数据的特点自行定制开发爬虫软件。

3.3数字化信息

图书馆在信息化建设之前,存留了很多纸质数据,如咨询单、文献传递单等等,这些数据未经整理,需要通过一定的数字化手段把这些纸质数据转换成可以长久保存且有助于数字分析和挖掘的电子数据。

4结束语

图书馆大数据研究是一类复杂课题,图书馆数据的采集、存储及标准化也是一项繁琐艱巨的技术任务,随着图书馆数字化发展性能的综合推进,可以采集数据的渠道会越来越多,图书馆需要明确全面需求,明确服务方向,正确处理各种结构化与非结构化数据,从数据开始,创建图书馆服务发展的新进程。

段春乐.大数据技术在图书馆中的应用[J]. 黑龙江科技信息,2015(18):192-193.

[2] 杜璟.大数据时代的文献传递服务[J]. 图书馆学刊,2014(1):75-77.

[3] 白文秀,孙慧,张桂杰.数据挖掘技术在图书馆远程访问系统中的应用研究[J].吉林师范大学学报(自然科学版),2015(4): 149-152.

[4] 陈传夫,钱鸥,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作,2014,58(7): 40-45.

[5]王春华,李维,文庭孝.我国图书情报领域大数据研究热点分析[J].图书情报知识,2015 (4):82-89.

[6] 陈廉芳.大数据环境下图书馆用户小数据的采集、分析与应用[J].国家图书馆学刊,2016 (3):69-74.

[7] 嵇婷,吴政.公共文化服务大数据的来源、采集与分析研究[J]. 图书馆建设,2015 (11):21-24.endprint

猜你喜欢
数据采集数据分析数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于开源系统的综合业务数据采集系统的开发研究
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书