大数据技术在图书管理与服务中价值与应用

2023-03-01 17:32焦文锐

中国民族博览 2023年22期

焦文锐

【摘要】大数据是一种海量数据集合，也是一种思维方式，大数据技术在图书管理与服务中呈现突出价值。因此，简单介绍了大数据技术，论述了大数据技术在图书管理与服务中的价值，探究了图书管理与服务现状，并从升级存量图书差错管理体系、联通线上线下服务平台、更新图书存储方式几个方面，提出了几点大数据技术的应用措施，希望为图书管理与服务中大数据技术优势的充分发挥提供一些参考。

【关键词】大数据技术；图书管理与服务；MySQL

【中图分类号】G250.7 【文献标识码】A 【文章编号】1007—4198（2023）22—247—03

引言

大数据时代，图书管理行业发展形势愈发严峻，越来越多图书管理者参与到图书管理服务方法变革中，初步构成了互联网+图书管理体系。在互联网+图书管理体系中，大数据技术呈现出突出优势，利用大数据技术分析图书管理全流程，可以有效提高图书管理效率，满足图书管理服务质量升级要求。因此，探究大数据技术在图书管理与服务中的应用具有非常突出的现实意义。

一、大数据技术

大数据是指在一定时间范围内借助常见计算机软件工具捕捉、处理、管控的数据集合，以及整体数据科学分析、处理的结果[1]。大数据总体呈现出有价值、高速、海量、多样的特点，大数据技术则是瞬间完成海量多样大数据处理的技术。在数据处理的不同阶段，适用的大数据技术也具有一定差异。在大数据基础阶段，适用的大数据技术为Linux、MySQL、Oracle、Docker等；在大数据处理阶段，适用的大数据技术为zookeeper、Flume分布式、Kafka等；在大数据存储阶段，常用的大数据技术为hive、hbase、sqoop等。

二、大数据技术在图书管理与服务中的价值

（一）提高图书收集效率

大数据技术支持下，图书管理从业者可以聚焦纸质文献、数字资料库处理，全面利用现有技术整合图书信息，实现在短时间内收集海量图书信息。较之传统图书收集方式，大数据技术支持下的图书信息收集覆盖范围更广，包括移动终端、手机、电脑、线下图书馆、手提电脑、其他设备等，且可有效压缩源自家庭端、公司端、学校端及其他用户的信息处理时长。

（二）提高图书存储能力

大数据时代，非结构数据继续增长，成为图书存储至关重要的部分，对图书管理提出了较大的挑战。应用大数据技术，可以“事务”为中心，在关系型数据库的基础上重构关系数据，满足带有异质构造性质的非结构数据存储要求，提高图书存储能力。以kafka为例，kafka集群每日可承载10亿+请求数据，高峰期可支撑超160T存储需求。

（二）优化图书服务质量

大数据支持下，图书服务者可以搭建图书资料检索平台，并引入数据库统一建设标准，分类别界定图书信息资源范圍，满足读者一键检索图书信息需求。同时借助大数据技术，图书服务者可以挖掘近期读者阅读倾向，有针对性地调整图书服务方案，为读者提供精准度更高的图书推荐，优化图书服务质量。

三、图书管理与服务现状

（一）存量图书差错管理不当

当前多数存量图书差错管理仍然为手动操作模式，管理效率仍然具有较大的提升空间。加之图书动态调整速度较慢，图书数据遗漏、错误上报等现象不时出现，无法满足读者对图书借阅需求。而在存量图书差错出现后，存在差错多头处理、多环节各自为战问题，不仅加剧工作者负担，而且无法保证图书差错管理效率。

（二）图书管理服务平台狭窄

当前图书管理者对读者阅读需求了解不够充分，无法明确读者多维需求，也无法根据读者个性化需求提供针对性服务[2]。具体到现实服务中，虽然部分图书管理机构出于提高管理和借阅效率需要引入计算机管理模式，为读者提供预约、挂失、综合查询等服务，但是读者仍然需要先办理借阅证方可借阅图书资料，不利于图书管理与服务全流程的改进。

（三）图书存储管理方式待提升

计算能力强弱是图书存储管理效率的关键因素，直接影响着图书资源存储管理领域的变化，也在一定程度上影响着图书管理质量。当前图书存储端无法满足读者及时查看多类别图书存储情况的要求，存储服务引擎亟待更新。具体到图书存储端运行环节，存储方式较为传统，未充分利用云端数据，无法满足用户关于图书非结构性数据的浏览利用要求。

四、大数据技术在图书管理与服务中的应用措施

（一）升级存量图书差错管理体系

排除存量图书差错是图书管理者无法推卸的责任。常见的存量图书差错排查方式主要为随书附带勘误表、退换货、发表勘误声明等，无法有效解决巨量质量合格图书差错。基于此，可以借助大数据技术，沿着自动化控制流程有机结合读者、图书管理者、行业专家等力量，打造以读者发现差错为先导、以专家鉴定并处理差错为主体，图书管理者纠正差错的体系，促进图书管理服务的健康发展[3]。

根据图书存量差错处理工作量繁重的特点，结合区域情况，协调创建图书存量差错勘误联盟，将全部图书管理主体资源联合，共同排查图书存量差错，分享排查成果，提高排查效率。同时根据图书种类繁多特点，邀请相关领域专家学者成立存量图书差错鉴定委员会，规避类似差错问题的重复出现。在这个基础上，根据图书存量差错排查耗时长的特点，建立健全图书存量差错勘误大数据平台，依据自动化管理思路，压缩图书存量差错排查、鉴定、上报、纠正、入库、通知等环节，提高管理工作效率。具体到大数据平台运行中，先依托平台实时收集不同地区读者或图书管理者上报图书存量差错信息，再根据专业类别划分情况将差错转发给对应行业专业鉴定成员，由行业专业人士认定、处理差错，处理完毕后将结果添加到图书存量差错处理大数据平台，并提醒上报者。在这个基础上，开放图书存量差错勘误大数据平台、图书管理端，实现图书存量差错勘查信息的自动化推送，便于图书管理者随时掌握馆藏图书存量差错信息，及时更新图书存量差错勘查表格，为读者提供更加良好的阅读体验。

（二）联通线上线下服务平台

在大数据支持下的图书服务工作中，线上线下服务平台的整合迎来契机。服务者可以根据读者在生活各方面高度依赖互联网的特点，借助大数据技术，打造大规模全民知识交流平台。依托知识交流平台，以书籍知识为交流主题，建设维护线上平台，并引导读者积极开展线下信息交互，稳步提升读者体验感[4]。如根据京东大数据研究院提供的数据显示，2020年一季度销售同比增幅最大的图书是《华夏万卷硬笔法练习字帖五本套装》，“书法类”图书交易额大增，反映读者在特定时期的阅读倾向。基于此，图书管理者就可以为读者提供书法类图书推荐服务，提高读者体验感。

以基于Kafka、Hbase的图书服务为例，首先，评估afka集群，评估数据源于用户信息利用行为，包括用户图书借阅行为（文献借阅历史记录、文献传递平台记录）、用户信息获取行为（OPAC联机公共检索历史记录、Lib图书馆平台交互记录）、用户电子资源利用行为（发明专利、科技成果）等。其次，转换数据并导入ETL清洗，结合抽取需求信息，评估kafka Mysql hadoop集群对应图书资料存储硬件数量、图书资料存储载体以及馆藏。再次，打造用户需求数据集市或成果信息库，结合提取摘录以及标引著录，评估馆藏图书资料管理压力以及网络需求。同时以“依据Rowkey查询最快”为核心，面对Rowkey开展范围查询range，完成多个字段组成的前缀匹配。最后，依据图书线上线下服务需求进行HBase的表设计。根据图书服务对象实时查询图书信息的要求，从HBase内提取的信息是用户利用频率较高且可展示用户图书使用智慧的数据，并进行固定类型对象服务需求的查询。在固定类型对象服务需求查询时，需要以“books+time”为查询依据，使用filter columnfilter索引表/辅助表功能，即：图书编号_时间，列簇为info，列为rowkey，获得最快用户服务数据。比如，以学科用户为对象，借助社会网络分析+引文分析+知识图谱可视化挖掘方式，立体式全景分析学科成果。同时为实现主服务表和用户服务需求索引表的同步，以“程序，事物”為核心，基于Hbase设置标准SQL格式的JDBC（Java DataBase Connectivity，java数据库连接）查询，此时，用户服务需求索引表为“solr lilY cloudera search”。进而借助关联规则+聚类+WEB挖掘方式，探明学科用户需求热点以及学科用户之间内在需求（含现实需求、潜在需求、趋势需求）关联，了解学科发展脉络。

（三）更新图书存储方式

大数据技术支持下，图书管理者应进行图书资料存储方式的更新，兼顾文字性图书资料与视频影音资源，便于读者查找、应用[5]。非结构数据存储是大数据时代图书存储的首要难题，为破解这一难题，可依托信息工程技术领域，构建与非结构数据性质相近且兼容的非关系型数据库，但因现有数据存储技术不够成熟，建构的非关系型数据库无法解决全部数据存储问题。加之非结构性数据并非真正意义上的知识，不可直接应用，若不加以整理直接存储非结构数据，背离了图书管理基本职责——提供知识服务。此时，可以借助大数据技术开展专业化数据处理，经勾连、转换等操作，实现半结构数据、非结构数据向结构型数据的转换，最终实现与关系型数据库的同质化。

根据图书存储资源对利用率的要求，需要有针对性地采集、提取、挖掘契合读者需求的数据，有选择地存储图书非结构性数据，如书籍类别（种类编号、种类名称）、读者（读者性别、读者借书证编号、登记时期）、借阅（借书证编号、读者借书时间、书籍编号）、书籍（书籍类别、书籍名称、书籍作者、出版日期、书籍编号、出借日期、是否被借出）等。进而将图书中特定非结构性数据进行知识形态化处理，便于读者快捷运用。以书籍类别信息为例，可以在数据字典中进行形态化处理，具体见表1。

表1中，书籍类别关系中种类编号为主键，因书籍类别关系内部存在非主流性对码的局部函数依赖、传递函数依赖，所以函数依赖表现为：书籍种类编号→书籍种类名称。以hbase的图书存储为例，hbase适合简单的图书存储操作。对于大型图书文件，为避免HBase发生compact或split引发频繁耗时，图书管理者可以将大文件分片存储到HBase，或者将大文件存储到HDFS内，后者更为简单有效、廉价，支持海量用户远程访问无层次结构的数据存储端，包括图片、视频、文件等非结构化图书数据。此时，图书数据作为独立目标存储到大容器Bucket内，需要通过唯一地址进行独立图书数据对象的识别，满足大数据时代海量图书数据的高性能存储，可用性较高，且可扩展。

在具体操作中，图书管理者可以依据“Cloud Computing”的分布式共享思维，向数据库端输入数据并执行访问、修改、提取、反馈、存储服务，无限扩展图书存储容量。在这个基础上，科学划分图书数据、知识资源、信息类别，根据知识产权、信息安全程度与技术标准进行全部非结构信息类别划分，分类存储，比如，基于MySQL数据库的书籍类别存储为“create table book_style （bookstyleno varchar（30）primary key，bookstyle varchar（30））”。随后初始化数据，将已有图书加入system_books表内，进行非关键图书数据的外挂存储，破解海量图书存储难题。

五、结语

综上所述，书籍是人类学习知识的重要载体，图书管理是书籍资源应用的重要方式。在大数据时代，人们获取书籍的方式发生着巨大变化，对图书管理与服务提出了更高的要求。因此，面对海量图书资源，图书管理者应在现代化图书管理技术应用的基础上，引入大数据技术，借助大数据技术管理存量图书、处理新旧图书，提高图书资源管理效率。同时借助大数据技术挖掘读者需求，有针对性地改善图书服务方案，获得竞争优势。

参考文献：

[1]李会敏.大数据背景下图书出版面临的机遇与挑战[J].才智，2022（17）.

[2]李瑞君.大数据时代高校图书管理工作的思考与探索[J].教育信息化论坛，2022（11）.

[3]吕雪峰.借助大数据技术处理图书存量差错[J].北京印刷学院学报，2021（8）.

[4]胡海波.学校图书管理信息化建设探讨[J].黑龙江档案，2023（1）.

[5]李继萍.用大数据提高高校图书管理水平[J].文化产业，2021（15）.