大数据为图书馆发展带来的机遇与挑战

2016-12-26 15:00安友爱
现代商贸工业 2016年21期
关键词:机遇数据挖掘挑战

安友爱

摘要:大数据的高速发展对于图书馆的发展带来了前所未有的机遇与挑战,并对现有的数据分析模式造成了很大的冲击,如何顺应大数据浪潮,并借此对于图书馆的服务模式及数据挖掘技术进行更新,是值得每一个图书馆员思考的问题。

关键词:大数据;数据挖掘;机遇;挑战

中图分类号:F27

文献标识码:A

doi:10.19311/j.cnki.16723198.2016.21.032

而今,随着互联网、社交网的数据量不断增长,在大数据浪潮的冲击下,图书馆的IT应用也可借此加强数据建设,从而为图书馆知识服务创造更多的机遇,譬如构建业务建设的风险模型,或是对图书馆用户进行流失分析,甚至可以通过整合多维度大数据进行辅助决策。

1大数据的特性

1.1数量大

数据量已不仅仅局限于TB级,已然向着PB甚至更高级别的数据量迈进,呈指数型增长的数据量已无法用传统的数据处理方式进行分析存储。

1.2实时性

数据实时生成对数据分析模型提出了更高的要求,依赖于交互式、实时数据、建立实时的分析模型,通过分析挖掘数据背后深层次的需求增长或者对未来数据进行及时预测实时数据在大数据时代下意义显得尤为重要。

1.3多维度

大数据时代下,数据来源广泛而多样,不再仅仅局限于手工统计分析,而是可依据各类访问日志、检索记录、新闻媒体、影音视频以及社交软件等来源,具备结构化、半结构化甚至非结构化属性的数据,以及在多维度基础上获得一段时间内的数据形成的面板数据等。

1.4价值高

数据即是财富,也许单一的数据并无多大价值,但当庞大的数据将为我们提供更多更复杂的潜在信息,依据数据分析和挖掘技术,将会深入了解到数据背后的意义。

2大数据为图书馆带来的挑战

2.1存储能力及计算能力的挑战

随着大数据的飞速发展,数据来源增多,数据类型多样,数据采集技术的提高使得人们捕获数据能力也在稳步上升,各类结构化、非结构化的数据呈现出的复杂性吸引了众多研究者的目光,而大数据为基础的科学研究呈现出百花齐放的优良态势。有助于图书馆在此背景下向着新型知识服务的方向转变。而图书馆现有的数据储存技术以及数据分析技术显然难以跟上大数据发展的步伐。如何将分层分级存储架构的设计付诸实践以适应信息管理的需要,如何是数据不再受到现有计算能力能力约束,如何实现高通量计算机、高可靠性、高预测性等数据分析技术来对现有的大数据进行统计分析等问题,都是有待解决的难题。

2.2数据分析能力的挑战

大数据带给我们向着广度和深度发展的,已经突破了常规而传统的数据分析要求。大数据时代下的图书馆也需要通过数据分析了解知识服务的特点以及对未来的发展进行预测,从而应对可能发生的困境或机遇,因此,关联分析、趋势分析、神经网络分析、移动平均线分析等分析技术,可以为图书馆未来的发展创造一定的主动权。

2.3硬件设备的挑战

随着储存和计算规模的不断扩大,图书馆需要将高端服务器转换为中低端硬件构成的大规模计算机集群,从而支持非结构化的数据储存要求,同时需要有能够获取储存大规模数据的硬件并能够自动压缩、分层、删除重复数据等智能分析技术,并且有复制分块数据集到集群服务的网络设施以及具有保护性可保密性的软硬件基础设施。

2.4人员储备的挑战

对于现有的大多数图书馆员而言,大数据分析技术是一项全新的技术,他们并不具备相关的知识储备及分析能力,即便是具有一定的知识的图书馆员,可能有也缺乏实际应用的能力,难以将可挖掘的数据做持久化处理及深度分析。此外,随着图书馆数据量的增长,所能够真正分析使用的数据比例实际在降低,如果选择实用可靠的数据分析方法,提高可分析数据比例,真正将数据分析应用到知识服务的辅助决策中,是每一个图书馆员索要思考的问题。

3大数据为图书馆带来的机遇

3.1智能辅助

传统的信息检索模式依赖于用户所输入的检索词,通过检索功能将结果对用户进行反馈,而依赖于大数据的智能辅助功能则不仅仅只是被动的接收用户的检索要求,可以通过检索历史判断客户需求,从而主动推送相关信息给用户。通过对用户搜索行为数据的分析,发现客户的搜索习惯和搜索需求,并有针对性的进行推送,从而提高检索效率。

3.2用户流失及价值分析

随着硬件、软件局限性以及人员素质无法满足当前或未来的要求等问题约束了图书馆的发展,特别是在网络技术高速发展,信息量急速膨胀的今天,高校人员对于图书馆的存在价值进一步弱化,因此,如何能够通过利用大数据分析用户的需求、行为特点、使用习惯等来应对图书馆用户流失的现状,并且对于未来在交互知识服务中对于用户与图书馆使用方向发展态势进行预测,消除图书馆所面临的发展困境是值得每一位图书馆员研究的课题。

3.3引文分析及趋势分析

利用各类统计学的方法:如时间序列分析、相关分析、假设检验、聚类分析等方式,量化文献引用频率及行为,通过相互引证关系分析除了可以分析作者影响力或是文献重要性,还可分析学科之间的交互性以及信息来源分布特征,从而为各学科发展方向提供相应的规划依据。同时,图书馆作为文献集合的载体,可得到不同类型、不同信息要素之间相互引证的数据,从而为用户建立立体的引用分析,掌握全面的引证关系,即在广度上对于知识体系进行挖掘。此外,通过对于不同时间点的相同指标,可建立某些检索或引证的趋势曲线分析,便于用户了解检索的学术趋势或是学科的研究热点的历史变迁。从而发现不同学科、不同主题甚至不同机构的文献生长方向,在深度上挖掘相关的知识体系。

3.4知识服务及业务建设的风险模型构建

通过数据挖掘技术可构建图书馆信息安全风险评估模型,信息资源利用率评估模型、图书采购及使用率评估模型、知识产权风险评估模型等具有分析、决策等功能的数学模型来协助我们对于相关知识服务及业务建设的关键因素进行深入研究,同时可依据二八原则:即80%的效益由20%的关键因素决定,从而能够达到抓主要因素,促进图书馆有效发展的作用。

3.5知识挖掘及情报分析

通过引入先进的分析技术:如数据挖掘、索引规则等手段来对于各类文献数据进行深入分析,了解各类文献间的错综复杂的关系,揭示信息资源关联立体的知识体系,挖掘客户潜在的知识需求,从而提供精准的发现服务。此外,利用结构化和非结构化的数据,实现自动化、智能化的分析技术,获取动态化、知识化的情报,通过人机交互的方式及可视化的技术,帮助用户在一定的技术环境中查看分析结果,了解信息资源潜在的发展规律。

参考文献

[1]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013,(4):5254.

[2]朱静微,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,33(5):1013.

[3]高瑾.大数据与图书馆建设[J].农业图书情报学刊,2015,(1).

猜你喜欢
机遇数据挖掘挑战
RCEP与房地产机遇
再见,机遇号
不必过于悲观,四大机遇就在眼前
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
第52Q 迈向新挑战
基于GPGPU的离散数据挖掘研究