基于个性化服务需求的图书馆大数据分析平台构建研究

2014-10-10 05:40马晓亭
新世纪图书馆 2014年6期
关键词:个性化图书馆资源

马晓亭

据美国麦肯锡全球研究院2011年6月发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告分析,“大数据已成为与物质资产和人力资本相提并论的重要生产要素,大数据的使用将成为未来提高竞争力的关键要素”。随着大数据时代的到来,图书馆用户服务保障能力建设重点已从以提高数据中心基础设施结构科学性和运营效率为中心,向以满足读者需求为核心的用户个性化服务转变。图书馆有效采集、存储和管理数据中心的系统运营与监控数据,用户服务与业务管理数据,图书馆与客户关系数据,以及读者的个性化服务需求、阅读模式、阅读活动和情感、阅读社会关系等数据,并对海量数据进行科学的分析、评价和决策,是关系图书馆全面、系统和深入了解用户需求,并将运营与服务决策方式由传统的管理层主观经验式决策,向依靠大数据的科学、定量化决策方式转变的重要保证。图书馆只有坚持以用户需求为中心构建大数据分析平台,并采用科学的分析与管理策略,才能保证图书馆管理与用户服务决策内容全面、准确、连续和可评估[1]。

1 图书馆大数据的环境特征、存在问题与分析需求

1.1 大数据时代图书馆数据结构的特征分类

大数据时代,图书馆数据主要由结构化数据、半结构化数据和非结构化数据组成。结构化数据主要是指关系模型数据,即以关系型数据库表形式管理的数据,主要由图书馆数据中心系统管理数据、监控数据和部分符合关系模型数据特征的服务数据组成。半结构化数据主要指那些非关系模型的、有基本固定结构模式的数据,包括图书馆应用日志文件、XML文档、JSON文档和电子邮件等。非结构化数据主要指除去结构化和半结构化数据以外的数据。此类数据没有固定的结构模式,主要由WORD、PDF、PPT、EXL文档及各种格式的图片和视频等服务、监控数据组成。在图书馆的大数据资源中,非结构化数据约占据数据总量的80%以上,并以成倍的速度快速增长,大幅度增加了大数据系统的结构复杂度,以及数据采集、存储、处理、分析过程的难度与成本,严重影响了图书馆对用户个性化服务进行大数据分析与决策的科学性、准确性、可用性和可控性[2]。

1.2 图书馆的大数据分析环境十分复杂

大数据时代,图书馆通过数据中心系统监测设备、阅读传感器信息接收、射频ID数据采集、移动阅读终端识别、用户阅读行为和数据流监控等方式,获取关于用户服务过程和读者阅读行为的数据。

首先,图书馆数据中心的运营数据和庞大读者群阅读行为数据,具有海量、复杂、随机、低价值密度和不可预测的特性,大幅度增加了数据的采集、存储和标准化难度。其次,图书馆的大数据资源通常从多个用户对象和数据源采集,数据类型包括图像、文本、声音、视频等多种格式。同时,数据内容涉及读者的阅读模式、阅读关系、阅读爱好、地理位置和时间等信息,具有多源异构的特性。第三,图书馆所采集的数据中心系统和读者行为数据,具有即时、海量的特点。要求大数据分析系统可通过在线实时分析过程,为用户个性化服务提供快速的决策支持,满足用户个性化阅读活动的实时性需求。第四,对杂乱无章的大数据资源进行深度挖掘和价值提取,并准确发现关系,是提高图书馆服务有效性和用户满意度的深层次知识,是建设智慧图书馆和为读者提供智慧服务的关键。

1.3 大数据分析的个性化服务需求

图书馆通过对系统管理与运营、用户服务和读者行为数据的分析,才能获取大量有深度和有价值的信息。此外,利用大数据的支持可提高图书馆服务系统的管理和运营效率,保证读者个性化阅读服务过程安全、高效、满意。

首先,图书馆在管理、运营和服务过程中,不同的应用项目对大数据分析过程的数据处理性能、数据量、运算速度、精确性、实时性和多样性要求不同。因此,在大数据分析过程中应结合不同分析对象、过程的特点,采用恰当的大数据分析方法与系统资源分配策略。其次,大数据分析过程应紧密结合读者个性化服务需求,在对读者个性化阅读需求和阅读行为分析深度价值挖掘的前提下,根据服务场景特点实现精确、即时的个性化服务推荐。第三,大数据分析结果应根据分析对象特点实现可视化的表现。图书馆可以交互的方式管理和分析数据,分析结果须反映用户个性化阅读活动和服务的多个属性与变量,并以多种方式直观、可视化地表现。

1.4 大数据分析的数据质量保证需求

图书馆大数据环境具有数据海量、类型复杂、处理速度高和价值密度低的特点,因此,在大数据采集、存储、处理和分析过程中,如果不根据分析需求采取有效的质量控制策略,则可能导致数据分析过程成本投入过高和分析效率下降现象发生。

首先,图书馆应制定科学、可控的大数据分析管理策略,提高数据采集、处理与分析过程的效率与管理有效性,实现数据对象、分析技术与决策结果应用三者的统一。其次,大数据主要由海量数据采集、存储、管理、分析与挖掘、可视化表示和决策等技术组成,应根据图书馆数据分析对象和质量要求,选择正确的大数据技术标准和大数据处理平台,实现大数据分析资源、策略和平台的最优化结合。第三,大数据分析过程应重点加强对数据可视化分析、数据挖掘与分析算法、预测性分析能力、数据采集质量和分析过程科学性的管理,最终实现大数据分析过程的质量可控[3]。

1.5 大数据分析的目标定位

传统IT环境下,图书馆在对读者阅读需求分析和服务模式定位时,通常会以自身工作经验、感性认识和知识积累为依据,而不是依靠大数据分析结果为基础获得科学、理性的实证分析,因此分析过程和知识获取具有较强的盲目性和局限性。随着大数据技术在图书馆应用的不断深入,图书馆应通过科学采集和分析大数据资源提升自身的运营效率、服务质量和竞争优势。

图书馆大数据分析的目标首先应是对读者阅读需求、大数据服务环境、读者阅读行为和阅读模式变革、个性化服务风险的精确定位和预测,为读者个性化阅读服务内容、方法与模式的变革提供可靠的数据支持。其次,可通过大数据挖掘来发现、优化图书馆服务资源的配置,不断提高服务管理质量、决策水平、系统运营效率和用户满意度。第三,大数据分析应准确定位用户服务的风险和市场竞争环境,及时分析、发现和预测用户个性化服务过程中存在的安全威胁与不稳定因素,提高读者个性化服务的安全性和可靠性。

1.6 大数据分析的风险可控需求

大数据时代,图书馆大数据资源主要由传感器设备采集数据、网络监控和读者服务调查数据、移动服务商共享数据、阅读终端反馈数据、射频ID数据等组成。首先,图书馆大数据资源呈现数据总量快速激增、分散存储和异构数据协同整合的趋势,导致数据管理、存储、传输与分析难度增大。其次,随着数据源的不断扩展和结构复杂性增强,大数据资源呈现多样性、低价值密度、价值挖掘难度大、错误或无用数据占数据总量比例上升现象。第三,数据分析师的专业素质、大数据平台结构科学性、预测与分析软件的可用性、分析结果对图书馆服务与读者满意度提升有效性等因素,也是关系图书馆大数据分析效率和风险可控的重要因素[4]。

2 图书馆大数据分析流程与数据分析平台构建策略

2.1 图书馆大数据平台数据分析的流程

图书馆大数据平台信息分析流程图主要由数据源、数据采集与存储、数据过滤与价值提取、知识发现、预测分析与决策五部分组成,如图1所示:

图1 图书馆大数据平台信息分析流程图

图书馆大数据资源主要由系统监控器、视频监控、射频信号识别、阅读终端设备、网络监控器和阅读传感器等数据源组成。数据采集与存储平台利用云计算、数据集成等技术,对数据源进行数据的采集与存储,为上层提供高效的数据存储与管理服务。数据过滤与价值提取层,可对底层采集的海量数据进行数据过滤和价值提取,并在减少所采集大数据资源总量和提高价值密度的前提下,降低大数据挖掘与分析系统的负荷。知识发现层可对下层传输的信息进行深度挖掘,并从信息中发现知识,实现读者需求、阅读行为、系统管理和读者群关系的精确发现。预测分析与决策层是分析流程的最高层,可对用户需求、未来阅读模式发展趋势、服务系统运行、安全隐患和市场环境变化进行智慧分析和预测,并对图书馆个性化智慧服务的模式、策略、内容和安全防范措施进行决策与评估[5]。

2.2 图书馆大数据分析平台的构建策略

2.2.1 增强图书馆对大数据资源的智慧分析能力

增强对大数据资源的智慧分析能力,是图书馆树立以“智慧分析和决策”为核心的大数据战略思想,以及高效整合大数据平台价值体系和科学分配、调度系统资源,利用大数据支持提高图书馆读者个性化服务风险预测、分析与决策、读者阅读体验、系统运营整体效率和市场竞争力的重要内容。

首先,图书馆应依靠大数据资源的支持,提高对读者阅读需求、内容、方法和模式的预测和判断能力,明确读者未来个性化阅读活动的时间、地点、对象、方法和内容,并在提高个性化服务针对性和质量的前提下,降低用户服务的成本投入。其次,增强图书馆大数据的智慧分析能力,就是要将以大数据资源为核心的图书馆服务能力建设,转变为以大数据资源采集、处理、建模、分析和系统反馈、优化全过程为核心的综合保障,确保大数据智慧分析过程安全、高效、可用和可控。第三,图书馆应根据大数据分析的对象、内容和质量要求,选择科学、高效、快速和经济的分析算法,确保对大数据资源有较高的质量和知识提取效率,并且分析平台可自动、智能地从数据中提取高价值密度的信息。第四,图书馆大数据的智慧分析平台应具备实时分析和可视化分析能力,可将分析结果准确、快速、友好和多模式地表示,确保读者个性化阅读服务过程具有较强的前瞻性、即时性和可控性[6]。

2.2.2 大数据分析应以读者个性化服务需求为中心

大数据时代,图书馆应以读者个性化需求与服务为中心,逐步建立依据用户需求、业务优先等级和服务收益为标准的大数据战略目标,才能有效提高大数据采集、处理、整合、分析和决策的效率。

首先,图书馆应通过对用户阅读反馈与服务系统运营大数据信息的监测、分析,提高大数据平台对用户个性化服务安全隐患、突发事件、服务质量潜在风险的预测、判断和评估能力,为安全防范策略的制定与实施提供科学的数据支持。同时,还应通过对用户阅读需求、阅读内容和阅读环境的准确预测,提高读者个性化阅读满意度并降低客户流失率。其次,大数据分析过程应以绝大多数读者的海量阅读行为数据为基础,不能为了降低数据采集、存储、处理和分析成本而采取用户抽样的方法,避免因所采集的个别读者最小量行为样本数据的片面、局限性,而影响分析结果的全面性和准确性。第三,大数据分析应以读者阅读时限需求为依据,对于用户多媒体阅读需求预测、用户行为即时分析、安全风险监控与评估等大数据应用,应采用海量数据实时分析的方法,确保大数据服务过程具有较高的安全性、质量保证和可靠性。而对于离线统计分析、机器学习、服务策略评估与优化等实时性要求不高的大数据分析,则可采用离线数据分析的方法,在保证满足系统管理和服务需求的前提下大幅度降低大数据分析成本[7]。

2.2.3 构建科学、高效和经济的大数据分析中心

图书馆构建科学、高效和经济的大数据分析中心,重点应加强大数据分析中心架构科学性、数据存储效率和数据分析能力建设三部分内容。

首先,图书馆大数据信息具有数据源多样性、数据海量、数据传输时效性要求高和处理速度快的特点。因此,大数据分析中心架构必须科学、开放、异构、透明、跨平台和具备智能化管理的功能,并拥有较高的IT架构智慧管理、智能计算和低碳运营能力,可通过智慧管理实现数据采集存储、计算、分析、决策的精细化管理与资源最优化配置。其次,随着图书馆大数据资源总量和存储标准的增长,图书馆应依据大数据源位置、数据分析流程和数据流传输时延,构建高性能的光纤通道存储区域网络,满足大数据平台实时分析过程对数据高速即时传输的需求。同时,数据存储应采用虚拟化和分布式多节点存储方法,将大数据资源存储在位于不同地理位置的图书馆子数据中心里,在保证大数据资源准确、可控和可快速更新的前提下,确保大数据资源存储管理安全、高效、快捷和经济。第三,图书馆大数据分析能力的提升,是一个关系数据中心IT基础设施架构科学性、数据分析算法有效性、数据中心系统整体优化、数据分析过程可视的综合问题。因此,图书馆应重点解决好大数据平台计算资源管理与分配、分析算法科学性与可扩展性、分析系统安全性与稳定性、数据传输网络效率、数据分析平台的能耗与低碳等问题。此外,还应加强大数据分析平台的智能化与机器自我学习能力,保证分析系统可根据分析对象和内容的变化,对分析算法和过程进行智能的调整与优化[8]。

2.2.4 确保大数据资源具有较高的安全、可用性

大数据环境下,只有保证大数据资源具有较高的安全、可用性,才能保证图书馆大数据分析过程安全、高效、可控和经济,才能保证分析结果全面、准确、可用和可对系统管理与用户服务进行实践指导。

首先,图书馆在用户行为与阅读社会关系数据采集过程中,应将读者的个人隐私保护放在首要位置。读者必须拥有对自身数据采集、存储、分析和共享的知情权与决定权,图书馆不能随意监测、采集、使用和泄露用户隐私数据。其次,图书馆应建立科学的大数据资源采集、存储和分析流程,不断提高存储架构科学性和分析过程可行性。同时,应通过对大数据资源的过滤和价值挖掘,不断降低大数据资源总量并提高数据的价值密度,最终建立与读者个性化服务相匹配的数据分析流程。此外,还应防止大数据分析过程出现经验主义和长官意志现象。第三,大数据资源的安全与可用性保障内容,应重点放在提高数据准确性、存储适用性、可搜索与查询性、数据集可扩展性与稳定性四个方面,这样才能确保数据采集、抽取、清理、分类管理、转换和加载过程规范、标准化[9]。

3 结语

大数据时代,读者对图书馆个性化服务的内容、模式和服务质量有了更高的要求。同时,大数据环境数据量与数据结构复杂度的快速增长,也给图书馆大数据的准确、高效、快速和深度分析带来了挑战。图书馆在大数据平台数据分析能力建设中,应坚持以用户需求和服务质量保障为中心,重点加强在大数据资源采集、存储、处理、分析和决策过程中的数据管理科学性与效率。同时,在大幅度降低大数据资源总量和数据分析平台系统负荷的前提下,不断提高大数据分析平台的系统结构科学性、分析系统运行效率、分析算法可用性和大数据资源的价值密度,确保大数据分析过程安全、高效、快速和经济,为读者个性化服务和图书馆智慧管理提供科学、全面、即时和可靠的大数据分析与决策支持[10]。

[1][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:1-15.

[2]李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):29-34.

[3]张延松,焦敏,王占伟,等.海量数据分析的One-sizefits-all OLAP 技术[J].计算机学报,2011,34(10):1936-1946.

[4]覃雄派,王会举,杜小勇,等.大数据分析:RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[5]漆晨曦.电信企业大数据分析、应用及管理发展策略[J].电信科学,2013(3):12-16.

[6]沈来信,王伟.基于Tree-Lib的大数据实时分析研究[J].计算机科学,2013,40(6):192-196.

[7]Russom P.Big Data Analytics[R].Tdwi Best Practices Report.Fourth Quarter,2011:15-21.

[8]王柯柯,崔贯勋,倪伟,等.基于单元的快速的大数据集离群数据挖掘算法[J].重庆邮电大学学报:自然科学版,2010,22(5):673-677.

[9]唐杰,杨洋.移动社交网络中的用户行为预测模型[J].中国计算机学会通讯,2012,8(5):21-25.

[10]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

猜你喜欢
个性化图书馆资源
为小学英语个性化合作学习单做加法
我给资源分分类
挖掘文本资源 有效落实语言实践
资源回收
图书馆
激活村庄内部治理资源
同桌宝贝
去图书馆
校本课程开发的个性化问题探讨
呼唤雕塑家创作的个性化