大数据环境下数字图书资源多维评价研究

2020-08-13 07:17石丹闫实付佳
软件 2020年6期
关键词:数字图书大数据

石丹 闫实 付佳

摘  要: 数字图书正在作为一种新型的信息传播媒体进入人们的日常生活,也不断的影响着人们的学习习惯和生活习惯。如何评价数字图书资源成为了数字图书运营商的主要运营工作,也是支撑数字图书运营的主要目标之一。数字图书运营方的方案既需要考虑数据的组织、数据维度的选取,又需要考虑技术的实现。在维度选择上考虑了从数字图书资源、数字媒体运营数据、数字媒体消费用户数据三个立体层面。本文在数字图书底层资源管理的基础上,增加了数字媒体运营的数据结构和用于收集数字媒体消费用户数据的结构,扩展了数字图书底层的数据结构,便于从多个立体角度建立分析模型。利用云计算可以将资源虚拟化,再通过Hadoop的就近计算原则,实现了大数据环境下数字图书资源的多维评价。

关键词: 大数据;数字图书;多维评价;Hadoop

中图分类号: TP3    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.06.016

本文著录格式:石丹,闫实,付佳. 大数据环境下数字图书资源多维评价研究[J]. 软件,2020,41(06):7476+107

【Abstract】: Digital books have been entering daily life of people as a new type of information communication media, and affecting people's learning and living habits constantly. How to evaluate digital book resources has been main operation work of digital book operators, and also one of main objectives of supporting digital book operation. Scheme of digital book operators needs to consider organization of data, selection of data dimensions, and realization of technology. In terms of dimension selection, it is necessary to consider three dimensions: digital book resources, digital media operation data and digital media consumer data. Based on management of digital books' underlying resources, the paper adds data structure of digital media operation and structure to collect data of digital media users, expand data structure of digital books underlying, and facilitate establishment of analysis models from multiple perspectives. Cloud computing can virtualize resources, and realize multi-dimensional evaluation of digital book resources in big data environment through Hadoops nearby computing principle.

【Key words】: Big data; Digital books; Multidimensional evaluation; Hadoop

0  引言

數字图书正在作为一种新型的信息传播媒体进入人们的日常生活,也不断的影响着人们的学习习惯和生活习惯[1]。数字图书除了传统纸质图书的阅读方式,更多的是能够提供更高效的检索、记录、分享等能力。更加重要的是数字图书和通信网络的结合,可以让图书本身也具有了收集用户数据的能力。对于纸质图书,用户携带多少图书取决于用户的书包有多大,而数字图书用户只用携带一个图书阅读器,就拥有了一座图书馆用户可以根据喜好阅读各种图书。而随着用户数量的增加,数以万计的用户使用数字图书资源产生了大量的数据,如何评价数字图书资源成为了数字图书运营商的主要运营工作,也是支撑数字图书运营的主要目标之一。一方面数字图书资源的评价是站在数字图书资源的角度选择数据维度,另一方面数字图书由于具有数字媒体的运营属性,因此可以从数字媒体的维度选择数据维度,再一方面由于用户的参与可以比较直观在数字图书数据中收集到,并且用户也是数据的主要生产者。

因此,数字图书资源的评价是立体的,在多个角度抽取多个数据维度围绕运营目标进行评价。而立体的数据往往是在数字图书资源平台下的数据产物,数据图书资源平台往往是建设在云计算和大数据环境下的技术平台,这就需要采用大数据的处理技术作为分析的技术平台。本文将从数字图书资源、数字媒体运营数据、数字媒体消费用户数据三个立体层面抽取多维数据更为客观的评价数字图书资源对于运营的价值,通过大数据技术平台来支撑多维评价。

1  数字图书资源大数据与数据挖掘

面对数字图书资源所产生的大量数据,首先要根据数据图书资源系统的应用情况,分离出业务系统和分析系统,业务系统是与图书参与者直接交互的数据,而分析系统是通常是离线的数据集。一般分析系统是建设在数据仓库架构下的多维分析系统,针对数字图书资源一般以图书主题来组织建设多维分析模型。就目前的技术发展趋势而言,传统的数据仓库系统建设以及难以满足大数据系统的建设需求,取而代之的是基于Hadoop的离线大数据分析系统,通过数据集群的透明访问网关和用于数据分析的BI(Business Intelligence,即商务智能)分析框架构建底层的数据分析系统[2]。

大数据挖掘是从早期的数据仓库技术产生的,BI框架的本质是从海量的信息中挖掘出有价值的信息和知识,也是早期知识工程的技术产物。BI作为一个数据工程,一般保函数据的抽取、转换和加载称之为ETL;构建的信息模型存储在数据仓库(DW)内;数据的分析一般采用联机分析处理(OLAP)和数据挖掘(DM)等过过程。辅助这些工程一般由专门的计算机软件负责,而构建一套系统则需要硬件服务器、网络系统、软件环境、由于数据的来源比较多元,所以通常是异构的系统互联,还要考虑数据的格式标准,构建异构系统之间的通信。因此,数据挖掘是一项非常复杂的技术综合体[3]。

由于数字图书资源的业务系统是数据的生产方也就是数据仓库的离线数据的数据来源,而数字图书资源的业务系统,一般包括终端用户的阅读数据、数字图书分享数据、数字图书资源运营分析平台数据、图书分享交流信息平台等多个业务的业务群,其数据源也是分散在不同的物理环境中。按照常规的数据挖掘的分析系统构建,可以将系统分为数据预处理层、数据仓库层和数据分析层共三个层次[4]。

数据预处理会定期从业务群的数据源抽取数据,并按数据仓库的建模标准装载到数据仓库中去。一般阅读数据会产生用户信息、阅读记录、每本书的阅读详细信息、阅读过程中的过程数据;数字图书分析数据,可以获取分享的用户关联信息、分享源等信息;在数字图书运营过程中会产生数字图书资源目录、摘要、关键字、信息检索信息、数字图书资源本身的数据等。上述这些数据是分散的,并且数据的结构和模式是差异比较大的,通过抽取、转化预处理构成标准的数据集模式就可以以统一的结构存储到数据仓库中。

在数据挖掘环境构建完成后,就可以在数据仓库中按主题选择数据维度,根据分析场景分析数据维度建立多维评价指标[5]。

2  数字图书数据维度选择

在大数据时代诞生的数字图书,从一出生就具有了数据属性和传统的纸质图书相比,更加迎合了人们不限时间不限空间的获取知识的需求。由于数字时代用户的口味是多元,阅读习惯也是多元,所以如何评价数字图书资源挖掘图书资源的价值对于运营方来说是一个挑战。如何分析数字图书资源产品属于“高质量”、“高水准”、“受欢迎”等评价标准是什么?如何找到这些标准?这就需要利用数字图书大数据属性和数据挖掘技术来寻找。虽然数据本身是客观的,但是并不是所有数据的生产者都是客观,例如:用户的评价数据是一个非常主观的偏好数据。因此多维的评价数字资源需要考虑到主观数据和客观数据的差异。在数据维度的选择上更需要辩证的观念来选择。在信息维度的选取上,本文倾向于从客观和主观数据的结合、图书主题与内容的结合、专家评价与读者评价信息的结合、定量分析和定性评价相结合[6]。

在图书数字资源评价体系,可以参考期刊的评价方法,通过借鉴并调整的方式进行选择数据维度。在期刊中通行的做法是计算转引率等数据,这是一种相对客观的评价方法。对于数字图书显然不能直接使用,因为期刊是在作者编写的时候引用其他期刊,而数字图书是一种共享资源,针对数字图书共享的性质,可以将转引率调整为分享率。分享率即一套数字图书被用户阅读的过程中分享的次数,S表示分享率,R表示用户阅读的总量,RS表示阅读过该图书发生分享的数量,可以用以下公式表达。

显然分享率也是一个概率事件,如果把平臺中所有单个图书的分享事件综合来看,还可以发现单套图书在整个概率事件里的分布情况,如果将图书进行分类还可以进一步发现更多的概率事件。例如可以将图书按内容分类分成管理、计算机、金融、文化、文学、小说、基础科学、科普等类型那么分享率可以进一步按场景进行划分。

然而,分享率只能表达图书的关注度,并不能表达图书的的价值。例如一本专业性很强的图书,不会比一本畅销小说的分享率高,但是其价值可能在其专业领域内是非常高的。这就需要从内容来判断其价值。这种情况以引入专家建议,让专家建议的权重高于普通用户,通过评价和打分参考专家评价,并结合普通用户的评价来综合判断。这种评价可以纵向的来评价,即同类型的图书之间的比较[7]。

上述评价体系,都是基于数值的量化比较,这种方式易于统计建立统计模型从数量关系和概率分布的方式建立评价体系。但是这种方式会忽略待评价图书的诸多细节,甚至忽视其的本质。皮之不存,毛将焉附?如果过渡的忽略细节,只强调统计意义显然会让看似客观的大厦轰然坍塌,评价的客观性荡然无存。这就需要定性分析,从电子出版物本身出发进行定性,例如出版方、发行方的立场、出版物的文学价值、学术价值、审编校质量等多个定性维度进行评价。

3  多维评价在Hadoop环境下的构建

只有综合客观的数据并引入权威的导向性,再将评价体系建立在统计数值量化和定性分析的信息才更加综合。那么对于海量的数字图书资源,除了建立多维综合评价体系和原则就是要讲这种体系和原则转化为技术实现。由于海量的数据存储在以HFDS为基础的数据仓库中,那么就要通过基于Map/Reduce的离线分布式计算模型实现多维综合评价体系,这就需要借助Hadoop环境[8]。

其基础架构是建立在数字图书资源业务架构的数据模型分离基础上的。通常现有的数字图书资源系统采用微服务的架构模式,将系统分解为多个子系统和子模块,子模块又是建立在业务相对隔离和自治的微服务。这些业务系统模块产生的业务数据也是分布式的,分散在各个业务单一。因此,上述章节建立的ETL模型就是用于抽取多数据源的基础服务。在数据仓库建设中一方面存储基础的数据集,另一方面通过统计和模式化将数据按主题构建到一个框架下。数字图书资源的数据仓库建设一般采用分布式结构化存储,主题一般通过发布及订阅模式构建。对于图书资源数据,一般会增加一个ODS(Operation Data Store)中间层,主要用于缓存便于数据分析层优化查询,提高数据分析的效率,避免直接分析数据源和底层数据。在图书业务数据的抽取和复制过程,通过ODS层开发客观和定性的评价模块,就可以对基础数据进行整合和过滤,为数据的多维评价提供标准的数据单元。其标准的数据单元由系统的元数据服务进行定义,元数据的设计是建立在上一节综合客观的基础上,既有定量又有定性的逻辑基础之上的[9]。

再根据此基础根据业务逻辑建立数据交换模型,数据交换本身提供了一个业务共用的分析模型层,这一层是根据业务场景建立的。例如评价体系可以是围绕终端用户为中心的,评价图书的质量、专业性、内容权威性对这一类用户的影响,评价体系可以是按图书目录分类,也可以是按图书性质分类,围绕用户产生更为客观的评价。而用户在上层可以订阅这一类数据主题,当在多维分析处理完成时可以提供事件通知。供结构化数据和非结构化数据的统一融合存储,以建立数据资产为核心;以监管数据质量、数据可用性为关键;以数据开放、   共享为目的;加快数据技术發展,加速数据价值转化率。

4  结语

数字图书领域在经过了多年的发展,随着用户数量的增长,逐步形成了用户群体多元、数字图书资源多样的综合性强的系统模式。数字图书资源由于涉及面广,运营数字图书资源就面临系统的异构、地域的多元、数据的分布、图书基础数据差异等问题。如何评价数字图书资源成为了数字图书运营商的主要运营工作。这就需要运营方的方案既需要考虑数据的组织、数据维度的选取,又需要考虑技术的实现。在维度选择上考虑了从数字图书资源、数字媒体运营数据、数字媒体消费用户数据三个立体层面。由于数字图书资源平台都是采用分布式的解决方案,因此数据是分散在不同的物理位置上的。利用云计算可以将资源虚拟化,再通过Hadoop的就近计算原则,将分散在不同物理位置的数据统一在一个分析框架内是实现大数据环境下数字图书资源评估的基础底层技术方案。另一方面,数字图书资源的底层数据结构建设是数据分析的关键,本文在数字图书底层资源管理的基础上,增加了数字媒体运营的数据结构和用于收集数字媒体消费用户数据的结构,扩展了数字图书底层的数据结构,便于从多个立体角度建立分析模型[10]。

参考文献

[1] 曾新红. 基于XML/SOAP实现数字图书馆系统互操作的研究[J]. 现代图书情报技术, 2003(02): 37-41.

[2] 何奇峰. WebService在数字图书馆互操作中的应用[J]. 广西教育学院学报, 2004(01): 125-128.

[3] 一哲. 学术期刊是引领学术发展的旗帜[N]. 中国社会报, 2013-07-12(A04).

[4] 孟耀. 学术期刊质量的评价方法与指标分析[J]. 东北财经大学学报, 2013(05): 90-93.

[5] 曹琴仙, 王雯洁, 张凯巍. 加拿大国家图书档案馆数字资源服务实践及启示[J]. 河北科技图苑, 2019, 32(05): 19- 23+30.

[6] 于景琪, 刘佳. 首都图书馆推进北京市图书馆总分馆制建设探索与研究[J]. 山东图书馆学刊, 2018(06): 55-58+63.

[7] 王丽英, 阿贵, 次仁普赤. 西藏高校图书馆教育资源配置研究[J]. 图书馆杂志, 2018, 37(08): 67-75.

[8] 刘丽丽. 三网融合背景下数字图书馆电视服务用户满意度研究[D]. 山东大学, 2018.

[9] 李莘. 数字出版环境下图书馆纸质图书采访面临的困境及路径选择[J]. 中国中医药图书情报杂志, 2018, 42(01): 39-41+45.

[10] 超星阅览器SSREADER3.6——全力打造数字图书阅读软件至尊[J]. 软件, 2002(01): 21-22.

猜你喜欢
数字图书大数据
区块链在数字图书侵权中的司法救济作用分析
数字图书营销方法探究