基于COUNTER的电子资源使用统计中的标准问题探讨与研究

2016-11-10 09:13张计龙殷沈琴汪东伟复旦大学图书馆
图书馆理论与实践 2016年5期
关键词:页面检索规范

张计龙,殷沈琴,汪东伟(复旦大学图书馆)

基于COUNTER的电子资源使用统计中的标准问题探讨与研究

张计龙,殷沈琴,汪东伟(复旦大学图书馆)

针对当前电子资源使用统计中普遍存在的标准不一,统计数据不全,无法进行电子资源横向比较的问题,提出基于COUNTER规范和网络底层技术,从图书馆端进行电子资源使用统计的创新解决思路。以复旦大学图书馆为例,对电子资源使用统计中的COUNTER标准实施问题进行分析探讨并给出了实证,对COUNTER规范提出改进建议,具有推广应用价值。

电子资源;使用统计;COUNTER;ERU;SUSHI

1 研究背景

在泛在知识整体背景环境下,人们越来越多的依赖于更加容易获取和利用的各类电子资源。图书馆近年来为适应这种新的需求,逐步加大了电子资源的采访力度。以复旦大学为例,2010年电子资源采购经费为1131.03万元,占文献资源总采购经费的38%;[1]2011年电子资源采购经费为1057.28万元,占文献资源总采购经费的30%以上;[2]2012年电子资源采购经费为1565.17万元,[3]占文献资源总采购经费的35%以上;而根据目前初步的统计,2013年电子资源采购经费达到2149.86万,占当年文献资源采购总经费的42%。根据北美研究型图书馆协会ARL的统计数据,2007~2008年其成员馆在数字资源上的开支平均达565余万美元,占总开支的51%。[4]因此,图书馆对种类繁多的各类电子资源数据库必须进行有效的使用统计,评价分析电子资源的使用效益,进一步优化资源布局和采访经费投入比例。

在复杂网络环境下,由于各个不同的数据库厂商的网络平台存在应用服务器和底层数据库结构的异构,不同的数据库厂商或数据库平台提供的使用统计数据格式各异,标准不一,差别很大,导致图书馆无法对所购电子资源进行有效的横向统计分析,难以真实、有效评价不同电子资源的利用效益。因此,亟需在统计数据标准规范和实施操作层面研究、制定能被数据库厂商和图书馆接受的、可行的方法。

2 国内外相关研究进展

国外的研究机构和学者很早就开展了电子资源使用统计方法和标准规范的研究和实践。图书馆共同体国际联盟(ICOLC)1998年发布基于网络的信息资源使用统计指南,2001年发布修订版,对使用统计数据收集、报告格式、数据保密性、访问统计数据权限和数据传递方式提出明确要求。[5]1974年的图书馆统计数据标准ISO2789(Information and Documentation-In ternationalLibrary Statistics)在2003年的修订版中给出了电子资源及服务的测量方法和评价指标。[6]其中影响最大、应用最为广泛的当属2002年的COUNTER(Counter Online Usage of Networked Electronic Resources)项目,COUNTER提供了一个可扩展的、国际化的电子资源使用统计实施规范,使得利用数据商所提供的使用数据,进行可靠、一致的网络信息产品与服务评价成为可能。[7]SUSHI是一个ANSI/NISO标准,是一个能自动收割符合COUNTER标准的电子资源使用统计数据的协议。[8]COUNTER R4标准中数据商被要求成为COUNTER规范遵循者的同时必须遵守SUSHI。基于COUNTER规范的重要性和广泛应用,本文相关讨论将以COUNTER R4规范为例。

国内相关研究始于20世纪末,2002年肖珑等论述了电子资源评价指标体系的建立方法及其主要内容,并对北京大学电子资源的利用率、使用价值与成本进行了分析评价。[9]索传军认为解决数据的规范化和可获取性的问题是电子资源使用统计领域的重点,而获取深层次数据的方法和数据管理工具的开发则是研究难点。[5]陈大庆研究了ERMI(Electronic Resources Management Initiative)数据元素与电子资源管理标准的对应情况,提出建立动态的标准维护机制和实现方法。[10]闫晓弟等针对当前大学图书馆网络电子资源利用与统计存在的统计标准和计量方法的问题以及数据的真实性问题,提出建立“电子资源访问网关系统”,来实现网络电子资源利用与统计的方案。[11]

在数据收集方法上,目前国内外比较主流的方法主要包括:本地日志分析和从数据商获取数据。索传军研究介绍了日志分析的基本原理,分析了能从中获取的数据和它的局限性,包括只能获取一些最基本的服务器访问日志,对日志的分析不深入,对数据挖掘的研究更少,不能获取深层次的使用数据。因此,图书馆更多的是依靠数据商来获取详细的使用数据,但这些数据存在不真实、不完整、不及时的问题。[5]沈鹤林提出通过网络交换机取得电子资源访问的源IP、目的IP和访问URL信息的解决方案,保证了不同电子数据库的使用数据信息的可比性,解决了数据的统一性问题的数据获取方案。[12]闫晓弟在西安交通大学的电子资源使用统计和流量监控平台的设计实现上也采取了类似的技术路线。[11]

综上,在电子资源使用统计标准上目前得到普遍认同和应用的主要是COUNTER标准;在电子资源使用统计数据采集方法上目前主要有本地网络日志分析和服务器端数据商获取两种方法,分别存在日志文件数据过于简单,无法真实还原读者信息行为,统计数据完整问题和仅从服务器端的数据商处获得数据格式不统一,无法横向比较问题。故目前尚没有比较统一、完整的解决方案。

本文基于COUNTER最新标准,采用在用户端部署的基于网络底层技术的电子资源使用数据收集系统(Electric Resourse Utilities,简称ERU),弥补了目前基于本地日志或者基于网络交换机流量数据技术路线存在的收集数据过于简单,只能采集到简单的“网络流量级”的日志记录数据,难以真实、准确反映用户行为,无法完全遵循COUNTER规范的问题。同时,ERU系统能完全、真实的仿真读者在电子资源服务平台上的所有行为,实现访问行为数据“内容级”的采集,可以做到完全符合COUNTER R4的实施规范,且不同于电子资源厂商在服务端实施COUNTER R4规范,从用户端获取的符合COUNTER R4数据可以更加真实、有效反映实际利用情况,从根本上解决不同数据库厂商在服务端实施COUNTER规范必须面临的在应用层面和数据库设计层面的各种异构问题,有效避免诸如搜索引擎网络爬虫等无效访问造成的统计不准确等难题。

本文将通过讨论复旦大学图书馆在实施遵循COUNTER R4规范的电子资源使用数据统计过程中发现的、且无法用前述文献中提到的实施方案解决的一些问题,包括统计口径、服务可达性、数据处理等,研究探讨通过ERU系统进行解决。同时针对发现的COUNTER R4规范中存在的规定不清和空白问题提出改进建议,供今后COUNTER新版升级中予以改进。

3 相关概念

3.1 COUNTER研究项目

网络电子资源在线使用统计(COUNTER)提出了电子期刊、电子书、数据库和多媒体资源的使用统计报告应遵循的标准规范。COUNTER项目组在2002年12月发布了《COUNTER期刊和数据库实施规范》(第一版)(Release 1 of the COUNTER Code of Practice for Journalsand Databases),并在之后较短时间内得到了广泛的应用。针对图书馆界对电子图书使用统计报告的需求,该项目组于2006年3月发布了《COUNTER图书与参考工具书实施规范》(第一版)。[13]2012年4月,COUNTER第四版——《COUNTER电子资源使用统计实施规范》[14]颁布。第四版是一个综合的实施规范,涉及图书、数据库、期刊、工具书以及多媒体资源。它取代了《COUNTER期刊和数据库实施规范》(第三版)[15]及《COUNTER图书和参考工具书实施规范》(第一版)。2013年12月31日后,只有符合COUNTER第四版的供应商,或符合《COUNTER期刊和数据库实施规范》(第三版)及《COUNTER图书和参考工具书实施规范》(第一版)的供应商将被视为是遵循COUNTER的。从2014年1月到8月期间声明遵循COUNTER R4的数据库供应商已达61家,[16]基本涵盖了国际上最主要的数据库供应商。

3.2 ERU研究项目

ERU研究项目全称是电子资源使用统计分析,由复旦大学在2011年发起。主要目的是解决不同数据库厂商的数据库平台的应用异构和数据库设计异构问题,采用基于数据流建模技术对网络底层传输的电子资源数据包的实时采集和重新封装进行建模,从而完全仿真用户的信息使用行为,弥补传统服务器日志分析数据很难获取和数据不完整问题。以及类似SUSHI协议需要数据库厂商支持和对网络爬虫数据清洗困难的不足,实现完全不依赖于任何第三方的适用各种异构电子资源使用数据的统一采集和统一统计分析,其对电子资源使用统计数据采集区别于已有的任何一种基于网络流量或服务器日志分析技术,可对用户WEB访问页面进行仿真建模分析,实现基于“访问内容级”的统计分析和建模。

3.2.1 ERU系统部署设计

ERU系统部署图如图1所示。采集网探通过旁路方式连接到有读者访问的各种电子资源数据库的网络出口核心交换机上,对核心交换机的底层网络通信进行全面采集。采集控制台和采集数据库通过IP过滤获得相应的访问数据。解析器对图书馆购买的所有电子资源数据库的检索(单库和跨库)、浏览和下载行为的HTML数据进行解析还原,生产用户访问日志记录。WEB展现平台按照COUNTER规范生成使用统计报表,并提供学科分析应用。

3.2.2 ERU采集流程

按照修改后的《指南》规定,上述权利要求1—4在撰写形式上都是允许的。当然,这里仅仅给出了简单的列举。专利申请人还可以根据该辅助诊断方案的具体存在形态,采用其他的主题名称和撰写形式来寻求专利保护。

ERU的数据采集过程主要包括以下流程:网络底层采集、数据建模处理、页面解析建模、数据规范入库。网络采集是基于核心交换机的镜像端口,通过配置需要采集的数据库的IP地址和URL,过滤无关的背景网络流量数据,对原始的电子资源访问数据进行实时采集,然后进行数据包重新组装拼接,形成原始HTML数据文件;数据建模处理阶段是对采集到的原始HTML数据文件进行协议分析,运用特征分析技术从URL链接中抽取特征值进行数据流上数据建模,从而仅保留有效地网页;页面解析建模阶段则根据不同数据库页面信息配置不同的解析模板,实现对前述采集的有效网页内容进一步建模,结合传统交换机日志信息,仅保留如源IP、目的IP、Session会话、访问时间、题名、主题、描述、主要责任者、标识符、语种、发表日期等必需字段,最后根据不同文献类型所需的元数据模板,实现数据规范入库。详细的实现过程在参考文献中有具体论述,[17]此处不再赘述。

3.2.3 ERU实施效果

图1 ERU系统部署图

在2012年9月至2014年4月期间,通过ERU采集到读者访问复旦图书馆电子资源行为数据已达90GB,数据库存储记录条数6,080,896条。采集的字段包括:读者IP、访问时间、会话ID、检索式、读者所在校区、归属平台、归属网站、归属数据库,还包括读者详细浏览、下载资源的详细信息,包括文章的题名、摘 要、刊物名称、作者、关键字、刊物年卷期等。这些来自复旦大学用户的对270余个数据库的访问统计数据加上数据库商提供的使用统计数据,为发现COUNTER R4规范实施中普遍存在的标准问题提供了数据支撑。

4 标准实施问题探讨

通过采集不同数据库的用户使用数据和从数据库厂商后台提供的按月使用统计数据进行比对分析,重点找出统计数据差异比较大的信息行为数据,可发现在数据库厂商声明已经遵守COUNTER R4标准的情况下。由于不同数据库商提供的应用界面操作功能差异较大,部分行为难以按照COUNTER R4规范要求准确归类,按照前述文献中已有的解决方案,在实际操作层面仍然存在诸多问题而无法有效解决。本文主要对常见的读者检索、浏览和下载行为的COUNTER规范实施问题进行探讨,并基于ERU平台技术给出有效的解决方法。

4.1 检索行为

COUNTER R4实施规范附录A:术语表中对标准的检索行为定义为:用户驱动的智能查询,通常表现为提交检索表单给服务器获取在线服务。[18]因此,可以理解标准的检索行为一般为在数据库检索页面输入检索条件,然后点击“检索”、“搜索”或“高级检索”等按钮,数据库服务器会根据输入的检索请求而返回检索结果,这样就形成一个完整的检索行为,由于标准检索页面比较简单,此处不做过多分析。下面结合常用的中国知网为例进行相关阐述。

在COUNTER R4规范中对初步检索结果进行上述筛选、排序、改变显示顺序、翻页和结果中检索行为没有相应的定义,这些行为中全部或者部分是否应该纳入相应检索统计计数无法确定。由于ERU采取的技术可以完整捕捉到这些行为,通过数据比对,可以发现在实际应用中不同的数据库厂商对此定义亦大不相同。此种问题包括外文数据库在内的绝大部分电子资源中均广泛存在。尤其对于“结果中检索”行为是否应该纳入检索计数统计更是很难判断。ERU系统通过分析,统一采取对初次有检索词的检索和在结果中检索(此处也有用户键入检索词行为)计为有效检索,其他类似行为均不计入统计数据的方法。

此外,对ERU采集到的用户不完整访问行为数据进行分析,发现在用户发起检索请求后,由于互联网传输以及可能的服务器响应超时等因素,用户端所接受到的检索返回结果出现异常,包括以下三种情况。

(1)检索结果未显示完整,原因是数据库所在服务器处理故障,造成后台会话不完整,返回给用户端部分结果数据。

(2)在用户已经发出检索请求,数据库所在服务器端也已经开始返回结果,但此时检索请求被用户自行取消,导致最终用户端结果数据不完整或没有收到检索结果数据。

(3)用户在短时间内不停的使用F5键或刷新页面功能多次刷新页面,造成后台重复发出检索请求。

针对上述三种检索行为,COUNTER R4规范中规定对10秒内的重复点击/刷新页面不重复计数。但对于检索行为是否应该以服务器端响应为准还是以用户端实际接受到完整结果为准未给出明确定义。在实践中,由于技术限制,电子资源厂商目前的技术手段无法发现这些问题,因而采取的基本是以服务器端接受到请求开始进行统计,而不考虑用户是否成功接受到数据。由于ERU平台可以采集到用户请求开始时间、请求结束时间、服务器响应开始时间、服务器响应结束时间等所有处理环节的时间点,可以实现根据用户实际是否接受到完整结果为依据进行统计,可以做到不受这些问题的影响。此外,从公平交易角度,本文亦认为应该以最终用户接受到结果数据为统计依据,对于未能成功满足用户需求的请求不应计算在内。

另外,在COUNTER R4实施规范中对数据库使用报告1(Database Report 1,简称DR1)定义为:每月、每种数据库的总检索量、结果点击量(Result Clicks)和记录浏览量(Record Views)。DR1要求将常规检索(Regular Searches)与来自集成搜索引擎(federated search engines)和自动搜索代理(automated search agents)的检索分开统计,分别计入DR1中的常规检索(Regular Searches)和联邦自动检索(Searches-federated and automated),见图2。

图2 COUNTER R4检索统计报表DR1样例

因此,为了数据库供应商能分辨出哪些检索来自集成搜索引擎和自动搜索代理,COUNTER R4在附录I和附录J中分别给出了当前已知的集成和自动搜索引擎列表以及网络机器人、网络爬虫、网页爬虫等列表,[7]并要求数据库供应商及时更新。这在实际操作中无疑会有遗漏和更新不及时问题,造成统计数据不准确。基于图书馆端部署ERU系统的技术路线完全不存在此类问题,大大提升了统计数据的准确性。

4.2 浏览行为

用户在返回的检索结果中点击某一条记录,页面跳转到该记录的详细信息页面,完成一个标准的浏览行为,即完整的浏览行为包括用户请求的发送和服务器返回完整的结果。有些数据库在返回页面中,可以选择点击展开或者切换页面,此时相当于后台发起一个新的浏览页面请求。针对这种情况,COUNTER R4规范在附录A中定义记录浏览(Record view)和结果点击(Result click)两种行为进行描述。记录浏览(Record view)是一个对数据库记录的成功请求,来源于一个检索结果集,或浏览数据库,或对另一条数据库记录的点击(只计算完整的数据库记录,不包括对记录的预览)。结果点击(Result click)定义为源于对一个检索结果集的点击,类同对一条检索结果的点击。[16]但是其定义无法套用到本例中一条记录被多次点击浏览的情况。本文认为因为是对同一条记录的浏览,只是对页面信息量的显示数量进行了个性化设置,其本质上仍然为对同一条记录的浏览行为,故此时的浏览页面的切换统计只统计为一次浏览行为。此外,对异常的浏览返回结果情况,包括浏览结果未能完整显示、浏览行为被用户中途取消和用户短时间内多次刷新浏览页面等,问题基本类同4.1中对检索行为的服务可达性的分析,此处不再赘述。

4.3 下载行为

电子资源的付费模式大部分和下载数有着密切的关系,因此对于下载数量的统计尤为重要。COUNTER R4中对情况比较复杂的电子书全文下载统计给出了相对明确的定义,包括在线HTML格式中已经划分章节的图书全文下载浏览只记录第一次对某个章节的阅读数,对后续其他章节的浏览阅读不再重复计数等。但在实践操作中,仍存在以下问题。

(1)统计口径问题。数据库服务器将接收到的下载请求跳转到其他网站/服务器,由其他服务器进行文件的传送,文件也可能被分为多次传送。例如用户在A平台点击下载,实际上下载行为发生在B平台,此时A平台为书目型数据库,下载行为的统计口径应该归属到那一个平台,这是目前新的网络环境下出现的新问题,在目前最新版本的COUNTER R4中未给出明确定义。依据资源所在位置原则,本文建议按照实际下载行为发生地为统计归属地。

(2)服务可达性问题。由于下载文件往往需要传输较大的数据,对网络的要求比较高,由数据库服务器处理能力和网络速度影响而导致异常的返回结果相对更多,包括:①下载已经开始但无法确定下载完成时间,服务器后台由于超时而导致会话不完整的情况;②用户看到下载对话框弹出后,点击取消下载,此时服务器端已经返回接受下载请求成功信息,并准备开始传送文件的情况;③用户点击下载链接后,系统提示需要登录或者提示访问被拒绝;④用户不断刷新下载页面而导致短时间内发出多个下载请求。COUNTER R4中对拒绝访问有单独的统计要求,对于30秒内的重复下载行为仅仅记录一次,不重复计数。但是对于服务器端会话不完整和用户自行点击取消下载未给出明确定义,这也是导致下载统计数据不准确的重要因素之一。本文基于ERU技术,建议应采取用户端是否真实下载成功为统计依据,以准确反映用户实际行为。

[1]复旦大学图书馆.2010年度图书馆经费使用情况[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1576.htm.

[2]复旦大学图书馆.2011年度图书馆经费使用情况[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1577.htm.

[3]复旦大学图书馆.2012年度图书馆经费使用情况[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/3291.htm.

[4]刘蔚,王长宇.ISO2789、NISO Z39.7和E-METRICS数字资源评价标准比较[J].图书馆学刊2010(8):102-103.

[5]索传军,王建朋.国外电子资源在线使用统计研究述评[J].图书馆,2006(6):43-46.

[6]ISO.Information and Documentation-International Library Statistics[S].ISO2789:2003(E).

[7]COUNTER.CodeofPractice[EB/OL].[2014-08-28].http://www.projectcounter.org/code_practice.htm l.

[8]NISO.Standardized Usage Statistics Harvesting Initiative(SUSHI)[EB/OL].[2014-08-28].http://www.niso.org/workrooms/sushi.

[9]肖珑,张宇红.电子资源评价指标体系的建立初探[J].大学图书馆学报,2002(03):35-42

[10]陈大庆.电子资源管理标准述评[J].图书情报工作,2013(3):125-130.

[11]闫晓弟,等.电子资源利用统计网关系统的设计与实现[J].现代图书情报技术,2008(8): 97-100.

[12]沈鹤林.学术全文电子资源使用统计分析研究[D].上海:上海交通大学,2011.

[13]COUNTER.Release 1 ofthe COUNTERCode ofPractice for Booksand Reference Works[EB/OL].[2014-08-29].http://www.projectcounter.org/cop/books/ cop_books_ref.pdf.

[14]COUNTER.Release 4 ofthe COUNTERCode ofPractice for e-Resources[EB/OL].[2014-08-29]. http://www.projectcounter.org/r4/COPR4.pdf.

[15]COUNTER.Release 3 ofthe COUNTERCode ofPracticeforJournalsand Databases[EB/OL].[2014-08-29].http://www.projectcounter.org/r3/r3_intro.pdf.

[16]COUNTER.CompliantVendors[EB/OL].[2014-08-29].http://www.projectcounter.org/compliantvendors.html.

[17]张计龙,等.基于ERU的图书馆用户信息行为数据采集方法研究——以复旦大学图书馆为例[J].图书馆杂志,2014(12):10-16.

[18]COUNTER.Appendix A(Glossary of Terms)[EB/ OL].[2014-08-29].http://www.projectcounter.org/ r4/APPA.pdf.

Discussion and Research on the Practice Issues in the Standard for the Electric Resourse Usage Statistics Based on COUNTER

Zhang Ji-long,Yin Shen-qin,Wang Dong-wei

The article proposes the solution for the electric resources usage statistics based on the COUNTER and the underlying technology ofnetwork to resolve the issues that the statistics standards for the electric resources usage are widely incompatible and it is difficult to compare them with different e-resources.With a case study of Fudan university library,the practice issues of COUNTER,such as statistical caliber,service accessibility and data collection,are discussed.The method of the article can help other libraries to apply in practice and the result is helpful to improve the new version ofCOUNTER.

E-resource;Usage Statistics;COUNTER;ERU;SUSHI

G255.76

B

1005-8214(2016)05-0095-06

张计龙(1975-),男,复旦大学图书馆副研究馆员,研究方向:数字图书馆、数据管理、教育信息化;殷沈琴(1977-)女,复旦大学图书馆副研究馆员,研究方向:数字图书馆、数据管理;汪东伟(1986-)男,复旦大学图书馆馆员,研究方向:数字图书馆、数据管理。

2015-11-03[责任编辑]邵晋蓉

本文系国家社科基金“泛在知识环境下图书馆知识发现技术与应用研究”(项目编号:12CTQ006)研究成果之一。

猜你喜欢
页面检索规范
刷新生活的页面
来稿规范
来稿规范
PDCA法在除颤仪规范操作中的应用
答案
来稿规范
让Word同时拥有横向页和纵向页
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
专利检索中“语义”的表现