基于文献计量的高校图书馆流通数据分析

2016-11-19 17:49陈鹤阳张力
现代情报 2016年4期
关键词:文献计量高校图书馆

陈鹤阳 张力

〔摘 要〕本文通过对文献计量主要方法H-type指数的修正和改进,从学科属性的角度对高校图书馆流通数据进行统计分析,并应用改进后的h-type指数计算以天津某高校图书馆英语翻译专业为例的核心图书,较h-index指数更加精细的区分并且大大提高了区分度,从而帮助在校学生有针对性的认识和了解学科的核心内容,同时也为今后图书馆信息服务的开展提供有益的参考与借鉴。

〔关键词〕文献计量;h指数;h-type指数;学科图书;高校图书馆

DOI:10.3969/j.issn.1008-0821.2016.04.022

〔中图分类号〕G252.5 〔文献标识码〕A 〔文章编号〕1008-0821(2016)04-0119-05

〔Abstract〕The paper,based on bibliometric main method H-type index of modifications and improvements,from the perspective of the property subject to the statistical analysis of University Library Circulation data,applied in Tianjin university library by improved h-type index computing core books,compared the h-index greatly improves the discrimination,helping students targeted core content knowledge and understanding of science,but also for the future conduct of Library Information Service to provide useful information and reference.

〔Key words〕bibliometric;h-index;h-type index;subject book;university library

文献计量的主要研究方法包括引文分析方法、词频分析方法、h-type指数法,都是利用文献的某些特征数据来描述或者预测用户行为,发现现象规律。高校图书馆流通数据挖掘的重点是要体现图书的学科属性以指导馆藏的优化、读者的荐阅,提高图书的使用率。引文分析法和词频分析法对于高校图书馆流通数据学科属性的挖掘适用性较h-index指数差,因为不同高校采用不同的工作系统,流通数据的采集无法实现文献之间关联的体现和词频的统计,需要投入大量的人力进行人工分析,效率极低,而利用h-index指数能够有效的挖掘出高校图书馆流通数据的学科属性,在一定程度上也能够反映出高校的学科发展和专业设置的特点。h-index指数是J.E.Hirsch于2005年在美国科学学院院报(PNAS)上发表的一篇名为“An Index to Quantify an Individuals Scientific Research Output”中提出的,是衡量科学家个人成就的一种简单有效的方法,在经过众多学者对h指数的改进、延伸和扩展后,h-type指数作为一个简单又易于理解的指标被广泛应用于各种评价环境中,如期刊h指数[2-3]、机构h指数[4]、专利质量评价等方面[5]。虽然h指数最初是针对科学家学术成就评价提出的,但其思想和方法也可以扩展应用到图书馆的借阅数据分析中。2009年周志锋就h指数应用于图书馆借阅数据中的可行性进行了分析并以上海图书馆“图书借阅风云榜”为实证研究进行验证[6],但其仅从方法论的角度介绍了h指数在图书馆应用的可行性。钱玲飞、汪荣利用h指数统计得出不同读者群的“借阅活跃度”和“核心读者”,为高校图书馆开展服务提供了一种新的思路,但是在其文章中计算h指数时没有充分考虑某类图书的馆藏量以及在确定核心读者时也没有考虑学院的人数,这些因素都会影响研究结论的偏差[7]。张贝运用hg指数分析图书馆的借阅数据,得出图书高利用率的读者群体,从读者借阅行为的角度进行hg指数的分析,并没有从图书的属性进行hg指数分析[8]。

为了能够更加直观、客观的评价学科图书,避免由于上述偏差和相关因素造成结论的偏倚,本文对h指数进行了改进,提出了一种新的计算方法从而修正了学科图书受馆藏量、平均借阅量影响而造成的偏差,同时也提高了由于出版时间而使h指数区分度不高的问题。

1 概念边界

本文的研究目的是要通过h-type指数对图书进行评价,利用图书的类目属性确定图书的学科范围,从而得到某一学科范围内的核心图书,以期为读者提供一个关于该学科的知识图谱并通过图书的形式表征出来。学科图书在学术界并没有明确的定义,这里泛指能够反映某一专业领域内涵和外延的知识,并能按照一定的分类编目体系进行学科属性的特征归属,最终以图书的形式表征出来。从整体上,学科图书是了解该学科的现状、知识分布、发展方向的重要途径,不仅作为读者的知识载体用以传播,同时它和整个学科发展的知识体系也密切相关。图书馆作为读者汲取知识的重要场所,通过获取读者的借阅信息,并将其借阅信息与借阅图书的学科属性建立相关关系,然后利用h-type指数评价从而确定学科的核心图书。

2 h指数在评价学科图书方面的不足

2.1 忽视了h核内图书的最高被借阅次数

在h核内无法区分出借阅率高的图书,它是一个平均量化值,因为在h指数计算的过程中,我们只统计大于等于h次被借阅的图书,即便存在某些图书的被借阅次数高于h几倍,也无法体现其高借阅率,最终h指数仍以刚超过h数值为准,无法区分高借阅率的图书。

2.2 忽视了出版时间

h指数无法公正的显现刚出版图书的指数,因其得出的数值并不客观,这主要是因为h指数是受时间因素影响的指标,出版发行较早的图书其借阅率交近期发行的图书要高,自然它的h指数也较高。随着时间的变化,h指数只会不断上升,不会下降,也就是说原来h指数较高的图书会依然保持着高借阅量,其h指数仍然很高,这样在统计的过程中,往往会忽视了一些极具时代发展代表性的图书。例如大数据、云计算等相关图书,在刚出版时由于受到样本量的影响,在短时间内其借阅次数无法迅速提升,所以类似这样的图书,h指数并不能客观的反映其价值。

2.3 忽视了学科偏倚

利用h指数统计学科图书,其最终的数据往往受到高校学科建设、专业设置的影响,理工科类院校往往在馆藏构建时更偏重理工类图书,那么在其学科图书h指数自然是理工类图书居多,同理,反之。所以h指数并不适合跨学科、跨学校的比较,它只能作为高校图书馆开展信息服务的一个风向标,它代表的是自身学校读者的阅读倾向。

3 改进的h-type指数

为了提高由于h指数方法自身缺点造成区分能力不足问题,国内外已经提出了数十种改进方法,学术上统称为h-type指数[9],这些指数的设计分别针对h指数的时间问题、数量问题、虚假合作问题进行了改进。在这其中A指数因其计算简单、直观得到了广泛应用,但A指数是基于平均数来计算的,忽视了内部差异。例如对于22大类图书来说,传统h指数是通过借阅频次来进行排序的,从而得出某一类图书的h指数,但是这样往往忽视了该类图书内部的差异,举例来说,A—140、20、20;B—60、60、60,平均被借阅的次数都是60,但是A类图书中有明显借阅率高于其他图书的情况,因此更需要高度关注,在关注平均借阅的同时还要考虑最高借阅的情况,提高区分度,因此在A指数研究的基础上对其进一步的改进和完善,以保证数据合理客观的呈现。综上所述,提出一种改进的指数A+即:

A+指数=h核心图书被借阅次数和+最高借阅次数h

A+指数引入了最高借阅次数除以h的项目,反映了类目内图书的差异,突出了最高借阅次数图书的重要性,提高了指数的区分能力。但在学科内确定核心图书时,不仅要考虑图书的借阅频次还要考虑图书的复本量,因此在计算h指数时要依据相对借阅次数进行排序,为避免区分度不高的情况出现,对其进行修正其公式为:

相对借阅频次=总借阅频次复本量

hx=h+h相对借阅频次

4 实证研究

4.1 数据样本来源

以天津外国语大学(以下简称天外)图书馆2004-2014年各类图书借阅数据为样本,其具体体现为图书馆管理系统(Unicorn系统)中所记录的借阅数据,依据中国图书分类法(第5版)的类目信息确定学科主题图书,利用h指数的基本思想,当且仅当第h本学科图书每本的借阅频次不少于h次,剩下的(N-h)图书的借阅频次小于h次,即第h+1本书借阅频次小于h+1时,该学科图书的h指数为h,通过引入图书最高被借阅次数,计算A+指数。数据检索时间为:2015年5月18日

4.2 A+指数计算及分析

本文通过对22大类图书A+指数的计算和评价,从而确定了天外的核心学科馆藏,如表1所示,在核心学科馆藏范围内以英语翻译专业为例,按照中图法分类规则,其对应的分类号为H315.9,在结合A+指数的评价思想确定该专业领域内的核心图书,因天外为多语种院校,图书分为中文普通书和外文普通书,为了体现语种的不同其分类规则以语种+类属性的形式体现,所以满足英语翻译学科图书的检索参数应为:以H315.9和31/H315.9为检索词,依据中图法C和中图法W进行设置,计算结果如表2所示:

如表1所示,22大类图书的h指数评价有重复的情况(S类和V类),A+指数在考虑最高借阅频次的数值后,更加精细的区分了各类图书的指数,能够降低h指数高重复几率的出现。另外,随着区分能力的提高,各类图书的指数排名会出现细微变化,当该类图书的最高借阅频次越高其A+指数相对h指数的变化就会越大,例如Q类图书的h指数排名为18位,其核内图书最高借阅频次为113,故它的A+指数会发生较大的变化,其排名也随之上升了3位。第三,存在两种评价的结果比较接近的类目,如H类和I类图书,两类图书在h指数和A+指数的评价中的排名占据了前两位,一般情况下,A+指数评价排名较高的图书类目在一定程度上对应着该校的核心专业。以天外为例,作为语言类文科院校其核心学科主要体现为语言和文学两大学科,这一点从分析数据上也得到了支持。A+指数也可以应用在作者、出版社的评价上,以此来提高区分能力,更加细分的显现学科领域内的核心作者以及核心出版社。

如表2所示,通过图书相对借阅频次计算得出h指数,因h指数的时间敏感性在排序上按照图书的出版时间进行倒序排列,但依然存在区分度不高的问题,很多图书的h指数相同,经过hx指数修正后大大提高了区分度,也使得核心图书的排序发生了细微的变化,究其原因是由于借阅频次的差异造成的。当h指数相同,复本量越大借阅频次越高,但其相对借阅频次未必高,所以hx指数有可能会反转如序号7和8的图书。借阅数据是读者对图书所蕴含的核心知识的直接驱动力,对图书馆馆藏海量的借阅信息进行h-type指数的提取以此来确定学科核心图书是有价值的。

4.3 结果讨论

4.3.1 相关关系分析

利用SPSS统计软件对表2中所得到的学科图书评价指标数据进行相关关系统计分析,样本影响因子C和借阅频次P与学科图书hx指数之间的相关性进行分析。如图1和图2所示,两种因子指标在散点图中表现出一定的相关关系。其中复本量C与hx指数之间存在一定弱相关关系,也就是说复本量大的学科图书hx指数未必高,而借阅频次P与hx指数之间成强正线性相关。

为更加精确地分析学科图书h指数与其他评价指标之间的相关关系,利用SPSS计算Pearson相关系数如表3和表4所示。

由表3可知,复本量C与hx指数的简单相关系数为0.011,说明两者之间存在正的弱相关性,其相关系数检验的概率P-值近似为1,大于给定的显著性水平α,不能拒绝原假设,认为两总体存在零相关。但这与存在弱相关之间是不矛盾的。表4可知,借阅次数P与hx指数的简单相关系数为0.837,说明两者之间存在正的强相关性,其相关系数检验的概率P值近似为0,拒绝两总体零相关的原假设。因此,学科图书hx指数的确定与图书的馆藏复本量成正弱相关性,与借阅频次成正强相关性,说明复本量大的图书未必是学科的核心图书,相反一些复本量少但借阅频次高的图书,如商务英语口译。

4.3.2 馆藏学科图书书目分析

英语翻译作为一门理论与实践相结合的学科,其学科核心书目特征也以理论基础类和实践应用类的图书为主,正如表2所示,从内容上看其中理论基础类图书占据24种,占58.6%,学科主题图谱如图3所示,从主题图谱中可以看出,通过对学科图书的细分可以客观、直接的了解本校读者对英语翻译学科图书的阅读倾向及该学科知识体系构成,为更好的构建学科图书馆藏资源建设提供数据支持。

从读者的角度,学科图书hx指数体现了认知主体的选择,借阅某本图书必定能够解决其某一方面的问题,是读者认可图书价值的最直观体现方式,虽然学科图书hx指数不能完全代表该学科领域内的核心知识,但是趋近的状态是显而易见的。从学科图书书目上看,也反映了读者对该学科领域内实践应用的需求,如笔译、口译等级考试类的图书,占总比重的24%。

5 结 语

学科图书在一定程度上能够充分体现学科核心知识,利用h指数的思想对h指数的修正和改进使得学科图书的确定更加具有客观性,并能真实的反映读者阅读需求,我们在为读者提供知识文本的同时,根据读者的需求提供推送式、引导式的学科服务是确定学科图书的主要目的。随着学科理论知识的丰富和不断创新,以图书为表征形式的知识文本将会不断更新,高校图书馆应对学科图书进行定期的统计,从而更及时、准确、全面的为读者提供学科化知识服务,同时有利于高校图书馆信息服务向知识服务的推进。未来也可以更加细化分析,核心图书与读者的关联关系,核心图书与与借阅时间的关联关系等,这些数据的确立都将进一步完善图书馆知识服务的水平,从而全面提高图书馆服务水平。

参考文献

[1]J.E.Hirsch.An index to quantify an individuals scientific research output[J]PNAS,2005,102(46).

[2]赵基明.h指数及其在中国学术期刊评价中的应用[J].评价与管理,2007,(4):14-20.

[3]刘银华.h指数评价期刊的有效性分析[J].情报理论与实践,2007,(6):809-811,815.

[4]万锦,花平寰,赵呈刚.中国部分重点大学h指数的探讨[J].科学观察,2007,(3):9-16.

[5]陈攀,沙勇忠.我国985大学专利H指数分析[J].图书与情报,2014,(5):53-61.

[6]周志峰.h指数应用于图书馆借阅数据分析的探索[J].图书馆建设,2009,(11):82-84,89.

[7]钱玲飞,汪荣.基于h指数的OPAC数据分析及应用[J].大学图书馆学报,2012,(2):61-62.

[8]张贝.试用hg指数应用于图书借阅数据分析研究[J].现代情报,2012,32(12):95-98,104.

[9]王凌峰.一个新的h-type指标[J].情报杂志,2013,(1):55-58.

(本文责任编辑:郭沫含)

猜你喜欢
文献计量高校图书馆
基于文献计量的数据素养及其教育领域研究态势分析
国内电子商务学术研究进展分析
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
高校图书馆阅读推广活动研究
试论高校图书馆在网络环境冲击下的人文建设