三大中文期刊全文数据库质量述评

2015-12-15 02:03蒋鸿标
现代情报 2015年9期
关键词:中国知网维普

〔摘 要〕为了帮助用户全面了解中国知网、维普、万方三大中文期刊全文数据库的质量,采用文献调查和数据库检索相结合的方法,就期刊收录数量、收录年限、完整程度、论文可下载程度、数据处理效率、数据处理质量等6个非技术性因素进行比较分析,总体上中国知网优于维普和万方,万方则优于维普。针对数据库存在的质量问题,建议服务商从规范著录、质量反馈等方面加强质量建设,并建议用户选择中国知网期刊全文库检索论文以提高检全率,以及组建数据出版集团以提高竞争力。

〔关键词〕期刊全文数据库;中国知网;维普;万方;质量述评

DOI:10.3969/j.issn.1008-0821.2015.09.016

〔中图分类号〕G2507 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0084-05

〔Abstract〕For helping the users know fully the 3 Chinese full-text journal databases quality of CNKI,VIP and Wan Fang(WF)database,the paper used the combined methods with the literature survey and databases retrieval and comparative analysis in journals included,age limited,complete degree,papers downloaded degree,data processing efficiency and quality from non-technical factors.CNKI is better than VIP and WF in general and WF is better than VIP.Aiming at the quality problems of the databases,it is proposed that the service providers strengthen the quality construction of databases from the standard cataloging and the quality feedback and choose the CJFD of CNKI to improve the recall ratio for users,and form a data publishing group to improve the competitiveness for service providers.

〔Key words〕full-text journal database;CNKI;VIP;Wan Fang;quality review

20世纪90年代,我国期刊数字化建设发展迅速,形成了中国知网(CNKI)、维普(VIP)和万方(WF)三大期刊全文数据库(以下简称“三大期刊库”)鼎立的局面,但经过20多年的发展,它们在期刊收录数量、收录年限等方面发生了很大变化。2008年4月,万方与中华医学会签订了合作协议,取得了中华医学会、中国医师协会等权威机构主办的220余种医学期刊(其中核心期刊71种)的独家经营权[1];中国知网也取得2 300余种期刊[2](其中核心期刊1 073种)的独家经营权(数量可能会增加),初步形成了垄断经营的局面。

激烈竞争的结果,必然引发期刊收录数量的变化,一些被独家授权的期刊,都得从已经收录但未获得授权的期刊库中作相关处理,不再提供全文服务。因此,重新评估三大期刊库的质量,对于帮助用户了解其质量现状和数据库商改进质量具有重要的现实意义。

1 三大期刊库质量研究现状

笔者以题名为检索点,“中文期刊数据库”为检索词,模糊匹配,在中国知网《学术文献总库》中检索,结果有266篇,去除不相关文献,研究三大期刊库质量的文献有38篇(检索时间为2015年4月1日)。

曹开江从“收录与更新”两方面比较三大期刊库收录医学文献的质量,认为“数据库收录期刊的数量和回溯时间体现数据库的覆盖量,而覆盖量的大小反映了数据库的权威性、完整性。数据库更新速度越快,时效性越高。”[3]谷景亮统计三大期刊库收录期刊的重复率,认为重复收录给用户“造成人力、物力、财力的巨大浪费”[4]。谭捷从“重复率、更新延迟”等方面分析三大期刊库质量,认为“中国数字出版面临着一个严重的问题就是收录的期刊重复率较高”[5]。李玉玲从“期刊种数、文献数量、学科范围、权威性、重复度、时间跨度、更新频率”7个方面评价三大期刊库质量[6]。赵静娟从“文献收录数量、收录范围、收录内容的权威性、收录年限、内容更新频率”5个方面评价中国知网和维普的质量[7]。刘武宏以轻工业、食品工业、化工工业等学科的部分期刊为调查对象,比较三大期刊库的论文上传效率,通过计算得出“维普数据滞后7个月左右,中国知网数据滞后3个月左右,万方数据滞后10个月左右”的结论[8]。

在收录期刊数量上,多数作者以数据库简介中报道的数据为依据,与实际收录数量存在很大差异;有些作者将三大期刊库重复收录视作不合理做法,这是将其等同于图书馆重复采购文献的错误观点。三大期刊库属于综合性数据库,数量决定质量,如果收录不全就不能保障用户需求。目前,不少图书馆要引进三大期刊库,就是因为它们存在互补性,只有全部购买才能满足用户的需求,是无可奈何的事情;有些作者以“滞后月数”来衡量论文的上传效率是不合理的,因为期刊的出版周期有季刊、双月刊、月刊、半月刊、旬刊和周刊等,因而难以反映真实情况。只有用“滞后期数”来衡量才能直观反映其更新效率,即在同一时间内,谁收录最新一期谁的效率就最高,谁收录最新一期的期刊数量最多谁的效率就最高。至于三大期刊库的数据处理质量,目前没有相关研究。endprint

针对上述研究的不足,本文分别利用中国知网旧版主页、维普主页和万方主页的“期刊导航”功能,从期刊收录数量、收录年限、完整程度、论文可下载程度、数据处理效率(包括论文上传、期刊信息的更新等)、数据处理质量(包括文字录入、题名标引、期数标引、作者标引、原文完整性等)等6个方面比较其质量。

检索功能的强弱也是衡量期刊数据库质量的指标之一,但这个指标属于技术层面的因素,一些作者也作了比较系统的论述。如贾文静从检索方式、检索导航、检索结果等方面比较三大期刊库的差异,认为“三大中文期刊数据库的检索功能多样,有不同的侧重点,体现了各自的发展特色”[9]。为了避免重复,本文着重从非技术性因素比较三大期刊库的质量。

2 三大期刊库非技术性质量现状

21 收录数量

三大期刊库属于综合性数据库,期刊保障程度的高低是衡量其质量的最重要指标。

中国知网有综合期刊库和学术期刊库之分。综合期刊库(包括学术期刊和非学术期刊)为旧版系统收录,打开“期刊大全”后,显示收录10 399种[10](包括停刊,下同);学术期刊库为新版系统(2012年9月24日启用)收录,打开“期刊导航”后显示收录8 194种[11];在核心期刊的收录上,笔者利用旧版“核心期刊导航”(分七大专辑)功能,经统计共1 973种。

维普收录期刊的数量,据公司介绍有“12 000余种”[12],但打开“期刊大全”后并没有显示收录的总数量,而是在其设置的“医药卫生、工程技术、自然科学、农业科学、社会科学”五大专辑的学科名称后,以括号的方式显示每个学科收录期刊的数量。笔者通过统计共21 921种,比公司介绍的数量多出9 000余种,这是由于各学科重复收录造成的。如在“工程技术”专辑中,划分了“一般工业技术(201)”、“电工技术(298)”等20个学科,其中“工业技术学报及综合类(4 228)”所收录的期刊与其他19个学科收录的期刊几乎是重复的;在核心期刊的收录上,维普没有在“期刊大全”中设置“核心期刊导航”来反映收录数量,但通过二次检索,可检索到核心期刊的数量。方法是先打开“期刊大全”,然后随意输入某种期刊名称,点击“搜索”后进入结果界面,接着在结果界面选择“仅显示核心刊”后不用输入刊名直接点击“搜索”,结果显示2 349种(其《产品服务》介绍有“1 957种”)。

万方收录期刊的数量,据公司介绍有“7 000余种”[13],与维普一样,不是在“期刊浏览”中显示收录的总数量,而是在其设置的“哲学政法、社会科学、经济财政、教科文艺、基础科学、医药卫生、农业科学、工业技术”八大专辑的学科名称后,以括号的方式显示每个学科收录期刊的数量。笔者通过统计共8 533种;在核心期刊的收录上,万方通过在每个专辑中设置“核心刊”反映收录的数量,笔者通过统计共3 217种(据公司介绍有“2 800余种”)。

从三大期刊库收录的数量来看,存在很大差异,其中维普收录的数量似乎是最多的,但实际上是因收录大量停刊、重复著录、将改名期刊著录多条数据以及有刊名无全文等造成的;在核心期刊的收录上,也因来源、版本以及更新效率不同而形成很大差异。随着中国知网获得2 300余种期刊的独家经营权,如果这些期刊原来都被维普和万方收录,将不再提供全文,因而其实际收录数量会少得多。

2013年,我国出版期刊9 877种[14],其中2012年版《中文核心期刊要目总览》(简称“2012年版《总览》”)收录核心期刊1 982种(其中人文社会科学类769种,自然科学类1 213种)。对于期刊库收录的期刊,人们一般认为是指目前正在出版发行的期刊(现刊),但事实上包括停止出版的期刊(过刊),因此三大期刊库收录现刊的数量与目前出版发行的数量存在一定差距。

22 收录年限

期刊收录年限的长短,可以反映文献的完整程度,是衡量期刊库质量的重要指标之一。

中国知网收录期刊的年限,据介绍主要为1994年至今,但有3 500余种期刊回溯至创刊年;维普收录期刊的年限,据介绍主要为1989年至今;万方收录期刊的年限,据介绍主要为1998年至今。

从数据库介绍可以看出,维普的收录时间最早,中国知网次之,万方最迟,但由于中国知网有3 500余种期刊的收录起始时间回溯至创刊年,因此在收录年限上远远超过维普和万方。

23 完整程度

考察期刊库完整程度有3个指标:一是现刊保障程度;二是收录年限是否连贯;三是期数是否齐全。

在现刊保障方面,三大期刊库普遍存在“你有我无,你无我有”或者都没有的情形。如《投资研究》仅中国知网收录,《广东橡胶》仅维普收录,《城市建设》仅万方收录,而《中小学英语教学与研究》、《交际与口才》、《港口设计》、《上海渔业经济》等期刊目前三大期刊库都没收录。在收录的现刊中,中国知网最多(约9 635种。计算方法是将目前出版的9 877种减去万方独家收录的220种和维普独家收录的10种以及中国知网无收录或停止收录的非维普和万方独家收录核心期刊12种),万方次之(约7 532种。计算方法是将目前出版的9 877种减去中国知网独家收录的2 300种和维普独家收录的10种以及万方无收录或停止收录的非中国知网和维普独家收录核心期刊35种),维普第三(约7 283种。计算方法是将目前出版的9 877种减去中国知网独家收录的2 300种和万方独家收录的220种以及维普无收录或停止收录的非中国知网和万方独家收录核心期刊74种),其中,2012年版核心期刊(1 982种)的收录数量,中国知网1 887种,维普762种,万方864种(见表1。统计时间:2015年4月10日至4月20日)。

在收录年限的连贯性和期数的完整性方面,三大期刊库都存在不足[15]。例如,《安徽大学学报(哲学社会科学版)》(双月刊,1933年创刊),中国知网收录年限为1933年至今,其中1933年收录第1、2、3期,1934-1959年没有收录,1960-1977年间缺漏若干期,1978-1993年间缺1984年第4期,1994年至今收录齐全;维普收录年限为1993年至今,但1993年仅收录第4期,1994-1999年全部没收录;万方收录年限为2000年至今,但缺2000年第3、6期。更为严重的是,近几年出版的期刊,三大期刊库也有缺漏。如截至2015年4月20日,《广东农业科学》(半月刊)维普已收录到2015年第2期,但缺2014年第15期;《建筑经济》(月刊)万方已收录到2015年第3期,但缺2014年第4~9期;《建筑学报》(月刊)中国知网已收录到2015年第3期,但缺2014年第9、10期。即使是暂时缺漏,也说明其工作程序是混乱的。endprint

24 论文可下载程度

论文可下载程度是指三大期刊库收录的文章是否都提供全文下载,有无保密或仅提供题名检索而无全文下载的问题。笔者经过多年的检索实践,发现中国知网有一些文章如《农村留守老年人犯罪透视》、《Revised National Standard for Food Additives Protects Food Safety》等因保密不能下载全文;维普和万方收录的期刊中,则有个别年份个别期的文章不能下载。例如,1972年创刊的《湖南水产科技》(1984年改名为《湖南水产》,1991年改名为《内陆水产》,2010年改名为《当代水产》,维普著录4条数据,中国知网和万方著录1条数据),维普收录年限为1974年至今,但1991-1994年间以及1995年第12期收录的文章,在点击“下载全文”时却提示因文章未收录而不提供全文下载;万方收录年限为2001年至今,在2010年收录的1~12期文章中,除了第10期可下载全文外,其余11期的文章都无全文下载(中国知网除了缺失的期数外,都可下载全文)。

25 数据处理效率

主要指期刊库的论文上传效率(用滞后期数来衡量)和期刊信息的更新效率。

笔者选取三大期刊库共同收录的728种核心期刊(其中图书情报档案类11种)为统计对象,比较它们在三大期刊库中的论文上传效率(见表4和表5。检索时间:2015年4月20日)。

在论文上传效率方面,中国知网“每日更新”[2],维普“每周五更新”[12],万方“每周两次更新”[1]。这是三大期刊库在制度上确定的不同的更新周期。如在图书情报档案类11种核心期刊(其中月刊5种,双月刊6种)中,收录2015年第1至第3期的数量,中国知网8种,维普5种,万方7种,结果表明中国知网快于维普和万方,万方则快于维普;再从三大期刊库共同收录的728种核心期刊上传2015年的期刊数量来看,也可以得出相同的结论。

在三大期刊库共同收录的728种核心期刊中,中国知网上传2015年的期刊数量为678种,占总数的931%,维普为456种,占总数的626%,万方为624种,占总数的857%。

在期刊信息的更新方面,中国知网和维普分别设置“周期”和“刊期”栏目来标引期刊的出版频率。但中国知网对《会计之友》(2011年改为旬刊)、《力学进展》(2008年改为双月刊)、《生物物理学报》(2010年改为月刊)等9种核心期刊的出版频率未作更新,维普对《广西民族研究》(2014年改为双月刊)、《教育与经济》(2013年改为双月刊)、《国家图书馆学刊》(2012年改为双月刊)等29种核心期刊的出版频率未作更新。万方没有标引期刊“出版周期”,有些仅在“简介”中有所说明。

26 数据处理质量

数据处理质量是指工作人员在建库过程中因操作不当造成的质量问题。主要包括5个方面:

261 文字录入错误

例如,将“竞争”著录成“竟争”的题名,中国知网有116条记录,维普有75条记录,万方有43条记录;将“时间”著录成“时问”的题名,中国知网有30条记录,维普有270条记录,万方有187条记录;将“吸入性”著录成“吸人性”的题名,中国知网有18条记录,维普有91条记录,万方有58条记录。

262 题名标引不全或错误

例如,中国知网将《1957-2007中央教育科学研究所成立五十周年》中的“1957-2007”漏掉、维普将《1999-2008年我国SVM文本分类文献计量分析》中的“1999-2008”著录成“1999-21308”,将《GT4BZ封罐机送罐部分改进实用技术》中的“GT4BZ”著录成“GT4B2”。

263 期数标引不当

对于一些以文字(如上、下;上、中、下)标识期数的半月刊或旬刊,三大期刊库都没有忠于原刊著录,而是人为地用阿拉伯数字标引成24期或36期。例如,《材料导报》(半月刊)每月分A刊和B刊两期出版,三大期刊库标引成1~24期;《会计之友》(旬刊)每月分上、中、下三期出版,三大期刊库标引成1~36期。又如《教育导刊》(1996年改为半月刊),每月分别用“上半月”和“下半月”标识期数,三大期刊库当作两种期刊处理,形成两条相同的数据,如2014年12月的上半月和下半月两期,都标识为“201412”,造成与原刊标识不一致。合理的做法应是如实标引,如2014年12月的两期分别标引为“12月上”、“12月下”。这个问题也反映了一些期刊编辑部在期数标识问题上的随意性(应统一用阿拉伯数字标识),会对图书馆的期刊登记工作、索取号的编制以及数据库商的数据处理带来不便。

此外,三大期刊库存在期数重复标引或错误标引等问题。例如,中国知网重复标引《中国远程教育》2013年第10期和2014年第12期、将《中国全科医学》(旬刊,每月分“A”、“B”、“C”3期出版)2013年11、12月出版的A、B、C三期分别著录成37~39和40~42期,漏掉了2月份的A期、3月份的B期、4月份的C期、6月份的A期、7月份的B期以及8月份的C期(对应的期数是4、8、12、16、20、24);万方除了标引《制冷学报》(双月刊)2012年第1~6期外,还将10月出版的第5期当作第10期加以标引;维普则对改名期刊重复标引全部期数。例如,经历过3次改名的《当代水产》,实际上是1种期刊,维普却当作4种期刊并且重复标引全部期数。

264 作者标引缺漏或错误

例如,中国知网未对《企业质量认证初探》的作者“张海明”做标引,将《初论图书馆识别系统》的作者“吴薓年”标引成“吴年”;万方将作者“吴薓年”著录成“吴徐年”的记录有7条;维普将《期刊刊次号设计研究述评》的作者“杨肥生”标引成“杨月巴生”。此外,维普出现用拼音代替作者姓名的现象,如用“吴Tu年”代替“吴薓年”的记录有13条。endprint

265 全文缺漏

例如,《医学信息》2011年第1期刊登的《针灸治疗面瘫的临床分析》,原文共两页(第175~176页),中国知网缺失第175页,《情报杂志》2010年第2期共刊登47篇文章,中国知网遗漏其中的《超链接分析方法及其测评方法——指标体系研究》;中国知网和万方缺失《中国远程教育》(半月刊)的下半月1~12期全文;维普仅提供《学校党建与思想教育》(旬刊)每月上旬的全文,缺失中旬和下旬的全文。

3 结 语

数据库质量决定服务商的竞争力,关乎买家的利益和用户的利用,同时影响我国信息事业的可持续发展。因此,提高数据库质量是服务商、用户和国家相关管理部门的共同责任。

31 服务商提高数据处理质量的对策

数据处理是由人来完成的,建库人员的业务水平和工作态度直接影响数据处理质量。数据库商应重视数据处理中存在的问题,采取有力措施加强质量建设:一是制定科学合理的数据处理细则,促进数据处理的规范化和标准化,避免随意性,特别要防止期数的缺漏和著录错误,并统一采用《中国图书馆分类法》标引期刊,避免分类上的差异;二是建立严格的质量审核机制,奖罚分明;三是建立质量反馈制度,对反馈错误数据的读者给予适当的奖励(现金或话费)[16],以激发读者参与质量建设的热情。

32 用户检索数据库的策略

从调查结果可以看出,中国知网在期刊收录数量、收录年限和完整性等方面都远远超过维普和万方,这就为提高论文的检全率提供了坚实的物质基础。因此,用户宜首选中国知网期刊库检索全文,以全面反映学科的研究现状,进而提高数据分析的科学性、客观性和准确性。同时,要认识到三大期刊库存在的互补性,在中国知网期刊库没收录的情况下再检索维普或万方期刊库,以提高相关研究论文的完整性。

33 加强合作,组建数据出版集团

期刊数据库以其保障程度高,更新速度快,检索方便深受读者的青睐。但目前中国知网和万方开展的期刊独家授权活动,不仅提高了自身的建设成本,也增加了用户的使用成本,并将严重影响科技知识的传播,对建设我国创新型社会带来不利影响。因此,国家有关管理部门应站在战略发展的高度来看待这个问题,防止这种行为继续蔓延或被国外出版集团并购,惟一可以做大做强的举措是由国家相关管理部门牵头,联合中国知网、维普和万方组建数据出版集团,统一人马、统一服务器,统一销售,并明确分工(如中国知网主打中文期刊库,维普主打外文期刊库,万方主打学位论文库等),将目前具有互补

性的资源整合后,以原数据为基础,重新组建若干个大型全文数据库,以提高国内外竞争力。这样既能保证资源的完整性,又能避免恶性竞争带来的不良后果。

参考文献

[1]产品与服务[EB/OL].http:∥www.wanfang.com.cn/8-2j-cpyfw.html,2015-04-25.

[2]数据库介绍信息[EB/OL].http:∥acad.cnki.net/KNS/brief/result.aspx?dbprefix=CJFQ,2015-04-25.

[3]曹开江.我国三大全文期刊数据库医学数据质量的比较研究[J].图书馆理论与实践,2008,(3):24-27.

[4]谷景亮,赵芳,曹先平.3大中文期刊数据库收录期刊重复情况探索[J].医学信息学杂志,2011,(8):26-28.

[5]谭捷,张李义,饶丽君.中文学术期刊数据库的比较研究[J].图书情报知识,2010,(4):4-13.

[6]李玉玲,陈祥君,李惠.中文期刊全文数据库模糊综合评价[J].情报科学,2009,(12):1844-1847.

[7]赵静娟,郑怀国,谭翠翠,等.中文期刊全文数据库的评价研究——以清华同方和重庆维普为例[J].现代情报,2009,(10):62-65.

[8]刘武宏.中文电子期刊数据库数据滞后问题的探讨[J].图书馆论坛,2008,(5):56-58.

[9]贾文静.中文期刊全文数据库检索功能比较研究[J].情报探索,2012.(10):70-72.

[10]期刊导航[EB/OL].http:∥acad.cnki.net/Kns55/oldnavi/nNavi.aspx?NaviID=1,2015-04-25.

[11]期刊导航[EB/OL].http:∥epub.cnki.net/kns/oldnavi/nNavi.aspx?NaviID=100,2015-04-25.

[12]产品服务[EB/OL].http:∥www.cqvip.com/productor/prozk.shtml,2015-04-25.

[13]期刊[EB/OL].http:∥www.wanfangdata.com.cn/ResourceDescription/Periodical.aspx,2015-04-25.

[14]2013年全国新闻出版业基本情况[EB/OL].http:∥news.xinhuanet.com/newmedia/2014-08/13/c1268664462.htm,2015-04-25.

[15]方宝花.中文三大全文期刊库存在的问题及改进措施[J].图书馆工作与研究,2011,(7):71-73.

[16]蒋鸿标.图书馆书目数据质量问题与控制研究[J].山东图书馆学刊,2012,(1):78-83.

(本文责任编辑:郭沫含)endprint

猜你喜欢
中国知网维普
基于数据挖掘的结直肠癌中医证型与中药应用规律研究❋
全文数据库(维普、超星)收录证书
The Role of an Independent Netherlands Laboratory in the Trade and Industry of Edible Oils and Fats
《广西民族研究》创办30年来刊发文章的回顾与展望
媒介融合研究的特点与问题
中国知网数据库涨价之对策分析
AMLC与PSDS检测医学论文重复率结果分析
利用VB读取中国知网过刊数据提取元数据的研究
基于“维普”的我国呼吸机相关性肺炎护理的文献计量研究
基于数据库的咸阳职业技术学院科研论文统计分析