关于图书馆学实证研究中数据内生性问题的思考

2018-05-24 05:44辉,王
图书馆理论与实践 2018年4期
关键词:内生性差分法断点

邓 辉,王 锰

(1.陕西省图书馆;2.南京大学信息管理学院)

近年来,越来越多的图书馆学学者采用各类回归模型研究学术接受[1]、借阅量[2]、科技创新[3]、城市化[4]、区域经济[5]、经济增长[6]、财政[7]、高校科研[8]等领域。在CNKI收录的2011-2016年核心期刊论文中,仅基于时间序列模型研究图书馆的论文就有16篇,而基于面板数据模型研究图书馆的论文也有6篇,可见各类回归模型已经成为图书馆学研究的重要手段。

图书馆学研究方法和研究领域的拓展固然可喜,可是这些研究成果几乎都没有讨论数据内生性(Endogeneity)问题,更没有采用相应的工具处理内生性问题。

数据内生性是采用回归模型实证研究常常遇到的问题,许多社会科学都非常重视内生性问题。图1是2006-2016年CNKI收录的以“数据内生性”为主题的论文发文量变化趋势。经济学、管理学和社会学综合排名最高的《经济研究》《管理世界》和《社会学研究》三种期刊中分别有34篇、39篇和5篇涉及相关问题。作为对比,截止2016年,《中国图书馆学报》《大学图书馆学报》《图书情报工作》《图书馆杂志》《图书馆论坛》《图书馆建设》6种CNKI收录的图书馆学核心期刊中,没有一篇论文主题涉及“数据内生性”问题。可见,图书馆学作为一门社会科学,相对于其他学科缺乏对数据内生性问题的重视。

图1 2006-2016年“数据内生性”论文发文量

1 图书馆学研究数据内生性问题的成因

所谓数据内生性问题,指的是某些变量影响回归模型的误差项(随机干扰项),使得回归模型不具有因果推断力,继而不符合最小二乘法成立的假设条件。测量误差、遗漏变量(Omitted Variable)和联立性偏误(Simultaneity Bias)是造成内生性问题的三种常见原因。[9]

数据内生性问题的三种成因在社会科学领域具有普遍性,图书馆学计量研究也会遇到内生性问题。首先,大量图书馆学计量研究采用历年《中国文化文物统计年鉴》《中国图书馆年鉴》中的数据,但在实际统计工作中,由于统计样本选择、响应率、统计问题措辞、问题顺序以及统计人员素质等因素,大部分的统计数据或多或少的会存在测量误差。其次,图书馆学学者在研究时难免有主观局限性。由于选择效应的原因,学者过于关注单个解释变量对事物发展的影响,[10]遗漏其他重要变量,从而会造成模型产生内生性问题。另外,在图书馆学众多计量研究的模型中,其解释变量和被解释变量存在广泛的双向因果关系。公共图书馆等文化建设,不仅受财政、经济增长、科研水平等因素的影响,其本身也是影响财政、经济增长、科研水平的因素,这种双向因果关系会造成计量模型产生联立性偏误,是内生性问题的重要成因。

2 图书馆学研究数据内生性问题的影响

内生性问题会造成计量回归结果有偏(Biased)。如果解释变量和误差项之间正相关,模型就会高估解释变量的影响;如果解释变量和误差项之间负相关,模型就会低估解释变量的影响。因此,忽视数据内生性问题会导致图书馆学计量研究相关结论被夸大,甚至有些研究结论不成立。

以研究图书馆各类指标和经济增长关系为例,忽视数据内生性问题就可能严重影响计量结论。首先,经济发展会影响测量误差。经济发展程度较高的地区,政府更为高效,执行规章制度也就比较严格,因此当地图书馆数据质量较高。相反经济发展落后的地区,数据质量就可能较差。因此相关计量研究会低估经济发展对发达地区图书馆各类指标的影响,而高估经济发展对欠发达地区各类指标的影响。其次,由于图书馆读者受教育相对水平较高,而各地教育水平会影响当地经济发展,因此经济发展在一定程度上是各地教育水平对图书馆各类指标的间接影响变量。当计量回归模型遗漏各地教育水平,就会高估经济发展对图书馆各类指标的影响。最后,图书馆各项指标和经济发展难免有双向因果关系。如,经济增长会增加政府对公共馆图书馆财政补助,而财政补助也会影响经济增长。我们假设两个最简单的回归模型。

其中,Y是经济增长率,X是财政补助,a1和a2是回归系数,u1和u2是误差项。当a1·a2≠0时,可以获知 X= (a2·u1+u2) /(1-a1·a2),此时 X 和 u1相关,回归方程(1)就不符合最小二乘法成立的前提条件,这就是联立性偏误。因此,联立性偏误同样可能会造成相关计量研究结论高估经济发展对图书馆各类指标的影响。

由于图书馆学计量研究必然广泛存在数据内生性问题,忽视相关问题会影响研究结论,甚至可能导致相关结论不成立,因此,图书馆学在计量研究时必须重视数据内生性问题。

3 计量经济学解决内生性问题的方法

计量经济学之所以区别于统计学,就在于计量经济学特别重视分析事物间的因果关系,并发展了一套相应处理内生性问题的工具。[11]工具变量、双重差分和断点回归是计量经济学处理内生性问题常用的三种统计方法。

为了避免内生性问题,越来越多的社会科学开始借鉴这些计量工具。如,美国社会学非常重视工具变量的应用,三大顶级社会学期刊仅仅在2000-2009年间就有57篇论文采用工具变量方法。[12]随着中国学者学术水平的提高,2006-2016年CNKI中文论文使用这三种统计方法的论文数量在不断上升(见图2)。

图2 历年CNKI论文中采用三种计量工具的论文数量

在使用双重差分法和断点回归解决变量间的内生性问题时,一般会借用各种政策法规颁布时间及其具体规定,并要求政策法规的具体规则、实施时间满足一定的随机性。其原理在于政策制度对社会个体的冲击,类似于自然科学的可控实验消除了数据间的内生性问题,因此经济学将这类政策冲击称为准实验(Quasi-experiment)或自然实验(NaturalExperiment)。

双重差分法和断点回归除了可以解决内生性问题外,还是定量分析公共政策实施效果的重要计量方法。图书馆学鼓励定量研究,[13]也很重视公共政策,但很少有针对公共政策的定量研究。如,2014-2016年《中国图书馆学报》(双月刊)和《经济研究》(月刊)分别有10篇和11篇论文以公共政策为主题,然而《经济研究》的11篇论文全部是定量研究,《中国图书馆学报》的10篇论文没有一篇是定量研究。因此,重视使用双重差分法和断点回归评估图书馆学相关公共政策格外重要。

当研究对象不满足随机冲击时,双重差分法和断点回归就不再适用。如,图书馆外借量和图书馆经费显然存在双向因果关系,而图书馆经费的增加不满足随机冲击。对于这类研究课题,我们就需要采用工具变量解决潜在的内生性问题。正是由于使用工具变量法的约束条件较少,因此,图2所显示工具变量法在三种统计方法中被使用的次数最多。

4 双重差分法

实证各类政策效果时常常会面临各种内生性问题,而双重差分法(Difference-in-differencesModel,简称DID)是经济学家定量分析各类法规[14]、政策[15]和制度[16]最常用的方法,可以有效地避免各种内生性问题,其基本思路如式(3)。[17]

式(3)中,β是对政策实施效果的估计量,Xtreatment是实施政策的处理组,Xcontrol是没有实施政策的对照组,下标1和2分别代表政策实施后和实施前,△Xtreatment是处理组政策实施前后的变化量,△Xcontrol是对照组政策实施时间前后变化量。

我们以匿名审稿制度为例分析双重差分法在图书馆学的应用前景。学术期刊的影响因子、总被引频次、平均引文率等相关指标是文献计量学的重要研究方向,匿名审稿制度可以有效地提高期刊相关指标,因此评估匿名审稿制度的实施效果自然也是图书馆学的重要研究课题。

我们在实证匿名审稿制度政策效果时就面临内生性问题。首先是双向因果问题,如,我们很难判断影响因子较高的学科期刊是因为更高的学术追求实施了匿名审稿制度,还是实施匿名审稿制度提高了学术期刊的影响因子,或者是两个方面兼而有之。其次是遗漏变量问题,如,随着学者们越来越重视学术成果的互相借鉴,在没有实施匿名审稿制度的情况下,期刊的平均引用率还是会提高。所以,忽视时间趋势(时间固定效应)可能造成对匿名审稿制度实施效果的高估。

刘瑞明等采用双重差分法研究匿名审稿对国内55种经济学期刊影响因子、总被引频次、平均引文率等指标的影响就成功规避了相关内生性问题,[18]因此,我们结合图3与刘瑞明相关研究加以说明双重差分法如何解决研究政策效果时所面临的内生性问题。在图3中我们假设2015年A类期刊采用了匿名审稿制度,而B类期刊没有采用,直线m是A类期刊平均引文率的年度变化,直线n是B类期刊平均引文率的年度变化。此时A类期刊就是实施组,相应B类期刊就是对照组,而x轴是时间,y轴是平均引文率,a点是2015年12月,b点是2016年12月。

图3 双重差分法的基本思路

通过图3我们很容易明白不能将(mb-ma)记作匿名审稿制度的政策效果。因为,随着学术界整体发展,即便没有出台匿名审稿制度,A类期刊论文平均引文率依然会增加,所以,将(mb-ma)当做匿名审稿制度就忽视了时间趋势(时间固定效应),进而造成对政策效果的高估。

为避免实证中对制度效果的高估,我们必须思考如何剔除时间趋势的影响。在理想情况下,我们希望能够得到没有实施匿名审稿制度的A类期刊在2015年后平均引文率的变化趋势,可以有效地剔除双向因果、遗漏变量等内生性问题。如,图3中直线m’是A类期刊2015年后没有实施匿名审稿制度时其平均引文率的假想变化趋势,此时(mb-m’b)就是内生性问题后A类期刊实施匿名审稿制度政策效果。

虽然现实中很难准确估算m’,不过可以引入对照组解决相关问题。如,可以通过倾向评分匹配法(Propensity Score Matching)[19,20]等方法找到 2015 年前平均引文率变化趋势与A类期刊相似、且2015年没有实施匿名审稿制度的B类期刊作为A类期刊的对照组。结合图3看,就是要求B类期刊平均引文率变化趋势n,与A类期刊实施匿名审稿制度前的变化趋势m’斜率接近。此时由于对照组n和m’斜率接近,我们很容易得出(mb-ma)和(nb-na)之差与(mb-m’b)接近。也就是通过引入对照组B类期刊,巧妙地解决了实证匿名审稿制度政策效果面临的内生性问题。

5 断点回归法

与双重差分法类似,断点回归(Regression Discontinuity,简称RD)不仅可以有效减少数据内生性问题,它也是一种评估政策影响的常用计量方法。[21]断点回归(Sharp RD)基础模型如下。

式(4)中,i代表不同个体,Y代表因变量,X是取值0或者1的政策虚拟变量,N是个体的特征值,c是截距,1、2是回归系数,u是误差。其中,X的取值和N相关,当N大于政策阈值时,X=1,当N小于政策阈值时,X=0。

断点回归对政策规则苛刻,它要求政策规则的设定比较随意。如图4所示,李宏彬等采用断点回归研究退休制度对中国百姓的消费影响[22]便符合使用断点回归的要求。这是因为退休年龄的设定比较随意,因此60岁和59岁的年龄因素对个人影响很小,而社会个体也很难影响退休年龄阈值的制定,所以此时便可以采用断点回归。

图4 退体制度对中国百姓消费影响示意图

虽然断点回归法使用前提比较苛刻,但是,由于文化部门出台的很多政策其阈值满足随机性要求,我们就可以借助相关阈值有效解决内生性问题。因此,断点回归法在图书馆学实证研究中有大量应用空间。如,实证研究图书采购经费和借阅率的关系便面临严重的内生性——双向因果问题。借阅量越高的地区政府有更大的动力提高采购经费,借阅量在很大程度上影响了各级图书馆的采购经费,但我们很难实证图书采购经费对借阅量的具体影响。同时,阅读作为一种休闲方式可能受到人均收入的影响,而人均收入同时又在影响各地财政。与人均收入类似同时影响采购经费和借阅量的因素有很多,因此,在研究图书采购经费和借阅率的关系中可能存在严重的遗漏变量问题。

此时,就可以借用断点回归解决相关内生性问题。文化部第六次图书馆评估定级中对各级图书馆财政报告有明确要求,其中规定,西部地区地市级一级馆年财政拨款不得低于500万,[23]各地政府为了满足相关要求纷纷提高了采购经费。显然“500万”便是比较随机的政策阈值。500万和450万并没有质的区别,500万的政策设定并不是受各地借阅率的影响,因此相关经费的增长内生性问题就会较少,也就可以利用该阈值研究采购经费和借阅量的关系。

6 工具变量法

无论是双重差分法还是断点回归法,都需要借用政策规定等作为随机冲击。而实际中很多研究课题没有好的随机冲击可以利用,此时工具变量法(InstrumentalVariable,简称IV)就是解决研究课题内生性问题较好的方法。

21世纪以来,由于Acemoglu等人的开创性研究,[24]工具变量法的使用范围不断拓展,除经济学外,其他学科也非常重视工具变量的应用。如,陈云松在《社会学研究》中专门介绍了工具变量在社会学的应用前景。[25]

所谓工具变量,就是一种与核心解释变量相关、但与误差项不相干的变量。[26]以研究图书馆财政拨款和文献外借量为例,首先要建立两个回归方程。

式(5)和式(6)是简单的回归方程,其中Y是图书馆文献外借量,X是各地图书馆财政拨款,K是各地人口等控制变量,Z是工具变量,i是各地代码,b和c是截距,β1和β2是系数,v和u是误差项。

工具变量法的核心,就是将在式(5)得到的数据代入式(6)以去除数据的内生性问题,因此工具变量Z必须满足以下条件。

这组公式表示工具变量Z和控制变量K以及误差项u不相关,但和核心解释变量X相关。实际中我们无法通过统计方法判断Cov(u,Z)是否为0,只能判断Cov(X,Z)和Cov(K,Z)。因此,工具变量的选择需要依赖学科领域知识的积累,以判断Cov(u,Z)是否为0。

在筛选工具变量时可以借鉴其他学科的相关研究。与图书馆经费与外借量的关系相似,司法投入和犯罪率之间也存在类似的内生性问题。如,司法投入和经济发展相关,经济发展和数据质量相关,这就会导致内生性的测量误差;同时,司法投入和犯罪率之间也存在双向因果关系。显然这些内生性问题图书馆经费和外借量会存在。

陈硕通过将各地政法委书记的党龄作为工具变量,巧妙地实证了中国司法投入和犯罪率间的关系。[27]陈硕选择政法委书记的党龄作为工具变量,其思路在于政法委书记党龄越长,在常委会的决策影响力就越大,从而会影响司法投入。同时,各地政法委书记的党龄和各地犯罪率不存在明显的直接因果关系,也不会直接影响各地经济发展,因此选择政法委数据党龄作为工具变量可以避免内生性问题。

借鉴陈硕的研究思路,可以利用宣传部长、文化厅长等各地官员的党龄作为工具变量,研究图书馆经费和外借量关系等相关课题。与陈硕研究采用类似方法,但选择不同的工具变量论文还有很多,当图书馆学实证研究在处理内生性问题出现困难时,可以借鉴这些工具变量思路,以提高相关课题研究结论的可信度。

7 结语

随着图书馆学实证研究的增多,越来越多的学者开始采用各种统计方法。然而,长久以来图书馆学相对于其他社会科学,缺乏对数据内生性问题的重视。国内图书馆学核心期刊甚至没有一篇文章讨论过相关问题。本文提倡在图书馆学研究中重视内生性问题,并介绍了计量经济学处理内生性问题的三种常用统计方法,列举了它们在图书馆学的可能应用。

掌握双重差分、断点回归和工具变量三种统计方法,除了可以避免数据内生性问题,还可以扩展图书馆学的研究领域。当研究对象满足随机冲击时,双重差分法和断点回归就非常适用。其中,双重差分法适用于通过对照组研究政策法规的影响,而断点回归适用于通过阈值研究政策法规的影响,二者都可以拓展图书馆学对公共政策的定量研究。工具变量的使用范围更广,可以广泛用于研究各类内生性问题,但工具变量的选择更依赖于知识的积累。

随着图书馆学越来越强调定量研究,非常有必要了解这三种计量方法,希望本文起到抛砖引玉的作用。

[参考文献]

[1]李月琳,何鹏飞.国内技术接受研究:特征、问题与展望[J].中国图书馆学报,2017,43(1):29-48.

[2]龚新刚,等.图书借阅历史数据分析与预测[J].图书情报工作,2015(S1):161-165,87.

[3]陈英,洪源.我国公共图书馆发展与科技创新的协同关系实证研究——基于时间序列模型的长期均衡与短期波动视角[J].图书馆工作与研究,2016,1(6):22-29.

[4]王惠.城市化、经济增长与公共图书馆发展——基于我国省级面板数据[J].图书馆论坛,2015(12):25-31.

[5]李莉,胡玉洲.基于时间序列的公共图书馆与区域经济动态耦合研究——以广东省为例[J].图书馆理论与实践,2014(5):61-65.

[6]赵迎红.公共图书馆发展指标与经济增长关系的计量经济学分析[J].图书情报工作,2012,56(9):61-65.

[7]万雪芹,张婧.中国公共图书馆财政支出与经济增长关系研究[J].图书情报工作,2011,55(21):75-78.

[8]林可全,等.高校图书馆核心竞争力和高校科研能力相关性研究——以“211”高校为例[J].图书情报工作,2014,58(24):5-10.

[9](美)达摩尔·古扎拉蒂.计量经济学原理与实践[M].李井奎,译.北京:中国人民大学出版社,2013:112-142,310-313.

[10] Heckman J J,Smith J A.Assessing the case for randomized social experiments[J].Journal of Economic Perspectives,1995,9(2):85-110.

[11](美)乔舒亚·安格里斯特,纳恩·斯特芬·皮施克.基本无害的计量经济学[M].郎金焕,李井奎,译.上海:格致出版社,等,2012:79.

[12] BollenK.Instrumental variables in sociology and the social sciences[J].Annual Review of Sociology,2012,38(22):37-72.

[13]叶鹰.图书情报学中定性和定量研究方法的科学哲学基础及双重整合原理探析[J].中国图书馆学报,2017(2):4-12.

[14]王靖雯,魏思琦.“婚姻法司法解释三”对女性劳动力供给的影响[J].经济学动态,2016(7):44-50.

[15]刘瑞明,赵仁杰.西部大开发:增长驱动还是政策陷阱——基于PSM-DID方法的研究[J].中国工业经济,2015(6):34-43.

[16]贾俊雪,宁静.纵向财政治理结构与地方政府职能优化——基于省直管县财政体制改革的拟自然实验分析[J].管理世界,2015(1):7-17.

[17](美)詹姆斯·斯托克,马克·沃森.计量经济学导论[M].张涛,等译.北京:中国人民大学出版社,2014:340-341.

[18]刘瑞明,赵仁杰.匿名审稿制度推动了中国的经济学进步吗[J].经济学(季刊),2017(1):173-204.

[19]胡安宁.倾向值匹配与因果推论:方法论述评[J].社会学研究,2012(1):221-242.

[20]胡安宁.社会科学因果推断的理论基础[M].北京:社会科学文献出版社,2015:1-23.

[21]余静文,王春超.新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J].经济学动态,2011(2):125-131.

[22]李宏彬,等.中国居民退休前后的消费行为研究 [J].经济学 (季刊),2014(4):117-134.

[23]文化部办公厅关于开展第六次全国县级以上公共图书馆评估定级工作的通知[EB/OL].[2017-05-16].http://zwgk.mcprc.gov.cn/auto255/201701/.

[24] Acemoglu D,et al.The colonial origins of comparative development: An empirical investigation[J].American Economic Review,2012,91(5):1369-1401.

[25]陈云松.逻辑、想象和诠释:工具变量在社会科学因果推断中的应用[J].社会学研究,2012(6):192-216.

[26](美)杰弗里·伍德里奇.计量经济学导论:现代观点(第五版)[M].张成思,等译.北京:中国人民大学出版社,2015:447-483.

[27]陈硕.转型期中国的犯罪治理政策堵还是疏[J].经济学 (季刊),2012,11(2):743-764.

猜你喜欢
内生性差分法断点
一种适用于继电保护在线整定的极小断点集求取算法
二维粘弹性棒和板问题ADI有限差分法
基于时空域交错网格有限差分法的应力速度声波方程数值模拟
基于有限差分法的双臂关节柔性空间机器人智能递阶控制策略
用Eclipse调试Python
一类无限可能问题的解法
三维地震在新疆伊宁矿区北区七号矿井勘探的应用
基于有限差分法的边坡治理数值分析
基于有限差分法的边坡治理数值分析
比较优势内生结构变动与政策干预