中国行政区划改革的绩效：近二十年定量研究述评与展望*

2022-11-01 02:03吴金群

江海学刊 2022年5期

吴金群游晨

问题的提出

作为国家治理的“重要资源”和“权力的空间配置”，行政区划是政治经济活动的基本框架，事关社会的长治久安和经济的繁荣兴盛。国家根据行政管理和政治统治的需要，遵循有关法律规定，充分考虑经济联系、地理条件、民族分布、历史传统、风俗习惯、地区差异和人口密度等客观因素，将领土划分成若干层次、大小不同的行政区域系统，并在各个区域设置相应的地方国家权力机关和行政机关，建立政府公共管理网络，为社会生活和社会交往明确空间定位。(1)浦善新：《中国行政区划改革研究》，商务印书馆2006年版，第1页。在静态意义上，行政区划可以简称为行政区或政区，由地域空间、政区名称、建制等级、隶属关系、行政中心、公共机构和人口等基本要素组成。在动态意义上，行政区划还带有改革的意涵，涉及政府层级调整、管辖范围变动、隶属关系变化、地域边界重划、行政建制变更、政区名称改变、政府驻地迁移等多个方面。(2)朱建华等：《改革开放以来中国行政区划格局演变与驱动力分析》，《地理研究》2015年第2期。当前，我国地方行政区划主要由省(自治区、直辖市)—地级市(自治州)—县(县级市)—乡(镇)四级组成，不同建制层级的主要改革方式如表1所示。值得注意的是，法律法规定义的行政区划改革与实际管理权属的调整存在差异。部分改革方式并不属于法律法规或政策文本意义上的行政区划改革，但又部分具有行政区划改革的实际功效，属于“准行政区划改革”，如表1中的计划单列与省管县。此类改革已有现实的广泛实践与理论的丰富探讨，故将计划单列与省管县纳入改革评述之中，以提升评述的代表性与广泛性。

表1 改革开放以来中国行政区划改革的主要方式

习近平总书记高度重视区域发展和行政区划工作，强调“行政区划本身也是一种重要资源，用得好就是推动区域协同发展的更大优势，用不好也可能成为掣肘”。这一重要论述，对行政区划的功能和地位做了新的概括和提升。作为上层建筑，行政区划是国家进行区域划分和行政管理的主要依托，可体现为政府掌控的空间资源、权力资源、组织资源和政策资源。(3)赵聚军：《中国行政区划研究60年：政府职能转变与研究导向的适时调整》，《江海学刊》2009年第4期；王开泳、陈田、刘毅：《“行政区划本身也是一种重要资源”的理论创新与应用》，《地理研究》2019年第2期。作为“重要资源”的行政区划、遵循诸多原则和要求的行政区划改革，到底有没有带来区域发展绩效的提升呢？当前的定量研究依然莫衷一是，以至于本应作为理论与实践“桥接”的实证研究，长期以来未能为行政区划改革提供恰当的指引。

一般来说，改革的绩效是相关改革实施后产生的经济、政治、社会、文化、生态影响或效果。在行政区划改革过程中，改革自身蕴藏的不确定性经常导致相关政策的变化调整。而相关政策的不断调整，又会进一步增加改革的不确定性。比如：从1997年开始，国务院基本冻结了县改市审批，但又在2016年后悄然放开；党的十八大以及此前多次提及的省管县改革，未在十九大报告以及此后的重要文件中出现。同时，在地方上，行政区划改革存在着“逆向调整”(4)范今朝、王剑荣、蒋瑶璐：《试论中国当代城市化进程中的行政区划“逆向调整”现象——以永康市芝英镇的行政区划调整过程为例》，《经济地理》2011年第11期。或“市制回调”，(5)何李：《市制回调：行政区划改革的弹性因素》，《理论与现代化》2016年第2期。即行政区划改革并不只往一个方向前进，有时会出现“后退”或者是“反复”。各省推行的省管县政策各不相同，存在财政直管、经济社会管理权下放、全面省直管等权力设置组合。(6)廖超超、吴金群：《政府间责权利交错的功能及其实现机制》，《江海学刊》2021年第4期。同时，取消试点也时有发生，如2015年河北取消8个县(市)试点、黑龙江绥芬河市改革6年后退出省直管等。因此，与改革本身的复杂性相一致，改革的绩效及其认知出现了巨大的不确定，这就是所谓的“绩效悬疑”问题。作为一种现实描述，绩效悬疑是指改革的自身绩效存在不确定性，在客观上有可能表现为正向、负向或不显著的影响，这使得各级政府在行政区划改革中趋于谨慎。作为一个学术问题，绩效悬疑指的是绩效研究的结论存在很大的不确定性，正向、负向、不显著等多种结果“彼此龃龉”。也就是说，绩效悬疑既包括行政区划改革客观绩效的变动不确定，又包括对客观绩效进行理论研究的结果不确定。当然，不同层级行政区划改革的目标导向各不相同。改革所在的层级越高，其“政治性”(政权稳定、领土完整、边疆安全等)愈强，反之则其“发展性”(经济社会发展)或“治理性”(治理精细化、治理成本取舍等)愈突出。整体而言，当前的行政区划改革以“发展性”或“治理性”目标为主，并且无论在理论研究还是政策实践中均存在绩效悬疑问题。作为一项对近二十年定量研究的述评，本文的重点在于破解作为理论研究的绩效悬疑，即关注理论研究结果的不确定。

绩效悬疑的缘由：定义、测量与评估方法

(一)绩效的定义：模糊的范围

《行政区划管理条例》从社会主义现代化建设、国家治理体系与治理能力现代化、行政管理、民族团结、国防、国家战略、经济社会发展、城乡统筹与区域协调等领域，勾勒了行政区划改革的基本要求。事实上，这也是我国行政区划改革绩效的宏观图景。在相关研究中，虽然大部分文献都不直接提及“绩效”一词，但不少研究涉及对行政区划改革的效果评估或影响分析。目前，理论界对中国行政区划改革的绩效，并没有详细定义或分析框架，尚未达成明确的共识。在某些细分领域，则形成了较为模糊的范围，大致可以归类为经济增长、(8)王贤彬、聂海峰：《行政区划调整与经济增长》，《管理世界》2010年第4期；Ma G., Mao J., “Fiscal Decentralisation and Local Economic Growth: Evidence from a Fiscal Reform in China”, Fiscal Studies, Vol.39, No.1, 2018.民生(公共物品)供给、(9)宁静、赵国钦、贺俊程：《省直管县财政体制改革能否改善民生性公共服务》，《经济理论与经济管理》2015年第5期；谭之博、周黎安、赵岳：《省管县改革、财政分权与民生——基于“倍差法”的估计》，《经济学(季刊)》2015年第3期。财税状况、(10)贾俊雪、宁静：《纵向财政治理结构与地方政府职能优化——基于省直管县财政体制改革的拟自然实验分析》，《管理世界》2015年第1期；郭庆旺、贾俊雪：《财政分权、政府组织结构与地方政府支出规模》，《经济研究》2010年第11期。环境治理(11)蔡嘉瑶、张建华：《财政分权与环境治理——基于“省直管县”财政改革的准自然实验研究》，《经济学动态》2018年第1期；Zhang Q., Yang L., Song D., “Environmental Effect of Decentralization on Water Quality Near the Border of Cities: Evidence from China’s Province-managing-county Reform”, Science of the Total Environment, Vol.708, 2020.等。不过，相似概念的定义有较大不同。例如，在研究省直管县的经济绩效时，有研究将其定义为人均财政支出与真实经济增长率，(12)才国伟、黄亮雄：《政府层级改革的影响因素及其经济绩效研究》，《管理世界》2010年第8期。而有研究则定义为实际GDP指数；(13)罗植、杨冠琼、赵安平：《“省直管县”是否改善了县域经济绩效:一个自然实验证据》，《财贸研究》2013年第4期。研究撤县设区后的经济增长时，有学者对经济增长的定义较为宽泛，不仅考虑传统的GDP，更将固定资产占GDP比重等内容纳入其中，(14)王贤彬、谢小平：《区域市场的行政整合与经济增长》，《南方经济》2012年第3期。而其他研究的界定中仅为实际GDP增长率和人均实际GDP增长率，(15)聂伟、陆军：《撤县设区改革与地级市经济增长——整县设区和拆县设区的比较研究》，《经济问题探索》2019年第2期。可见相同概念下定义的范围延展差异较大。

这不仅说明了对改革绩效的定义或度量千差万别，而且相似概念的具体界定也很不一样。上述概念松散地构成了行政区划改革绩效研究的大致内容，学者们基于各自的理论视角在模糊的定义范围内“各取所需”。但是对于同一概念的使用与理解若未能达成相对一致，研究之间的有效对话将难以达成，概念本身的解释与被解释的效力也会降低。当前，相关研究整体上缺乏详细的定义或框架，使得文献对话缺乏明确的讨论基石，从而未能形成紧密的学术议题，也因此埋下了绩效悬疑的种子。

(二)绩效的测量：指标的分歧

绩效的准确测量，是判断行政区划改革成败的基础。唯有科学的指标体系，才能实现绩效的具象化和客观化。在操作中，测量服务于具体的研究目的，理论视角既决定哪些特征(指标)需要测量，也决定如何去测量。正是由于理论视角与研究目的的差异，相关文献在测量绩效时，选取的指标不尽相同。从财政理论、公共物品理论视角出发，指标的选取更多关注财政的支出规模以及相应的支出结构；(16)陈思霞、卢盛峰：《分权增加了民生性财政支出吗?——来自中国“省直管县”的自然实验》，《经济学(季刊)》2014年第4期。而从经济增长理论的视角则倾向于使用GDP、全要素生产率、固定资产投资等指标来测量绩效。(17)Bo S., “Centralization and Regional Development: Evidence from a Political Hierarchy Reform to Create Cities in China”, Journal of Urban Economics, Vol.115, 2020;邵朝对、苏丹妮、包群：《中国式分权下撤县设区的增长绩效评估》，《世界经济》2018年第10期。即使是相近的理论视角及概念，已有研究在指标选择上也有不同的取向：首先，对同一概念使用不同的指标。比如在省直管县改革的绩效研究中，考察经济绩效时有宏观的夜间灯光亮度(18)Li P., Lu Y., Wang J., “Does Flattening Government Improve Economic Performance? Evidence from China”, Journal of Development Economics, Vol.123, No.6, 2016.与微观的企业资产增长率(19)郑文平、张杰：《“省直管县”能否促进经济增长?——来自河南省企业层面的经验证据》，《当代财经》2013年第8期。之间的不同。其次，已有文献在指标测量的数据层级方面存在差异。如同样以人均GDP衡量省直管县的绩效，但存在县级人均GDP(20)李一花、李齐云：《县级财政分权指标构建与“省直管县”财政改革影响测度》，《经济社会体制比较》2014年第6期。与省级人均GDP(21)叶兵、黄少卿、何振宇：《省直管县改革促进了地方经济增长吗?》，《中国经济问题》2014年第6期。的差异。在研究中，指标的不同将直接影响结论的可比性和讨论空间。同时，除非研究指向明确，在理想状态下测量的指标层级应与具体的改革措施相匹配，而数据层级的错配可能导致测量误差。囿于数据可得性的限制，部分研究未能选取合适的数据测量层级。上述指标差异虽能扩展改革绩效研究的广度，但也间接增加了研究对话的难度。倘若不细究测量指标的分歧，各类研究之间“彼此龃龉”的现象将难以消弭。

(三)绩效的评估：方法的争论

行政区划改革是“因”，改革的绩效是“果”。选择恰当的方法识别其中的因果效应则是研究的焦点。其中，运用恰当的识别策略以解决OLS估计中可能的内生性问题尤为关键。为解决内生性问题并引入因果推断思想，各种政策评估的计量方法应运而生，进展迅速。(22)Abadie A., Cattaneo M.D., “Econometric Methods for Program Evaluation”, Annual Review of Economics, Vol.10, No.1, 2018.各类方法并无优劣之分，关键取决于场景是否适用并满足相应的前提条件。倘若部分未满足，则识别策略存在缺陷，研究的结论容易受到质疑，争议由此而起。以双重差分法(DID)为例，它有两个假设：一是随机性假设，需使用随机化排除无法控制因素的影响。二是同质性假设，处理组与控制组除政策冲击外，各个方面应近乎相等或完全相似。(23)陈林、伍海军：《国内双重差分法的研究现状与潜在问题》，《数量经济技术经济研究》2015年第7期。由此看来部分研究在方法使用中存在瑕疵，如有研究(24)刘佳、马亮、吴建南：《省直管县改革与县级政府财政解困——基于6省面板数据的实证研究》，《公共管理学报》2011年第3期。在分析省直管县对县级财政的影响中，缺乏平行趋势检验，改革的试点选择可能不是随机化的。同样在合成控制法(SCM)的使用中，应当对样本使用安慰剂检验(placebo test)或排序方法(permutation method)检验结果的稳健性，以满足随机假设。但是在研究撤县设区中，有文献可能因为篇幅原因未报告相应的稳健性检验。(25)卢盛峰、陈思霞、张东杰：《政府推动型城市化促进了县域经济发展吗》，《统计研究》2017年第5期。此外，依据具体的研究议题，需要补充恰当的稳健性检验以佐证改革绩效研究的可信度，如替换因变量、安慰剂检验、排除干扰政策、空间权重矩阵的引入等。识别策略与稳健性检验的潜在缺陷将影响估计系数的可信度，绩效研究结论的不确定性也由此增加。可见，是否采用合适的识别策略缓解内生性问题以实现因果推断，已成为影响改革绩效研究可信性的关键，同时也是导致绩效悬疑的重要原因。

绩效清晰化的路径：概念框架、测量方式与计量方法

绩效悬疑问题的存在，不仅反映了学术界的分歧严重，同时也导致实务界在推行改革时缺乏科学的理论指导。为了尽可能地消除绩效悬疑的负面影响，合理引导未来的绩效研究，一方面，需要建构行政区划改革绩效的概念框架，以容纳不同的理论视角与研究目的，形成共同基石；另一方面，则需改进评估的方法过程，最大化识别改革的因果效应，减少评估偏差。因此，本文尝试从概念框架、测量方式与计量方法这三个路径进行阐述。

(一)概念框架：三层概念结构的体系

基于加里·戈茨的三层次概念结构，(26)[美]加里·戈茨：《概念界定：关于测量、个案和理论的讨论》，尹继武译，重庆大学出版社2014年版，第1—16页。采用本体论与实在论的思路，构建中国行政区划改革绩效的概念框架。首先是基本层次，即改革绩效。该层次在认知上处于核心地位，可以添加具体的限定词，如省直管县的改革绩效等。其次是第二层次，为改革绩效这一概念提供构成维度。英文文献中近似的研究可归类于territorial reforms(领土改革)，其绩效主要划分为经济、管理、民主三个类别，而结合我国经济、政治、社会、文化、生态五大核心领域，本文尝试性地提出从经济效应、政治效能、社会效益、文化效用、生态效果五个维度考量改革绩效。再次是指标/数据层次，即操作化层次。该层次是各维度的经验化现象，可选用具体指标进行数据的收集与测量。

在具体的指标层次中，已有文献的具体指标较多关注经济效应、社会效益和生态效果，为该领域的绩效清晰化奠定了良好基础，值得参考。结合前人研究成果，并考虑横向对比的可行性，未来研究在经济效应的指标/数据层次中，可以选择区域内人均GDP及其增长率、人均财政支出/收入及其增长率、第二/第三产业占比及其增长率等宏观或微观企业数据指标；社会效益则可以从公共服务(科教文卫体)支出占财政支出比重及其增长率、公共服务存量(人均床位数、人均医院数等)、城乡收入差距、城镇化水平等指标入手；生态效果则可以从水质(如生化需氧量、氨氮量)、空气质量(如雾霾浓度、二氧化硫浓度)等环境指标出发研究。文化效用与政治效能在现有研究中较少提及，相应的指标/数据层次的内容偏少。在已有的中英文研究中，采用回归模型分析文化效果的文献更为罕见，一般都使用定性分析，缺乏对应的量化指标，比如有研究(27)范今朝、张锦玲、刘盈军：《行政区划的调整与遗产“原真性”的保护——以遗产(地)所在政区的更名对区域遗产保护的负面影响为例》，《经济地理》2009年第9期。分析行政区划调整与遗产保护之间的关系。对此，可尝试以问卷调查法测量居民的主观感知或行为倾向，例如参考组织认同、满意度等方式，(28)徐超、孙文平：《分权的“悖论”：“省管县”改革对居民医疗服务满意度的影响》，《财经研究》2016年第4期。构造行政区划的文化认同指标，或是文化建设的参与倾向、文化发展满意度、文化影响的正面感知等数据指标，用以分析行政区划改革的文化效用。在政治效能方面，可借鉴关于行政区划改革中投票率的研究，(29)Lapointe S., Saarimaa T., Tukiainen J., “Effects of Municipal Mergers on Voter Turnout”, Local Government Studies, Vol.44, No.4, 2018; Blesse S., Roesel F., “Merging County Administrations-cross-national Evidence of Fiscal and Political Effects”, Local Government Studies, Vol.45, No.5, 2019.构造区域人大代表的投票率作为测量指标，或改造英文文献中的IPE(internal political efficacy，内在政治效能)与EPE(external political efficacy，外在政治效能)的指标体系，以及政治参与行为的测量，建立居民的政治参与、社会合法性认同等指标，形塑政治效能的指标/数据层次。但国外的政治效能指标其原意不一定符合当代中国的政治语境，“行政区划”作为“国之大政”，其政治效能的含义与国外研究具有较大不同，并且如何测量依旧较为困难，因此上述指标的引介希望激发未来学术界的进一步探讨。

为最大化弥合定义分歧，更好地实现绩效清晰化，可将后续研究纳入同一概念框架。现有研究较多关注经济效应、社会效益、生态效果，而对文化效用和政治效能的研究相对不足。所以，应当在文化和政治这两个维度上进一步挖掘，拓展绩效研究的深度与广度。

(二)测量方式：指标选取与样本改良

未来的研究可根据具体的理论视角与研究问题选择相应指标，具体有三种可能的方式：一是单一指标的广泛性测量，即选定单一指标体现改革绩效且样本量较大。如只选用人均GDP作为因变量衡量改革的经济绩效。单一的指标选取便于不同研究的横向对比，但缺陷在于单一指标的解释力度可能有限。比如，研究乡镇撤并对农村经济增长的影响，(30)贺大兴：《乡镇撤并改革和农村经济增长》，《南方经济》2012年第10期。仅使用人均实际收入衡量，恐有所不足。二是依据绩效的某一维度进行多个指标选取。如衡量绩效中的经济增长时，从多个指标进行测量。(31)刘冲、乔坤元、周黎安：《行政分权与财政分权的不同效应：来自中国县域的经验证据》，《世界经济》2014年第10期。多个指标有助于尽可能覆盖单一维度的外延，测量相对全面。三是结合绩效的多个维度选取指标，进行复合型测量，以增加信息量。如测量撤县设市的绩效纳入经济增长与政府活动两个维度8个指标。(32)Fan S., Li L., Zhang X., “Challenges of Creating Cities in China: Lessons from a Short-lived County-to-city Upgrading Policy”, Journal of Comparative Economics, Vol.40, No.3, 2012.在指标的赋值时应采用通行或近似做法，从而提高估计系数横向对比的可能性，为未来文献对话做铺垫。

从单一研究的角度看，样本改良是尽量减少测量偏差、奠定绩效清晰化的基石。样本改良可以从三个方面入手：一是校正样本偏误。在绩效研究中普遍使用官方统计数据，但需要注意不同年份的统计指标可能缺失以及统计口径不一，需进行适当换算与补齐，增加样本数据的内在一致性。二是寻求替代数据。除传统的官方统计数据，各类卫星图像、监测站点、手机信号、企业注册信息等数据都是可能的补充替代。已有研究将灯光数据纳入行政区划领域的研究当中，并使用灯光数据以减少对经济增长的测量误差，但灯光亮度数据与GDP增长相关而非与GDP存在对应关系。(33)唐为：《经济分权与中小城市发展——基于撤县设市的政策效果分析》，《经济学(季刊)》2019年第1期。三是扩展样本数据范围。纵向上增加样本的时间跨度，以便判断绩效的持续时间。横向上则扩展样本的观测单位，并促使样本层级与研究的建制层级相对应，强化样本的代表性。

(三)计量方法：因果导向与方法优化

因果导向的绩效评估是绩效清晰化的重要思路。原有的多元回归分析方法是社会科学对自然科学随机控制实验的模拟，但在因果分析中难以解决误差项问题，更多被视为一种相关关系。(34)李宝良、郭其友：《因果关系的实地实验与新实证发展经济学的贫困治理之道——2019年度诺贝尔经济学奖得主主要经济理论贡献述评》，《外国经济与管理》2019年第11期。因此，解决回归中的内生性问题极为重要。改革可视为政策干预，绩效评估即测算干预效果，可采用潜在结果模型(potential outcomes model)(35)李文钊：《因果推理中的潜在结果模型:起源、逻辑与意蕴》，《公共行政评论》2018年第1期。评估其中的因果效应。该模型又名反事实框架(counterfactual framework)，采用分配机制以近似随机的方式将控制组(未受改革政策影响的样本)视为干预组(受改革政策影响的样本)的“反事实状态”，形成“准实验”，以测算改革的因果效应。以“撤县设区”为例，A县改为A区的政策效果(改革绩效)，应比较A区与反事实“A县”(未改区的潜在结果)，由于无法观察到反事实状态下的“A县”，因此需将未改区的B县、C县、D县等近似区划构建“A县”，从而衡量改革绩效。潜在结果模型与解决内生性问题的思路殊途同归，形成了诸如DID、RDD(断点回归设计)、SCM等方法。因此，在研究改革绩效时，应当始终坚持因果导向，寻求合适的识别方法实现“准实验”的控制。

计量方法将直接影响评估的准确性，因而方法优化是绩效清晰化的重要措施。从已有研究看存在三种可能的优化方式：一是多种方法结合，提高识别策略的有效性。如PSM与DID结合，以PSM尽量减少DID中的选择偏误满足DID的前提假设，但该方法更适合稳健性检验而非主效应回归。此种结合在现有文献中均有不同程度的使用。(36)Tang W., Hewings G.J.D., “Do City-county Mergers in China Promote Local Economic Development?”, Economics of Transition, Vol.25, No.3, 2017; Wang J., Yeh A.G., “Administrative Restructuring and Urban Development in China: Effects of Urban Administrative Level Upgrading”, Urban Studies, Vol.57, No.6, 2020.在稳健性检验中，也可以引入其他方法检验政策效果。如在研究省直管县时，使用了DID与IV两种方法研究政策效果(37)刘勇政、贾俊雪、丁思莹：《地方财政治理：授人以鱼还是授人以渔——基于省直管县财政体制改革的研究》，《中国社会科学》2019年第7期；Jia J., Ding S., Liu Y., “Decentralization, Incentives, and Local Tax Enforcement”, Journal of Urban Economics, Vol.115, 2020.以增进结论的可信度。二是可增加RDD与SCM的使用。根据本文统计，RDD的使用比例较小，仅在撤县设市(38)刘晨晖、陈长石：《撤县设市、行政扩权与经济增长——基于断点回归方法的估计》，《经济评论》2019年第2期。与撤县设区(39)Liu X., Zeng J., Zhou Q., “The Chosen Fortunate in the Urbanization Process in China? Evidence from a Geographic Regression Discontinuity Study”, Review of Development Economics, Vol.23,No.4, 2019.中使用。该方法的困难之处在于需要寻找合适的外生冲击且有诸多规范。(40)谢谦、薛仙玲、付明卫：《断点回归设计方法应用的研究综述》，《经济与管理评论》2019年第2期。2016年以来《设立县级市标准》《设立县级市申报审核程序》的出台(未对外公布)重新启动了撤县改市进程，有成为RDD研究中外生冲击的可能性。在分析单个地区(案例)的改革绩效时，SCM则是较为理想的选择。单个地区(案例)的观测性数据通常以小样本为主，而SCM恰可利用少量案例实现“控制组”与“处理组”的构造，一般15个案例即可使用。(41)蒋建忠、钟杨：《合成控制法及其在国际关系因果推论中的应用》，《国际观察》2018年第4期。修正合成控制(modified synthetic control，MSC)方法及其改良(42)Li K.T., “Statistical Inference for Average Treatment Effects Estimated by Synthetic Control Methods”, Journal of the American Statistical Association, Vol.115, No.532, 2020.进一步扩展了SCM的使用范围，是未来政策绩效评估的可能性方向。三是Meta-Analysis(元分析、荟萃分析)的引入。该方法收集、整合已有的不同研究结果，并采用特定的设计与统计方法定量分析得出更为综合普遍的结论。这一方法在国内经济学与管理学领域已有一些运用。但是，除在省直管县与经济增长关系中(43)郭艳娇、王振宇：《省直管县是否能够显著影响经济增长?——基于荟萃回归分析方法》，《财政研究》2018年第6期。得到运用外，此方法尚未扩展到行政区划改革的其他领域。正如Swianiewicz呼吁使用Meta-Analysis以总结分析已有的研究成果一样，(44)Swianiewicz P., “If Territorial Fragmentation is a Problem, Is Amalgamation a Solution?—Ten Years Later”, Local Government Studies, Vol.44, No.1, 2018.国内也应强化该方法的使用，从而在整体上判断中国行政区划改革的绩效。

结语

行政区划改革一直是理论界和实务界共同关注的热点，但由于改革的复杂性、绩效定义的模糊、测量指标的分歧、评估方法的争议等原因，既出现了行政区划改革客观绩效的变动不确定，又呈现出对改革绩效进行理论研究的结果不确定。未来的研究中，可以从概念框架、指标选取、样本改良、因果导向与方法优化等方面，在进一步凝练理论分析框架的基础上，不断强化相关研究的科学性和全面性，逐步达成学术共识。

有一些重要的行政区划改革内容，相较于其他类型的定量研究依旧不够充分，比如政区名称的改变和政府驻地的变化。政区名称的变化，有一些是考虑到文化传承，有一些则是因为整顿规范，但更多的是基于提高地区知名度、打造区域发展品牌、吸引外来投资等目的。而政府驻地的变化，无论是出于空间置换的资源优化配置，还是为了调整区域发展的重心或拉大“骨架”，其背后都有带动经济社会发展的强烈动机。对于这一类行政区划改革，如何通过定量研究证明其绩效，依然存在较大的挑战。

当然，本项研究仍然存在一定的局限性。一是文献的选取可能存在遗漏，部分文献的选择、归类也难免偏颇。根据发表载体选择文献，或许忽略了部分未刊登在SCI、SSCI、CSSCI期刊上的高质量成果。二是除政区名称变更外，各类改革均不同程度影响各层级政府之间的权属关系，促使管理权限、财税资源等在不同层级、不同地区政府间重配，进而影响改革绩效。但仍需合适的类型划分与详尽的制度分析以剖析具体改革方式对绩效的影响机理，值得另文再述。三是囿于数据可得性，无法重现具体的计量过程。本文只能根据其运用的计量方法进行评述，部分结论可能存在一定的争议。特别是，本项述评是从最理想的角度展开的，而部分研究可能受制于各方面实际条件，未能得到完美的数据或运用最佳的方法，但这并不代表它们没有创新意义。每一个严谨的学术研究，都在为人类知识的逐步积累作出独特的贡献。