基于聚类线性回归法的区域用水量影响因素分析

2016-07-26 03:13梁振东何晓静方红远
海河水利 2016年3期
关键词:用水量影响因素区域

梁振东,何晓静,方红远

(扬州大学,江苏 扬州 225009)



基于聚类线性回归法的区域用水量影响因素分析

梁振东,何晓静,方红远

(扬州大学,江苏扬州225009)

摘 要:阐述了区域用水量内涵及其影响因素分析方法,把区域用水量影响归纳为区域经济发展驱动和水资源禀赋约束两方面;根据聚类线性回归计算原理,建立了区域用水量影响因素分析模型及其计算方法步骤。针对太湖流域的水资源利用影响因素,从人口规模、生产总值、产业结构等方面入手,利用聚类线性回归模型对太湖流域区域用水量的影响因素进行评价研究;从相关分析看,区域经济发展的用水刚性需求是太湖流域区域用水量的主要驱动因素,区域产业结构对太湖流域的用水形成显著的抑制效应;而在水资源禀赋约束方面,太湖流域受水资源短缺胁迫较小,区域用水量还存在增长的空间。

关键词:区域;用水量;影响因素;聚类线性回归

1 引言

在水循环的研究方面,以自然水循环为基本对象的水文学已形成较为完善的体系,近几十年来立足于社会经济用水的社会水循环研究也越来越被关

2 区域用水量及其影响因素

2.1区域用水量内涵

水是基础性的自然资源和经济资源,是生态环境的基本控制性要素,人类的各类社会生产活动及其生活环境都与水资源息息相关[1]。随着社会的发展和科学技术的不断进步,区域水资源开发利用程度不断提高,区域用水量自始至终影响着人类社会区域开发,受区域开发与规划干预机制的强烈影响,区域用水量具备鲜明的时空演变特征。地理区位从总体上框定了水资源利用的范畴,而且区域水资源禀赋也基本决定了区域用水的发展类别,如是否可以发展耗水密集型产业、是否适合布局对水资源存在威胁的产业、如何选择适合的作物灌溉制度等[2]。

区域用水量具有社会与自然二重性,区域用水量的社会属性是指区域内可开采的水资源量可以满足区域内人类基本生存及社会经济发展需要,即区域内社会发展需要一定数量与质量的水资源来支撑;自然属性方面主要是指自然水文循环的各个基本环节:降水、蒸发、径流,不但人类社会需要用水,自然环境与生态也同样需要以降水和径流为主要形式的水资源来维持。假设没有人类社会发展的需求,水资源作为天然的水循环过程,它与环境和生态相统一,不会存在水资源短缺问题,也不会产生用水危机,即用水问题产生于区域用水量不能满足社会发展的刚性需求;从另一方面来说,为了克服用水问题,社会发展对用水量的需求应控制在一定的范围内,即这种需求应在区域水资源承载能力之内,以不破坏自然水文循环为限度[3]。狭义上的区域用水量是指各类用水户所使用的水量之和,通常包括工业用水、农业用水、城乡居民生活用水、水力发电用水、航运用水、渔业用水、防洪调节用水以及水质净化用水等。

2.2区域用水量影响因素

水资源利用驱动因素众多,错综复杂,区域用水量影响因素主要包括外部驱动因素和内部驱动因素。在我国,农业生产用水量普遍是区域总用水量的主体,人口增长及农产品需求变化是农业用水量的原始驱动力,而农田灌溉利用了几乎全部的有效降雨和超过60%的人工取水量,耕地面积直接反映了农业用水的规模[4]。工业生产和服务业布局左右其自身用水发展,产业结构的调整和升级是调控区域用水的主要途径。生活用水的需求来源于人类日常生活的基本需求,这种需求驱动着生活用水结构和层次的不断演进。这3种用水主要影响因素有人口规模、区域经济强度、产业结构构成及产值、居民收入状况、区域耕地面积、灌溉模式、林木渔业发展、科技进步、粮食安全等。以上影响因素为区域用水量内部驱动,即“要用多少水”。随着人类对水资源开发力度的不断加大,区域的自然属性制约或促进用水的发展,区域水资源禀赋从根本上决定了用水的类型和量级,水资源禀赋对区域用水量的约束日益加强。影响因素主要包括区域水资源总量、地表水资源量、地下水资源量、人均水资源量、区域水环境纳污容量、降水量等,此为区域用水量外部驱动因素,即“有多少水可以用”。区域用水受社会经济发展需求、经济技术水平、水资源禀赋约束等影响,其中社会经济发展需求为用水系统提供正向驱动力,水资源禀赋约束对用水系统提供负向约束,而经济技术水平决定了用水系统对上述驱动和约束力的反应能力[5]。即在内因和外因的共同驱动和约束下,区域用水量达到一个稳步上升的平衡状态。

3 聚类线性回归模型

聚类分析的目的是降低因规模过大造成的复杂程度。常用的聚类分析方法主要有系统聚类法、基于密度的方法、基于人工神经网格的方法、K-均值方法、模糊C均值方法等。当影响指标变量的因子多而复杂时,研究人员主要采用主成因分析、计量经济学回归分析、系统动力学等方法识别变量影响因素[6]。聚类回归分析方法最早在1979年由Spath等人提出,后来许多学者从模型实际应用的角度出发对该模型做了修正和改进。与传统聚类分析模型相比,该模型可以在细分观测对象的同时,预测每个细分类别的回归系数,即解释每个聚类自变量对因变量均值和方差的具体程度。聚类回归分析方法从细分对象的角度,打破了传统的根据样本对心理感知或偏好等多个感观变量的距离进行分类的思路,采用一种新的聚类回归分析方法基于变量间的因果关系对观测值进行细分,不仅可以把不同属性的观测值有目的地划分成具有不同特点的群体,而且可以根据不同要素的因果关系确定不同群体中的主要影响要素[5]。

一般来说,回归分析用于研究某种现象对几种影响因素的依赖关系。普通最小二乘法是运用最广、最为经典的一类回归模型,它是对变量“均值”的估计,比较适用于平稳型的序列[7]。但是对于一组具有“异质性”的序列做回归,拟合效果的特性就会有缺失。为此,聚类线性回归模型把聚类分析的方法引入到回归模型中,即在回归分析中嵌入了聚类技术,把变量分类后再分别进行回归,同时给出回归参数和每个输出变量对不同聚类的隶属度,用以判断模型的拟合程度。

3.1模型描述[7-9]

考虑n组观测值y=(y1,y2,…,yn)′和k个解释变量 X=(1n,x1,x2,…,xk),其中 x=(xi1,xi2,…,xik)′的值都是清晰的数据,在进行分类时,我们用每个聚类的回归系数表示这组模型,并以此把这n组数据分成r类。对于第 j类,假设它的回归参数为 βj,[βj=(β0j,β1j,…,βkj)′,j=1,2,…,r]。若把这些参数组成矩阵B,则:

可以按照如下方法,得到线性回归模型为:

式中:1r×1⊗y是 nr×1的向量;Ir⊗X是 nr× (k+1) r阶矩阵;ey是nr×1维残差向量。

考虑到Bezdek的模糊聚类分析的方法,可得到关于清晰值的输出变量与输入变量的聚类线性回归模型如下:

式中:α(α≥1)是权重元素;U是由所有输出变量对于每个聚类的隶属度组成的nr阶对角矩阵;uij(i=1,2,…,r)是输出变量第 i个观测值对第j个聚类的隶属度。P=1′r×1⊗In是n×nr阶矩阵,PU1nr×1=1nr×1。

式中:Δ是距离矩阵,是nr阶对角矩阵,是输出变量第i个观测值对第 j个聚类的线性回归模型的欧氏距离。

要使式(3)最小化,则:

3.2迭代最小二乘估计的算法

(1)固定α和r,并且给出初始值U(0),U(1)满足式(3)。

(2)根据式(5)、(6)计算出参数、回归系数:Δ2、B。

(3)根据式(4)计算出U(1)。

(4)记U(t)为第t次迭代得到的输出变量的隶属度矩阵,计算U(t+1),U(t)的距离,若<ε(ε是给定的足够小的正实数),则停止迭代,得到U(t+1);否则,回到第(2)步。

3.3拟合检验

本节给出一些聚类线性回归的拟合优度的指标,它们是关于传统回归分析的控制系数的延伸,作用于清晰输出变量的聚类回归分析。

中心均值为:

第j个聚类的线性回归模型的拟合优度可通过决定系数的均值来测量:

利用分配系数PC描述聚类效度:

4 实例研究

4.1研究区概况

笔者选取太湖流域作为主要研究对象。太湖流域位于我国东部、长江三角洲南端,处于东经119°11′~121°53′、北纬30°28′~32°15′。流域呈近似三角形,北通长江,东临东海,南接钱塘江,西边以天目山、茅山和界岭为界。流域面积36 895 km2,行政区划分属江苏、上海、浙江以及安徽3省1市。流域属亚热带季风气候区,多年平均气温15~17℃,无霜期多年平均为220~250 d,气候温和湿润,雨量充沛,多年平均年降雨量1 177 mm,降水总量434.4亿m3,多年平均年水面蒸发量822 mm,变化幅度为750~900 mm,多年平均年径流量为161.5 亿m3。太湖流域河网密布,湖泊众多,水域面积6 134 km2,水面率达17%,河道和湖泊各占1/2;面积在0.5 km2以上的湖泊189个;河道总长度12万km,平原地区河道密度达3.2 km/km2,纵横交错,湖泊星罗棋布,为典型“江南水网”。太湖流域是长江水系最下游的支流水系,流域水系以太湖为中心,分上游水系和下游水系,水系相连,河湖沟通,紧密依存。长江水量丰沛,是太湖流域的重要补给水源,也是流域排水的主要出路之一。图1显示太湖流域主要水系分布状况。其中,太湖是我国第三大淡水湖泊,现有水面2 338 km2,位于太湖流域的中心。其多年平均年吞吐水量52亿m3,水量交换系数1.2,换水周期约300 d。太湖具有蓄洪、供水、灌溉、航运、旅游等多方面功能,是流域的重要供水水源地,担负着无锡、苏州、吴县、吴江、长兴、宜兴、武进市(县)的城乡供水,在太浦河开通后还将向上海供水并改善黄浦江上游的水质,其供水服务范围超过2 000万人,占太湖流域总人口的55%。

图1 太湖流域主要水系

社会经济方面,太湖流域位于长江三角洲的核心地带,是目前我国经济最发达、大中城市最密集的地区之一。流域内有直辖市上海,一线城市杭州、苏州、无锡、常州等,以及众多迅速发展的小城市,城镇化率达72.6%。据统计,现状太湖流域总人口达5 971万人,占全国的4.4%;工业增加值约为24 407.5亿元,国内生产总值(GDP)达57 957亿元,占全国的10%;人均GDP约为9.7万元。水资源状况方面,太湖流域多年平均水资源量为176亿m3,其中地表水资源量161亿m3。由于人口和产业高度集中,人均水资源量仅为348 m3,不到全国平均水平的1/5。2013年流域水资源总量为160.5亿m3,比常年偏少15.5亿m3。2013年太湖流域3省1市中,江苏省用水量最大、占总用水量的53%,上海市用水量占总用水量的32%,浙江省用水量占总用水量的14.4%,安徽省用水量最少、占总用水量的0.06%。太湖流域各省市用水量及用水构成,见表1。

表1 太湖流域各省市2013年用水量统计  亿m3

4.2数据说明

一般而言,区域用水量的影响因素很多,上文提到的“内因”和“外因”类影响因子涵盖也很广,根据主次程度以及实际情况,笔者针对太湖流域的特点选用以下7个因素:人口规模(P)、生产总值(G)、产业结构(S)、耕地面积(F)、环境建设用水(E)、降水量(R)、水资源总量(W)。

为了消除量纲影响,采用C-D函数双对数回归模型[10],则回归模型建立如下:

式中:A为区域用水量(亿m3);P为人口规模(万人);G为生产总值(元);S为产业结构(第二产业产值/第三产业产值);F为耕地面积(万亩);E为环境建设用水量(亿m3);R为降水量(mm);W为水资源总量(亿m3);μ为残差。

笔者选取太湖流域2003—2014年连续12年的用水量、人口规模、生产总值、一二产业产值、耕地面积、环境建设用水量、降水量、水资源总量的统计数据,数据来源于相关年份的《太湖流域及东南诸河水资源公报》及太湖流域所属辖区的统计年鉴。

4.3模型计算结果

把聚类线性回归模型运用于太湖流域的区域用水量(A)和7个用水影响因素(P,G,S,F,E,R,W)之间关系的研究,有12×7组独立变量的观测值X=(x1,x2,x3,x4,x5,x6,x7)、12×1组输出变量区域用水量的观测值y12×1。

令r依次取1,2,3,得到如下结果,见表2。

表2 聚类线性回归模型结果:回归系数B

输出变量yi对r=2和r=3时的每个聚类的隶属度uij,见表3。

表3 输出变量yi对每个聚类的隶属度uij

比较3种分类结果的拟合效度,见表4。在r=2时,即观测系列分为2类时拟合效度最好。

表4 3种分类结果的拟合效度

4.4分析与结论

笔者利用聚类线性回归的方法,对太湖流域区域用水量与人口规模、生产总值、产业结构、耕地面积、环境建设用水量、降水量、水资源总量的关系进行了实证分析。结果表明,分成2类进行回归分析拟合效果最合理,且由表2—3可知:

(1)2003—2014年,太湖流域人口规模、生产产值的回归系数都是正向影响,即人口规模、生产产值对区域用水量是促进作用;产业结构及耕地面积的回归系数均为负向影响,即产业结构及农田面积因子对区域用水量是抑制作用。

(2)对于第1个分类 u1,2006、2007、2008、2009、2011、2012年中人口规模、生产总值、环境建设用水量、降水量、水资源总量以回归系数2.832 4、1.754 2、0.874 5、0.541 2、0.545 6对区域用水量成正向影响,而产业结构、耕地面积以回归系数-3.978 5、-0.124 5对区域用水量成负向影响。

(3)对于第2个分类 u2,2003、2004、2005、2010、2013、2014年中人口规模、生产总值、降水量以回归系数5.796 5、2.321 6、0.214 5对区域用水量成正向影响,产业结构、耕地面积、环境建设用水量、水资源总量以回归系数-4.745 1、-0.142 4、-0.855 5、-0.745 5对区域用水量成负向影响。

基于上述结果,从选取的各个区域用水影响因素变化来看,区域用水量的主要影响因素以“内部影响”为主,即区域经济的用水刚性需求是区域用水量的主要驱动因素,尤其是人口规模和生产产值对太湖流域用水量作出的贡献最大,用水增长与人口增长及经济发展规模具有很好的一致性,二者线性关系明显。区域产业结构的布局(二三产业比)对太湖流域用水量作出的贡献为负,这是因为太湖流域处于工业化中后期,工业布局基本完成,工业用水水平提高较快,与之对应的服务业发展迅猛,作为用水相对小型的第三产业比例不断提高,对太湖流域的用水成显著的抑制效应。耕地面积对区域用水表现为小幅的负向影响,因为太湖流域耕地面积维持稳定略有减少,对农业用水增长的贡献率减小。在水资源总量、降水量等“外部影响”方面,区域用水量影响系数较小,说明太湖流域受水资源短缺胁迫较小,用水量还有增长的空间。

5 结语

区域用水量影响因素分析涉及整个社会的诸多方面,笔者分析了区域用水量内涵及其影响因素,把区域用水量影响归纳为区域经济发展驱动和水资源禀赋约束2个方面;从人口规模、生产总值、产业结构入手,利用聚类线性回归模型从定性与定量2个方面对太湖流域区域用水量的影响因素进行评价研究;从相关分析看,区域经济的用水刚性需求是太湖流域区域用水量的主要驱动因素,区域产业结构对太湖流域的用水形成显著的抑制效应。而水资源禀赋约束方面,太湖流域受水资源短缺胁迫较小,区域用水量还有增长的空间。

从笔者基于聚类线性回归法的区域用水量影响因素分析模型建立以及计算分析来看,在我国目前区域水资源供需情况普遍紧张的情况下,区域用水量影响因素分析评价可以为区域高效合理开发利用水资源、促进水资源合理配置供需平衡提供理论决策依据。

参考文献

[1]董四方,董增川,陈康宁.基于DPSIR概念模型的水资源系统脆弱性分析[J].水资源保护,2010(4):1-3,25.

[2]王浩,龙爱华,于福亮,等.社会水循环理论基础探析Ⅰ:定义内涵与动力机制[J].水利学报,2011(4):379-387.

[3]王利民,程伍群,彭江鸿.社会生产活动对流域水资源供需状况影响分析[J].南水北调与水利科技,2011(3):163-166.

[4]王建华,王浩.社会水循环原理与调控[M].北京:科学出版社,2014:57.

[5]王霞,包启挺.聚类回归分析(CLR)在市场细分研究中的应用[J].数理统计与管理,2008(2):338-345.

[6]王惠文,叶明,Gilbert Saporta.多元线性回归模型的聚类分析方法研究[J].系统仿真学报,2009(22):7048-7050,7056.

[7]Christian Hennig.Fixed point clusters for linear regression:Computation and Comparison[J].Journal of Classification,2002(192):74-79.

[8]Kung C C,Lin J C,2003.A novel cluster validity criterion for fuzzy c-regression model clustering algorithm.IEEE Interna⁃tional Conference on Fuzzy Systems[J].Computational Statis⁃tics&Data Analysis,2006(51):287-313.

[9]Pierpaolo,D'Urso.Linear regression analysis for fuzzy/crisp input and fuzzy/crisp output data[J].Computational Statistics &Data Analysis,2003,42(1-2):47-72.

中图分类号:TV213.9

文献标识码:A

文章编号:1004-7328(2016)03-0032-06

DOI:10.3969/j.issn.1004-7328.2016.03.012

收稿日期:2016—03—14

基金项目:国家自然科学基金项目(51379181)

作者简介:梁振东(1992—),男,硕士研究生,主要研究方向为水资源规划及管理方面。注。节水型社会建设、从供水管理为主转向需水管理为主的水资源管理模式的确立,都将社会水循环原理与调控作为其重要的科学基础之一。区域用水量的研究是社会水循环中的关键环节,区域用水量的渐变机制以及各类用水主体、经济产业规模和结构调整的共同作用造就了其自身通量的涨落与变化。在当前最严格水资源管理制度的背景下,区域用水量研究为解释不同地区的社会水循环的演化方向、预测未来用水趋势、合理有效地利用水资源、有效应对水危机提供了理论支持,促进了经济社会与水资源协调发展。笔者针对一实际区域,运用聚类线性回归模型对其用水量影响因素进行评价分析。

Analysis on Impacting Factors of Regional Water Resources Utilization Based on Clusterwise Linear Regression Method

LIANG Zhen-dong,HE Xiao-jing,FANG Hong-yuan
(School of Hydraulic Energy and Power Engineering,Yangzhou University,Yangzhou 225009,China)

Abstract:The connotation of regional water resources utilization and its influencing factors are described and analyzed,and the regional economic development driving and water resources endowment restricting are generalized as two aspects in influencing factors of regional water resources utilization.Clusterwise linear regression model is introducted and described,furthermore the influencing factors of regional water resources utilization of Taihu basin area are analyzed.Some factors are selected such as population proportion,GDP,industrial structure etc,and clusterwise linear regression method is applied to evaluate and research influencing factors of regional water resources utilization.According to the analysis,there is a result that the dominant factor of Taihu basin water resources utilization is that water resources rigid requirements of regional eco⁃nomic development.Additionally,industrial structure on the Taihu Basin bring about inhibited effect in utilization of water resources.For the water resources endowment restricting,the water resources shortage stress of Taihu basin is comparative⁃ly low,there until is climbing space of water resources utilization.

Key words:regional;water resources utilization;influencing factors;clusterwise linear regression

猜你喜欢
用水量影响因素区域
新疆生产建设兵团某师用水水平分析与评价
你的用水量是多少?
你的用水量是多少?
分割区域
澳大利亚研发出新型农业传感器可预测农作物用水量
区域发展篇
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析
区域