运用大数据平台分析云南省经济发展影响因素

2024-01-04 01:18杨柳玉
德宏师范高等专科学校学报 2023年2期
关键词:因变量第二产业生产总值

杨柳玉

(德宏师范高等专科学校,云南 芒市 678400)

一、引言

GDP 是体现国民经济增长情况和人民群众客观生活质量的重要指标,是衡量一个国家或地区经济状况的最佳指标[2],对影响云南省经济发展的因素进行研究和分析,不仅有利于云南省经济的快速发展,也有利于一个国家和社会经济的快速发展。在大数据时代背景下,运用大数据智能分析平台和线性回归分析的知识,结合云南省经济发展的实际情况,选取合适的经济指标,对影响云南省经济发展的因素进行相关关系的分析,这对于云南省未来经济的高速、稳定增长具有重要的意义。

二、大数据智能分析平台Datahoop简介

大数据智能分析平台Datahoop 是中国商业联合会数据分析专业委员会在推进我国大数据产业及数据分析行业方面的最新进展,该平台支持多种数据接口,能与企业现有的ERP、CRM、OA、财务软件(金蝶、用友、SAP 等)以及公司网站等资源实现无疑对接,集成了数据转化及预处理功能,提供实时/非实时数据处理统一接口,节省了大量的重复开发成本[1],该平台能不断集成新的数据分析算法和新的功能模块,对算法库进行终生维护并不断调优,可随着用户的需求不断扩展。在数据安全方面,该平台支持私有云方式,自主研发的安全管理体系可提供多达五重的防护,通过认证、加密、监控和追踪等手段,在传统PC 端和移动终端提供数据保护解决方案。该平台还让数据挖掘和数据分析操作更为简单,独创的一键报表生成功能,使得非专业人士也可轻松发现数据价值,无需缩写任何代码就能建立和使用分析模型。在提供多终端设备支持方面,该平台可通过手机轻松访问,并能通过手机了解企业的运营状况,数据分析人员则能通过手机进行数据分析工作[1]。

大数据智能分析平台Datahoop 只需三步就可以搭建一个个性化的分析模型:第一步,选择数据;第二步,搭建算法;第三步,结果展示。

三、基础理论知识

(一)线性回归分析

一切运动着的事物都是相互联系、相互制约的,从而,描述事物和事物运动的变量之间也是相互联系、相互制约的[4]。 线性回归分析就是是利用数理统计中的回归分析,来确定两种或两种以上变量之间相关关系的一种统计分析方法,应用十分广泛,自变量与因变量之间的关系可以用一条直线近似表示,其表达形式为 ,e 为误差服从均值为零的正态分布[1],依据自变量的个数,线性回归分析还可以分为一元线性回归分析和多元线性回归分析.只有一个自变量和因变量,且自变量与因变量之间是线性关系,这种回归分析称为一元线性回归分析;有两个或两个以上自变量,一个因变量,且自变量与因变量之间是线性关系,这种回归分析称为多元线性回归分析[3]。

(二)数据分析思维与流程

1.数据分析思维

数据分析思维是我们在大数据时代做数据分析或解决业务问题时的一种思维方式,也是在解决业务问题时所必需的一种思维方式。在大数据时代一个重要的数据分析思维方式是如何应用正确的数据分析方法获取数据和处理数据,挖掘出这些数据背后隐藏的知识,帮助企业实现更好的决策和利润及资源的最优化[1]。

2.数据分析流程

本次进行数据分析的流程为:

(1)根据云南省的经济发展现状和以往文献的研究,建立用于回归分析的指标体系;

(2)依据建立的指标体系,获取和收集数据;

(3)对数据进行预处理(数据的描述性分析、清洗、集成、转换和规约);

(4)对数据进行可视化,观察数据的变化趋势;

(5)利用多元线性回归分析方法,建立多元线性回归模型,分析云南省经济发展影响因素。

四、数据获取与预处理

(一)主要经济指标选取与数据获取

1.经济指标选取

依据云南经济发展情况和相关文献的研究,将云南省产业的发展作为分析影响云南省经济发展的因素,选取“第一产业生产总值”、“第二产业生产总值”、“第三产业生产总值”和“财政支出占GDP 的比重”为自变量,以“云南省生产总值(GDP)”为因变量,分析影响云南省经济发展的因素。

第一产业主要指生产食材以及其他一些生物材料的产业,包括种植业、林业、畜牧业、水产养殖业等直接以自然物为生产对象的产业。第一产业的发展反映了农业对我国省域经济发展的影响。

第二产业主要是指加工制造产业,利用自然界和第一产业提供的基本材料进行加工处理,包括矿石、石油、化学工业、食品等进行加工处理的产业。第二产业的发展反映了工业对我国省域经济发展的影响。

第三产业是指第一、第二产业以外的其他行业,范围比较广泛,主要包括交通运输业、通讯产业、商业、餐饮业、金融业、教育产业、公共服务业等非物质生产部门,第三产业的发展反映了服务业对我国省域经济发展的影响。

选取21 世纪以来最近17 年云南省经济发展的这五项经济指标作为研究的因变量和自变量.即选取从2001 年至2017 年的17 项数据作为研究数据。

将“云南省生产总值”设为因变量,“第一产业生产总值”、“第二产业生产总值”、“第三产业生产总值”和“财政支出占GDP 的比重”设为自变量。

因变量:云南省生产总值(亿元)。

自变量一:第一产业生产总值(亿元)。

自变量二:第二产业生产总值(亿元)。

自变量三:第三产业生产总值(亿元)。

自变量四:财政支出占GDP 的比重(百分比。

2.数据获取

数据的获取采用外部数据获取,通过相关云南政府网站获取数据。从云南省统计局官方网站中获取《2002 年云南统计年鉴》至《2018云南统计年鉴》的数据,将这些数据作为云南省21 世纪经济发展的原始数据。原始数据见附录图4-1 云南省历年生产总值原始数据和图4-2云南省历年财政原始数据所示。

图4-1:大数据智能分析平台Datahoop 操作界面

从原始数据中获取我们所要的云南省经济发展指标,从表中可以看出自21 世纪以来,随着改革开放和经济全球化的不断加深,从2001年至2017 年这17 年间,云南省的经济的发展十分迅速,实现了连续和跨越式的增长,相关数据如表4-1 所示。

表4-1:云南省经济发展指标数据

(二)数据预处理

将表4 1 中的数据制成Excel 表格,以便使用大数据智能分析平台对数据进行分析,Excel表格见附录图4-3 云南省经济发展指标Excel 数据表格所示。

1.数据的描述性分析

数据的描述性分析,是分析数据集中各变量(或者说属性)的特征,测度变量的集中趋势和离散程度.可以为后续的数据清洗、数据集成、数据转换和数据规约等数据预处理工作明确目标.描述性分析相关的数据如表4 2 所示。

表4-2:数据描述性分析

从表4-1 和表4-2 中的数据可以看出:

云南省的GDP 由2001 年的2138.31 亿元增长到2017 年的16376.34 亿元,增长了14238.03亿元,平均每年为7644.91 亿元,标准差为4637.79,说明数据的离散程度较大.GDP 在17年间都是呈现上升趋势,2001 年至2009 年上升趋势较为平缓,2009 年至2017 年上升趋势较快,人均生产总值由2001 年的5015 元/人发展到2017 年的34221 元/人,平均每年每人增长1718 元。

第一产业生产总值17 年间都呈现上升趋势,由2011 年的444.42 亿元增长到2017 年的2338.37 亿元,增长了1893.95 亿元,平均每年为1230.75 亿元,平均每年增长118.37 亿元,标准差为641.71,说明数据的离散程度较小.2001 年 至2010 年增 长 较为缓 慢,2010 年 至2017 年增长十分迅速,2008 年至2010 年间增长最为缓慢。

第二产业生产总值17 年间都呈现上升趋势,由2001 年的868.06 亿元增长到2017 年的6204.97 亿元,增长了5336.91 亿元,平均每年为3132.49 亿元,平均每年增长333.56 亿元,标准差为1808.36,说明数据的离散程度较大。2001 年至2009 年增长较为缓慢,2009年至2017 年增长较快,2008 至2009 年增长最为缓慢。

第三产业生产总值17 年间都呈现上升趋势,由2001 年的825.83 亿元增长到2017 年的7833.00 亿元,增长了7007.17 亿元,平均每年为3281.61 亿元,平均每年增长437.95 亿元,标准差为2203.94,说明数据的离散程度较大.2001 年至2017 年增长都较为快速.

2.数据转换

云南省经济发展指标数据中存在单位之间的不同,因此需要对其进行数据的标准化处理(或者数据的无量纲化处理),以消除量纲的影响。使用大数据智能分析平台Datahoop 对云南省经济发展指标进行标准化处理,这里使用的标准化处理方法是零均值标准化[1],零均值标准化是将数据的值减去均值后再除以标准差,零均值标准化的公式为:

大数据智能分析平台Datahoop 的操作界面如图4-1 所示。标准化处理后的数据如表4-3 所示。

表4-3:标准化处理模型结果

五、数据可视化

现代的数据可视化技术,综合运用计算机图形学、图形处理、人机交互等技术,将采集或模拟的数据变换为可识别的图形符号、图形、视频或动画,并以此呈现对用户有价值的信息。

(一)折线图

作出因变量和自变量随时间变化的折线图。

从折线图中可以看出数据的总体变化趋势,如图5-1 所示,反映了云南省的经济发展指标随时间变化的趋势。从图中可以看出因变量y和自变量、总体的趋势是随着时间的变化而增加,自变量 总体的趋势也是随着时间的变化而增加,但上升的趋势比较曲折,其中有上升也有下降。

图5-1:云南省GDP 与第一二三产业生产总值、财政支出占GDP 比重

(二)散点图

作出云南省生产总值与各个自变量之间的散点图。

从散点图中可以看出两个连续性变量之间的关系,如图5 2、图5 3、图5 4 和图5 5 所示,反映了云南省生产总值与第一产业生产总值、第二产业生产总值、第三产业生产总值和财政支出占GDP 的比重之间的关系,从图中可以看出因变量y 与自变量x1、x2、x3、x4之间有明显的线性关系。

图5-2:云南省GDP 与第一产业生产总值

图5-3:云南省GDP 与第二产业生产总值

图5-4:云南省GDP 与第三产业生产总值

图5-5:云南省GDP 与财政支出占GDP 比重

六、建立多元线性回归模型

(一)变量间的相关系数

建立多元线性回归模型,需要检验各变量之间的相关系数,以判断各变量之间的统计相关关系,运用大数据智能分析平台算法库统计分析中的的相关系数矩阵计算各变量之间的相关系数。

两个自变量或两个以上自变量之间彼此相关且他们之间的相关性较强,此时,就会出现多重共线性问题.通过相关系数矩阵,可以比较精确的反映各个变量之间的统计相关关系,以判断自变量之间相关性的强弱,判断自变量之间是否存在多重共线性,如果存在多重共线性,就需要进行相应的处理,以保证分析的准确性,相关系数矩阵如表6-1 所示。

表6-1:相关系数矩阵

从表6-1 中可以看出云南省生产总值与第一产业生产总值的相关系数达到了99%,他们之间是正向的关系;云南省生产总值与第二产业生产总值的相关系数达到了99%,他们之间是正向的关系;云南省生产总值与第三产业生产总值的相关系数达到了99%,他们之间是正向的关系;云南省生产总值与财政支出占GDP 比重的相关系数达到了91%,他们之间是正向的关系.即自变量y和因变量 之间具有高度的相关性,可以对其进行多元线性回归分析。但从表6 1 中可以看出,四个自变量之间的相关系数都较高,说明自变量之间具有很强的相关性,存在多重共线性问题,需要进行相应的处理。

(二)模型建立与求解

根据以上一系列的分析,建立多元线性回归模型:

运用大数据分析平台进行求解,求解过程见附录图6-1 大数据分析平台模型求解过程所示.模型的求解结果如下列表格所示。

从表6-2 原始模型汇总和表6 3 原始模型结果及检验可以得出多元线性回归模型为:

表6-2:原始模型汇总

表6-3:原始模型结果及检验

七、模型检验

(一)模型拟合优度检验

模型的拟合效果见附录表7-1 模型拟合结果所示,模型拟合优度检验是对回归模型拟合效果的检验,回归模型中用可决系数 评价模型的拟合程度,可决系数 越接近1,说明模型的拟合效果越好;可决系数 越接近0,说明模型的拟合效果越差。

表7-1:拟合结果

续表

通过表6-2 原始模型汇总可以得到可决系数 为0.999999999,接近于1,说明模型的拟合效果很好。

通过表7-1 拟合结果和图7-1 拟合效果图可以看出原始数据和预测数据之间的误差差是很小的,接近于0,说明模型的拟合程度好。

图7-1:拟合效果图

八、模型结果分析与评价

(一)模型结果分析

回归模型中x1、x2、x3、x4的回归系数分别为0.1384、0.39、0.4752、-0.0000327,常数项为2.3592,回归系数表示:当其他的自变量固定不变时,这个自变量本身每变动一个单位,因变量y 的改变量。从回归系数上看,x2和x3的变动对y的影响较大,x1和x4的变动对y 的影响相对较小,x1、x2和x3与y 呈现正向关系,而x4与y呈现负向关系。

从多元线性回归方程的回归系数可以看出,当固定另外三个自变量不变时:第一产业生产总值每变动一个单位,云南省GDP 平均增加0.1384个单位;第二产业生产总值每变动一个单位,云南省GDP 平均增加0.39 个单位;第三产业生产总值每变动一个单位,云南省GDP 平均增加0.4752 个单位;财政支出占GDP 的比重每变动一个单位,云南省GDP 平均减少0.0000327 个单位.由此可以看出第二产业生产总值和第三产业生产总值对云南省GDP增长有很大的贡献度,而财政支出占GDP 的比重对云南省GDP 的增长有着负作用。

(二)回归模型评价

回归模型为 .由回归方程可以看出第二、三产业对云南省生产总值的影响较大,第一产业对云南省生产总值的影响较小,财政支出占GDP 的比重与云南省生产总值呈现负向关系.虽然回归模型的拟合程度很高,回归方程也是显著的,但财政支出占GDP 比重对云南省GDP 的影响与实际不相符合.说明回归模型是存在一定的问题的。

另一方面是虽然该回归模型建立了影响云南省生产总值的多元线性回归方程,但在实际的生活中,云南省经济发展的影响因素还有许多,且每个因素的影响程度都各不相同.因此该回归模型只是结合云南省经济发展的实际情况,选取了四个指标对其进行研究,除了这几个因素外,还有其他的一些因素也会影响云南省的经济发展。

九、云南省经济发展建议

(一)加大第二、三产业发展的支持力度

云南省第二产业不发达,加大对第二产业发展的支持力度,促进云南省经济发展。要自觉把思想和行动统一到党中央、国务院的重大决策部署上来,坚决贯彻落实国家产业供给侧结构性改革的决策部署。云南省要正确认识第二产业发展存在的困难和面临的机遇,加快产能的整合,支持重点产业的发展,深入推进智能制造,坚持“两型三化”的产业发展方向,紧盯重大项目的推进与建设。

云南省要发挥自身的优势,加大对第三产业发展的支持力度,深入贯彻《“十三五”服务业发展规划》。云南省政府要加强对第三产业发展的宏观调控,加大支持力度,将重点行业作为现代服务业发展的主攻方向,坚持加大扶持,大幅增加服务业投入,确保服务业有序健康发展。

(二)减少财政支出

云南省要适当减少对各个产业的财政支出,精确定位对各个产业的财政支持,从而促进云南省总体经济的发展。要积极落实财政政策,财政资金要精准落实到位,避免额外的财政支出,着力降低企业税费负担,优化调整财政支出结构,提高财政资金效益,为云南省产业的发展创造更好的条件。

猜你喜欢
因变量第二产业生产总值
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
2020年河北省国内生产总值
2019年河北省国内生产总值
什么将取代国内生产总值?
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
偏最小二乘回归方法
本地生产总值
国内生产总值指数
我国第三产业发展研究
我国第三产业发展研究