政府统计数据质量优化方法研究

2018-01-13 01:57蒋清泉
统计与决策 2017年24期
关键词:统计数据数据处理量表

蒋清泉

0 引言

随着大数据的爆炸发展,数据逐渐成为人们获取信息的载体,通过数据可以了解当前社会经济的发展状态、生态环境的发展水平、消费者的需求以及金融资本的流向等,以前笔纸化的文本获取方式逐渐被虚拟化的网络记载所替代,以前信息的不对称因为大数据的网络传播逐渐被改善。因此,数据化的建设显得尤为重要和亟待解决。政府统计数据作为数据的重要组成部分,它的质量尤为重要。所以,研究和分析政府统计数据质量的相关影响因素是我国进行信息化建设、数据化发展不可忽视的重要课题。

为了更好地研究数据包含的信息,提高数据的质量,很多政府组织和学者从不同角度、不同层面对不同类型的数据进行了研究和分析。国际货币基金组织(IMF)为了研究数据问题,评估数据的质量,通过测量设计了三层测评指标对数据进行测量,后来的许多研究都会参考这些指标和测量架构进行相关研究。宋敏等学者[1]在对我国政府数据进行研究之前,首先分析国外政府数据的相关管理方法,通过汇总分析指出我国政府数据存在的一些不足和改进方向。孙海英[2]认为目前我国的政府数据存在着很多问题,主要在于管理不当,数据搜集前期的量表设计、数据搜集过程中的统计方法、数据处理后期的管理策略等都影响着数据的质量。程开明[3]提出在数量的输出结果方面,应该根据目标群体使用的数据不同的情况而采用不同的方法衡量数据的质量,在评价数据质量时要结合实际情况针对不同数据的使用者指定测量量表,合理科学地管理数据。王建高等[4]认为人为干扰等非技术性因素、环境限制等客观因素、技术性因素是影响基础统计数据质量的主要因素。张卫华[5]分析了影响数据质量的因素,分析结果显示统计制度、统计手段等方面是影响数据的主要方面,应该把握数据形成过程中的每一个环节,进行重点监控。马元三[6]为了更好地研究数据质量问题,首先分析了数据形成的主要流程,然后针对不同阶段提出管理建议和策略,提出要形成统一的管理制度和方法,保证数据搜集、加工、处理等工作的顺利完成。曾晓峰[7]对统计数据形成的流程进行了分析,提出各个环节处理数据的方法,并强调数据形成的流程对于保障数据质量的有效性和准确性非常重要。贾静等[8]另辟蹊径,希望以统计方法、统计相关法律法规等人为因素,通过设计模型用统计方法进行分析,最后对数据的质量进行整体评价和研究。初蓓[9]通过分析发现,要重视数据形成过程中的人为因素,强调数据搜集环境的重要性。曾五一[10]从数据质量研究的目的出发,分析了数据质量研究的一些基本问题并对数据质量相关问题进行了探索。向蓉美[11]对国家统计数据质量的管理方法进行了探讨和分析,并针对现有的管理方法进行概述,为以后的研究者提供参考和借鉴。李先锋[12]以某一城市的政府数据为研究对象进行案例研究,分别从统计数据的管理机构、统计人员以及统计制度等进行分析,通过对不同相关因素进行分析找到各因素与数据质量之间的相关关系。综上所述,可以看到部分学者从数据形成的流程和环节为研究切入点,针对流程和重要环境进行分析;部分学者从数据的统计方法和评价方法方面进行分析,希望找到影响数据质量的因素,提出改进方法和措施。

通过上述分析可以发现统计数据质量影响路径优化方面研究较少,而偏最小二乘法在研究多变量关系以及优化检验方面具有许多优点,已有学者[13]通过运用偏最小二乘法解决影响路径和优化问题。因此,本文以统计相关主体为切入点,从统计数据获取路径、发布路径、监管路径三个方面分析其对统计数据质量的影响,为了研究数据质量的影响因素构建优化模型并在已有研究的基础上提出假设,探讨各因素与数据质量间的相关关系。通过偏最小二乘法对数据进行分析,对模型假设进行检验,得到数据质量影响路径的影响程度,并针对性地提出提升政府统计数据质量的优化方法。

1 偏最小二乘法

偏最小二乘法(PLS)是伍德和阿巴诺等人为了解决多元统计问题而提出的一种分析方法,偏最小二乘回归开辟了一种新的技术途径,该方法首先根据变量包含的信息对变量进行分解,然后根据条件和准则进行筛选,通过不断地计算和处理得到一个因子,该因子包含的信息能够最大化地解释被解释变量。偏最小二乘法可以实现包括典型相关分析、主成分分析、多元线性回归分析等多种统计分析方法的功能,比较容易理解和分析。本文研究的数据质量优化问题中,样本量较少,变量之间的相关性较大,使用偏最小二乘法,不仅可以充分提取样本信息,还可以解决各因素间的相关性引起的共线性问题。对于统计数据影响路径优化问题,因为研究样本数量有限,偏最小二乘法更适合调查数据的客观条件。

因此,运用偏最小二乘法解决这类问题可以概括为以下几点原因:首先,因为使用统计数据的群体相对来说有限,想要调查对统计数据相关问题了解的人群又很少,调查数据获取有限,将获取的数据作为样本大多数情况下仅仅为小样本。其次在研究的统计数据质量相关维度中,不可能全部的数据类型都满足测量型数据处理的要求。大多数的统计方法在进行分析前要检验数据是否满足正态分布等条件,但是很多时候在进行数据和模型分析时会发现数据的样本量很难获取或者本来就是小样本,并且很难满足约束条件。而相对其他分析方法,偏最小二乘法不受样本量和正态分布要求的限制,用该方法分析此类问题更有效,更便捷。

假设本文研究的样本量为n,测量量表中分别包含a个被解释变量{y1,…,ya}和b个解释变量{x1,…,xb} 。分别用X和Y表示上述两个变量的标准化数据,它们分别为:

首先,需要对变量进行降维处理,分别提取主成分{s1,…,sc} 和{t1, …,tc} ,其中 c=min{a,b} ,每个主成分包含被提取变量中最多的信息。为了保证s对t最大的解释能力,sc和tc之间的相关度保持最大。因此,可以得到X组和Y组的第一个主成分分别为s1和t1,并且它们满足以下关系式:

上式中g1和 f1表示第一主成分的系数向量。

然后,再分别建立Y1对t1和X1被t1的回归方程:

根据最小二乘估计原理得:

α1和β1为模型效应载荷量。

上述过程为变量信息提取过程,从上述过程可以发现在提取第一主成分时,只提取了大部分的信息,一些信息没有提取出来。因此,需要对残差矩阵e1、e2进行再提取,具体过程如下:

可以得到:

然后,通过变形转换得到:

令n×b数据观测矩阵的秩为Rank=min(n,b)=k,则存在k个成分t1,…,tk使得:

最后,通过类比推广得到在非标准化情况下的模型为:

2 模型构建

为了探索优化数据质量的方法和措施,本文通过分析数据形成的直接相关者找到提升路径,主要有数据来源者、数据处理者、数据监管者三个主体,数据形成的流程主要包括获取、发布、监管等重要部分。因此,本文从数据来源者、数据处理者、数据监管者、数据获取、发布、监管这六个方面进行研究,探索不同主体或流程对数据质量的影响,分析模型中各个变量间的关系,最终得到改善数据质量的路径和优化方法。

数据获取主要衡量被调查者的文化水平、配合度以及对其信息保密度方面对数据质量的影响,数据处理过程包括数据的整理录入、汇总处理、加工发布等部分。在这些流程中,每一步都非常重要,一旦出现操作失误或不当就会直接影响数据质量,因此统计工作对数据工作人员的统计方法和专业技能要求很高,要保障统计工作的硬件设施和信息化发展水平,以及统计工作的环境问题。数据监管可以包括两个方面:一是组织内部的自我监管,工作人员不仅要自我监督进行复查和审核,员工之间还要相互监督,相互审核验证。同时组织机构外部要形成监督力量,上级组织可以成立评估监察小组负责整个流程的监察,同时外部媒体、大众等也可以根据实际情况进行有效的监督。在统计数据质量方面,本文参考王华等学者[14]提出的数据质量维度划分标准,准确性、适用性是数据基本特征,方法健全性、制度合理性是数据质量生产方面的特征,及时性、可得性是数据发布方面的特征。通过对数据获取、处理、发布等环节进行分析,通过分析研究,在参考国内外相关研究的基础上,本文构建数据质量影响路径分析模型如图1所示。本文选取六个维度16个指标,通过设计测量量表进行调查,获取样本数据测量数据质量优化模型中指标间的结构关系。

图1 统计数据质量影响路径模型

根据部分学者的研究以及实际中的认识,本文认为数据获取方面、数据处理方面和数据监督方面对数据质量的影响为正向的。一线工作人员在数据搜集和调查中,在不影响搜集质量的情况下尽可能地提高工作效率。同时也可以通过数据改善统计分析和处理方法、提高硬件设施水平、删减不必要的工作流程等保证数据质量的准确性和方法的健全性。而加强数据监管不仅可以对工作人员获取进行监督和审查,保证数据的搜集、整理。并且还对数据的处理产生一定的影响,加强数据监管可以防止数据虚报、漏报、错报,防止统计工作人员的人为操作,降低数据质量。根据上述分析,本文作出以下假设:

H1:数据质量与数据获取路径有正向的关系

H2:数据质量与数据处理路径有正向的关系

H3:数据质量与数据监管路径有正向的关系

H4:数据监管路径对数据获取路径有正向影响

H5:数据监管路径对数据处理路径有正向影响

3 实证分析

为了研究改善数据质量的路径和方法,本文通过搜索大量国内外参考文献进行汇总整理和分析,构建了数据质量测量量表。为了保证调查对象的随机性和有效性,本文更倾向于对经常使用数据的群体进行调查,以使被调查的信息更具有说服力。最终,回收有效样本340份,满足使用偏最小二乘法的要求。为了了解调查对象的基本情况本文通过描述统计分析,分析结果如表1所示。

表1 调查对象基本信息

首先,进行信效度检验,信度表示用同一方法多次处理结果的一致性程度,效度表示研究数据反映研究问题的有效程度。按照业界的标准文章将对测量量表的区分效度和收敛效度进行检验,检验测量量表的有效性。国际上公认的区分效度合格标准是AVE(Average Variance Extracted)值大于0.6同时CR值要大于0.7(Composite Reliability),这时认为该量表具有一定的收敛效度。而当上述条件满足时,如果变量间的相关系数小于对应AVE的平方根,这时可以认为该测量量表满足区分效度检验。

为了检验本文所用测量量表的信效度,本文运用Smart PLS软件对模型进行分析,通过模型分析得到结果如表2所示。分析结果显示:潜变量数据质量的AVE值为0.6424大于0.6,Composite Reliability值为0.9151大于0.7;潜变量数据获取的AVE值为0.7728大于0.6,Composite Reliability值为0.9107大于0.7;潜变量数据处理的AVE值为0.6756大于0.6,Composite Reliability值为0.8925大于0.7;潜变量数据监管的AVE值为0.7879大于0.6,Composite Reliability值为0.9175大于0.7;上述变量的AVE值都大于0.6,并且Composite Reliability值都大于0.7,这表明该测量量表具有收敛效度。同时,可以发现各个潜变量之间的对角线的数据都大于每一列的数值,这表示变量间的相关系数的平方小于AVE值,通过了区分效度检验,说明该测量量表具有一定的区分效度。综上可知,本文所用量表具有有效性。

表2 信效度检验结果

运用软件分析得到各个潜变量的载荷值,从表3中数据可以看到,各个潜变量的载荷值都大于0.7,超过业界公认的一般水平值,因此可以认为潜变量提取的信息可以有效的解释变量之间的关系。分析结果也说明发布特征、数据获取、数据监管以及数据质量的基本特征、生产特征、数据处理等变量所对应的观测变量对结构变量的解释度比较好,根据测量量表得到的数据可以分析得到模型中各变量间的结构关系。

表3 各观测变量载荷值

为了分析模型中各变量之间的相关关系,本文运用Smart PLS软件对变量间的结构关系进行分析。数据结果显示:模型的R平方值为0.697,这表示模型的拟合优度较好。为了更加直观地了解模型处理结果,本文对数据结果进行汇总整理得到表4。

表4 假设检验结果

表4的分析结果显示:数据获取(HQ)与数据质量(ZL)间的路径系数为0.298,大于零有正向的作用关系,同时T值为7.035大于1.96,表明线性关系非常显著,假设一成立。根据假设一可以改善数据获取流程,比如加强工作人员的技能培训,更新硬件系统优化量表设计方案等,通过这些方式提升数据质量。数据处理(CL)与数据质量(ZL)间的路径系数为0.460大于零,同时T值为9.041大于1.96,T检验非常显著,表明假设二成立,数据处理的提高可以增加数据质量。数据监管(JG)与数据质量(ZL)间的作用为正相关,路径系数为0.174,T值检验为3.814,大于1.96,非常显著,说明假设三成立。数据监管(JG)与数据获取(HQ)间的路径系数为0.633,大于零有正向的作用关系,同时T值检验为15.230大于1.96,T检验非常显著,假设四成立,这表明数据监管可以正向的影响数据获取的效果,比如加强奖惩力度,加大监管法规建设等。数据监管(JG)与数据处理(CL)间的作用为正,路径系数为0.174,T值为26.032,T检验非常显著,假设五成立。加强监管不仅可以提高数据搜集的效率,保证数据快速有效的统计,并且可以加强数据的加工和处理,督促数据和信息的完成和发布。数据获取、处理、监管这三个流程中,数据处理方面对数据质量的影响作用最大,其次为数据获取和数据监管方面,并且数据监管对数据获取和处理有正向的促进作用。

4 总结

为了探索数据质量的优化路径和方法,本文以数据相关主体为切入点,分别从数据来源、处理、监管等流程探索数据获取路径、发布路径、监管路径对数据质量的影响。本文构建模型并提出假设,运用偏最小二乘法和相关软件进行分析,通过假设检验和分析研究,最终得到如下结论:(1)数据处理方面对数据质量的作用最大,其中工作人员的专业技能和文化素养对数据处理作用明显。因此,可以通过提高统计数据工作人员的文化程度和学习培训,加强统计工作人员的专业技能,提升统计工作人员的基本素养,以此促进统计数据质量的提升。(2)统计数据监管方面对数据质量的影响相对较小,主要是因为监管手段和措施生硬,没有创新。此外上级领导对统计工作的重视程度对监管效果的作用显著,在统计工作中上级领导的重视程度直接影响着工作人员的积极性。(3)在数据获取方面,数据获取的质量直接与工作人员有关,因此对工作人员的专业素养和技能显得非常重要,同时统计量表的设计、数据获取的时间和形式也影响着数据的价值。此外,被调查者的配合度以及被调查者信息的保密度可以在短时间内得到提高,通过法规宣传增加他们对统计工作的认识,保证他们的个人隐私不受侵害,获得他们的支持和信任,提高获取统计数据的质量。(4)数据监督路径的提高可以对数据获取和数据处理产生积极的作用,法律法规的宣传实施、奖惩制度的实施可以在很大程度上提升数据获取和处理的质量。

[1]宋敏,覃正.国外数据质量管理研究综述[J].情报杂志,2007,(2).

[2]孙海英.当前政府统计体制对统计数据质量的影响分析[J].统计与管理,2015,(12).

[3]程开明.基于利益相关者视角的统计数据质量管理体系研究[J].商业经济与管理,2013,(3).

[4]王建高,曹德.影响基础统计数据质量的因素分析及其对策[J].青海统计,2012,(9).

[5]张卫华.浅谈统计数据质量的应先因素及其控制[J].内蒙古科技与经济,2011,(9).

[6]马元三.基于全面质量管理的统计数据质量研究[J].宏观经济研究,2010,(11).

[7]曾晓峰,从统计流程谈统计数据质量控制[J].中国统计,2008,(2).

[8]贾静,樊相宇.基于结构方程模型的统计数据质量影响因素分析[J].西安邮电学院学报,2011,16(4).

[9]初蓓.影响统计数据信息质量的原因及对策[J].科技情报开发与经济,2005,15(3).

[10]曾五一.国家统计数据质量研究的基本问题[J].商业经济与管理,2010,(12).

[11]向蓉美.国家统计数据质量管理研究述评[C].政府统计数据质量研讨会论文集,2010.

[12]李先锋.DZ市政府统计数据质量影响因素研究[D].西安:西安科技大学学位论文,2013.

[13]程慧平,万莉,张熠.基于偏最小二乘结构方程的我国区域图书馆发展水平研究[J].图书情报工作,2015,59(12).

[14]王华,金勇进.统计数据质量与用户满意度:测评量表设计与实证研究[J].统计研究,2010,27(7).

猜你喜欢
统计数据数据处理量表
创新视角下统计数据的提取与使用
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
胸痹气虚证疗效评价量表探讨
国际统计数据
2017年居民消费统计数据资料
三种抑郁量表应用于精神分裂症后抑郁的分析
慢性葡萄膜炎患者生存质量量表的验证
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
初中生积极心理品质量表的编制