基于数据挖掘技术的输电工程造价预测模型的建立与实现

2018-03-07 08:04耿鹏云安磊王鑫
现代电子技术 2018年4期
关键词:支持向量机数据挖掘

耿鹏云+安磊+王鑫

摘 要: 针对目前输电工程造价技术指标过多,影响因素比较复杂,导致输电工程造价估算困难,设计概算审查难以达到理想效果的问题。建立基于数据挖掘技术的输变电工程造价预测模型,其采用数据挖掘技术来判断不同工程技术指标对工程造价所造成的影响级别,同时能够自动查询错误、异常或者不合理的数据,降低了人为因素的影响,并通过支持向量机来对样本数据进行样本学习,从而建立输变电工程造价预测模型。测试结果表明,该模型预测结果相对误差低,其能够准确预测输变电工程的造价,且对于造价预算具有一定的参考价值。

关键词: 数据挖掘; 输电工程; 造价预测模型; 支持向量机; 样本学习; 概算审查

中图分类号: TN913?34; TP393 文献标识码: A 文章编号: 1004?373X(2018)04?0157?04

Abstract: As there are too many cost technical indicators and complicated influencing factors in the current power transmission project, it is difficult to evaluate the cost of power transmission project and achieve the desired effect of budget review. Therefore, a cost forecast model for power transmission and transformation project based on data mining technology is established. The data mining technology is used in the model to judge the impact level of different engineering technical indicators on project cost, with which the wrong, abnormal or unreasonable data can be automatically queried, the impact of human factors can be reduced, and the sample learning of the sample data can be performed by means of support vector machine. The test results show that the forecasting results of the model have low relative error, and the model can accurately predict the cost of power transmission and transformation project, which have a certain reference value for other cost budgets.

Keywords: data mining; power transmission project; cost forecast model; support vector machine; sample learning; budget review

由于通过输变电工程概算定额来建立造价指标方案有限,同时实际执行中又会因技术和工艺的更新换代而不断发展,设计概算审查难以达到理想效果[1?4]。因此,建立一个科学有效的输变电工程造价预测模型来对输变电工程的造价进行预测非常重要。

本文建立了基于数据挖掘技术的输变电工程造价预测模型,采用数据挖掘技术来判断不同工程技术指标对工程造价所造成的影响级别。同时能够自动查询错误、异常或者不合理的数据,降低了人为因素的影响。通过支持向量机来对样本数据进行样本学习,从而建立输变电工程造价预测模型。

1 输电线工程造价技术指标体系建立

通过主成分以及偏相关的分析方法,并利用SPSS软件对某输电线工程的历史数据进行分析[5],寻找出对输变电工程造价影响较大的技术指标,从而构建出其预测模型的技术指标。

1.1 主成分分析法

主成分分析法指在保证低数据损失情况下,将高维变量空间维数降低的一种方法。首先,需要对数据进行预处理以保证数据挖掘的执行及结果的正确性。可先通过属性选择方法对数据集进行压缩,将电力部门所收集到的原始數据中属性与数据挖掘任务无关的数据剔除掉,并通过属性转换和量化处理等进一步压缩数据。处理后得出最后的数据集有27个属性,144条记录;其次是对数据做标准化处理,这里主要采用均值标准方差法,即先求出各个指标的标准差,然后将标准差作为新的样本数据,如式(1)~式(3)所示:

式中:[Xij]表示数据中第i个工程所相对的第j项属性的值;[Zij]表示第i个工程所相对的第j项属性的标准值。经过标准化处理后得到新的数据集维数为27×144。

利用SPSSI软件对数据集进行主成分分析,得出12个能够代表原始数据结构的属性,包括基材、杆塔数、杆塔钢材、混凝土、土石方、线路长度、铁塔数、单回长度、接地钢材、汽车、人力运输距离以及导线数等。

1.2 偏相关分析法

偏相关分析是在除去其他变量的影响后来探究两个变量之间的关系,通过SPSS软件对以上属性做偏相关分析,以0.4作为偏相关系数的界限,筛选出9个属性,如表1所示。将筛选出的属性作为输电线工程造价预测的基本属性,得到一个9×144的数据集。

2 基于支持向量机的造价预测模型endprint

2.1 支持向量机理论

支持向量机是Vapnik等人提出的一种机器学习方法,其在小样本学习、非线性以及高维模式识别上具有较大的优势,适用于数据挖掘[6?8]。支持向量机的主要工作原理为升高维数及线性化处理,假设本训练集D:

2.2 输变电造价模型建立

在所有相似的144个工程中选取其中20个工程的数据作为样本来进行训练,并选取8个指标作为支持向量机的输入,输出为单位静态投资(万元/km),如表2所示。另外,选取5个工程的数据作为测试数据以检测本文样本数据训练得到模型的准确性。

在Matlab软件中打开支持向量机软件工具包,编制基于支持向量机的输变电工程预测程序,并将训练样本数据输入到支持向量机中进行训练学习。同时将测试样本数据作为输入进行测试得到预测结果,如表3所示[10]。

由表3可以看出,前4个工程造价预期结果误差较小,均在3%以内。而第5个工程由于土方石量较大,且汽车与人力运输距离远,造成误差大。因此,该预测模型基本满足输变电工程预测要求。

为了对本模型的合理性进行验证,本文在相同的数据样本以及测试样本下采用人工神经网络进行仿真。上述8个指标作为输入神经元,输出为单位长度输电线投资金额。在Matlab软件中采用基于BP算法的神经网络对样本数据进行训练学习,样本误差分析输出结果如图1所示。从图1可以看出,样本数据经过神经网络模型训练后,输出值与实际值较为接近。紧接着对测试样本进行测试,输出结果见表4。从表4中可看出,采用人工神经网络的预测模型所得到的预测值与实际值相对误差较大,除了第三个工程预测值与实际值相对误差在4%以内,其他工程均高达10%以上,相对误差最高达18.34%。

由此可得,本文采用基于支持向量机的预测模型预测相对误差较低,其能够准确预测输变电工程的造价,且对输变电工程的造价预算有一定的参考价值。

3 结 语

针对目前输电工程造价技术指标过多,影响因素比较复杂,导致输电工程造价估算困难,设计概算审查难以达到理想效果的问题。本文建立基于数据挖掘技术的输变电工程造价预测模型,其采用数据挖掘技术来判断不同工程技术指标对工程造价所造成的影响级别,同时能够自动查询错误、异常或者不合理的数据,降低了人为因素的影响。并通过支持向量机来对样本数据进行样本学习,从而建立输变电工程造价预测模型。测试结果表明,该模型预测结果相对误差低,其能够准确预测输变电工程的造价,对输变电工程的造价预算有一定的参考价值。

参考文献

[1] 杨永明,王燕,范秀君,等.基于灰关联?神经网络的电力工程造价估算[J].重庆大学学报,2013,36(11):15?20.

YANG Yongming, WANG Yan, FAN Xiujun, et al. Cost estimation of power engineering based on grey relational neural network [J]. Journal of Chongqing University, 2013, 36(11): 15?20.

[2] 张吉刚,梁娜.基于改进BP模型的我国社会物流总成本预测[J].统计与决策,2014(6):61?63.

ZHANG Jigang, LIANG Na. The total cost prediction of China′s social logistics based on the improved BP model [J]. Statistics & decision, 2014(6): 61?63.

[3] 周成杰.基于BP神经网络的工程投资估算方法探讨[J].铁路工程造价管理,2015,30(5):6?9.

ZHOU Chengjie. Discussion of project investment estimation method based on BP neural network [J]. Railway engineering cost management, 2015, 30(5): 6?9.

[4] 郝胜兰.基于模糊神经网络的房产软件项目成本估算研究[D].大连:大连海事大学,2012.

HAO Shenglan. Research on the cost estimation of real estate software project based on fuzzy neural network [D]. Dalian: Dalian Maritime University, 2012.

[5] 王苏斌,郑海涛,邵谦谦,等.SPSS统计分析[M].北京:机械工业出版社,2003.

WANG Subin, ZHENG Haitao, SHAO Qianqian, et al. SPSS statistical analysis [M]. Beijing: China Machine Press, 2003.

[6] 郭濤,马林东,葛智平.基于EMD和神经网络的短期电力负荷预测[J].电子设计工程,2013, 21(21):105?106.

GUO Tao, MA Lindong, GE Zhiping. Forecasting of short?term power load based on EMD and neural network [J]. Electronic design engineering, 2013, 21(21): 105?106.

[7] 马立新,郑晓栋,尹晶晶.基于粗糙特征量的短期电力负荷预测[J].电子科技,2016,29(1):40?43.

MA Lixin, ZHENG Xiaodong, YIN Jingjing. Short?term load forecasting based on rough characteristic?component algorithm [J]. Electronic science and technology, 2016, 29(1): 40?43.

[8] 杜军岗,魏汝祥,刘宝平.基于PSO优化LS?SVM的小样本非线性协整检验与建模研究[J].系统工程理论与实践,2014,34(9):2322?2331.

DU Jungang, WEI Ruxiang, LIU Baoping. Nonlinear cointegration test and error correction modeling based on LS?SVM optimized by PSO in small sample [J]. Systems engineering?theory & practice, 2014, 34(9): 2322?2331.

[9] ACHIMUGU P, SELAMAT A. A hybridized approach for prioritizing software requirements based on K?means and evolutionary algorithms [J]. Computational intelligence applications in modeling and control, 2015, 575: 73?79.

[10] CHEN S, XU Z, TANG Y. A hybrid clustering algorithm based on fuzzy C?means and improved particle swarm optimization [J]. Arabian journal for science and engineering, 2014, 39(12): 8875?8887.endprint

猜你喜欢
支持向量机数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
数据挖掘技术在中医诊疗数据分析中的应用
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用