基于K-Means聚类算法的碳排放审计预警研究

2023-01-12 01:43吴花平黄尹薇刘自豪
中国注册会计师 2022年12期
关键词:平方和质心聚类

| 吴花平 黄尹薇 刘自豪

一、引言

2022年4月,《中共中央、国务院关于加快建设全国统一大市场的意见》公布,提出打造统一的要素和资源市场,包括健全城乡统一的土地和劳动力市场、加快发展统一的资本市场、加快培育统一的技术和数据市场、建设全国统一的能源市场以及培育发展全国统一的生态环境市场。其中,能源市场和生态环境市场均与“双碳”目标紧密相关。低碳转型是现阶段我国经济社会发展、转型的必经之路,不同于发达国家的低碳转型路径,我国的低碳转型需要在实现节能减排的过程中,满足不断扩张的能源需求。然而,在“双碳”目标的驱动下,仍存在部分企业对碳排放数据进行修改甚至伪造的舞弊行为,进而打破碳市场规则、扰乱碳市场正常秩序,严重危害碳市场健康运行,阻碍“双碳”目标的顺利实现。

碳排放审计又称碳审计,它不是简单的财务审计、合规审计,而是一种应对碳减排工作的多元且复杂的审计,是环境审计的子项,也是环境审计工作新的指向。作为一种为改善生态环境而控制碳排放量的管理工具,碳排放审计为我国低碳经济的发展提供了一套切实可行的监督约束机制。随着碳排放审计理论与实践的发展,以英国为代表的部分发达国家早已实施了碳排放审计,例如,在2009年,英国环境审计委员会(EAC)针对碳的收集与储存、碳交易市场、碳收支等诸多低碳问题提出了进行全面审计的工作报告,成为全面碳审计的应用典范;同年,作为碳审计实践较早的国家之一,美国国家审计署也发布报告指出对汽车、房产和生活方式进行审计,抓住了碳审计重点,进而增强了人民的低碳意识。然而,在大数据时代下,传统的数据采集、处理和分析应用方法,已难以适应海量的碳排放审计数据环境,若碳排放审计人员继续按照传统审计方法进行碳排放审计,不仅无法充分挖掘审计数据的潜在价值,而且使得审计风险大大增加,甚至导致审计失败。因此,如何在海量的多源、多维、异构审计数据中,充分利用审计数据的大集中、大综合、大关联的特征,促进审计人员形成用数据说话、用数据决策的大数据审计思维,实现碳排放审计疑点的精准定位,加强审计力度、优化审计方法、提高审计效率,已成为碳排放审计面临的迫切要求和全新挑战。

基于此,部分学者提出,通过在审计工作中引入大数据技术,例如机器学习、数据挖掘等方法辅助审计活动的开展,从而提升审计效率。机器学习是一个多学科交叉研究领域,包括计算机学科、概率统计学科等,其利用计算机对现有数据进行学习并产生反映数据关联的模型从而辅助判断与决策。机器学习按照对不同数据的处理方式,一般可分为监督学习、半监督学习、无监督学习以及强化学习。作为无监督学习的一种,K-Means聚类算法通过迭代求解,能够在无任何先验知识的情况下发掘数据的相似性,进而实现数据分组的目的。因此,基于K-Means聚类算法的思想简单、聚类效果优、可解释性强等优点,受到了学者的广泛关注。杨蕴毅等运用迭代式聚类的方法,以上市公司财务数据为样本,利用证监会等机构的非结构化数据,实现了审计疑点的迅速挖掘。Wang Xuren等针对用户异常数据库行为,采用K-Means 聚类方法对其进行分组,大幅度提高了数据库泄露风险的检测效率与精确性。由此可见,K-Means聚类方法有助于应对大数据中的异常问题,并且对审计疑点的迅速发现与确认有着独特的天然技术优势。

本文在对已有文献的整理和分析的基础上,说明了K-Means聚类算法在审计工作中能够具有独特优势,为“机器学习+碳排放审计”的研究提供了相应理论依据。基于此,本文从当前传统碳排放审计中存在的问题出发,创造性地将机器学习中的K-Means聚类算法与碳排放审计相结合,构建了碳排放审计预警框架,在降低审计成本的同时,兼顾了审计效率,最后以H企业碳排放审计预警为例进行仿真,表明基于机器学习K-Means聚类算法的碳排放审计预警系统的可行性,进一步推动了碳排放审计的发展。

二、K-Means聚类算法

K-Means算法是当前最为流行的聚类算法模型之一,主要通过逐步迭代优化聚类结果,同时不断地将目标数据集重新分配到每个聚类中,从而被广泛应用于数据处理、图像识别、市场分析和风险评估等研究领域。其主要步骤如下:

步骤(1):随机地从N个样本数据中选择K个对象,其中每个对象均代表一个簇的初始均值或质心;

步骤(2):对剩余的对象,根据其到每个簇均值的欧氏距离,将其分配到距离最近的簇中;

步骤(3):使用每个聚类中的样本均值作为新的质心。

接下来,依次重复步骤(2)和(3)直到簇的均值不再发生变化,聚类中心不再改变。

其中,两个n维向量x=(x1,…,xn)和y=(y1,…,yn)之间的欧氏距离d(x,y)定义如下:

K-Means聚类算法评价准则之一是误差平方和准则,误差平方和简称为SSE,其定义如下:

其中,k为簇的个数,Ci为第i簇,p为某个簇中任意一点,mi为簇Ci的均值。SSE值越小,说明数据点越接近质心,聚类效果则越好;反之,若SSE越大,聚类效果则越差,多个聚类被视为一个聚类的可能性就越大。因此,在聚类过程中需要将误差平方和较大的聚类再次进行划分。

三、基于K-Means聚类算法的碳排放审计预警

(一)传统碳排放审计目前存在的主要问题

碳排放审计的实施表明环境保护不能局限于先污染后治理的方式,而是需要通过对各重点行业,特别是工业、火电以及钢铁等行业的企业环境污染进行监督制约和预防,从而验证被审计单位在履行碳排放社会责任方面是否存在舞弊行为。传统的碳排放审计流程主要包括三个阶段:准备阶段、实施阶段和报告阶段,具体如图1所示。

图1 碳排放审计流程

基于对流程的总体分析,总结出目前碳排放审计主要存在三个方面的不足:首先,在计划准备阶段,审计人员需通过收集、评审碳排放相关资料,制定碳排放审计计划,但由于碳排放审计与环境学、能源学等化工知识紧密相关,从而对审计人员的专业技能和综合素质提出了更高的要求。在碳排放审计工作下,审计人员不仅要对碳排放相关资金进行审计,还需了解碳排放数据中蕴含的审计信息,掌握碳排放审计技术,深刻把握碳排放政策,对传统审计人员提出了巨大挑战。其次,在审计执行阶段,审计人员实施对碳排放审计评估,需对碳排放源、碳排放设备进行审计抽样,然而,当前审计数据往往具有数据容量大、数据类型多等特征,如果仍采用传统方法进行抽样,则需要从整体中抽取大量的样本,造成人力、物力、财力的耗费,往往无法充分挖掘出有价值的审计疑点。因此,为提高审计效率,基于大数据技术的数据采集方法必不可少。通过运用大数据技术方法减轻工作量、大数据智能算法发现异常,并针对异常点再进行审计分析,能够有效避免数据量大导致审计工作复杂繁琐等问题。最后,在审计报告阶段,由于碳排放信息未得到充分披露,碳排放报告数据缺乏精准性,从而使得碳排放审计相关信息不具备完整性,难以进行量化记录,故而使得碳排放审计在一定程度上蕴含巨大的风险。

(二)基于K-Means聚类算法的碳排放审计预警

预警系统是运用科学的手段,在预测与评价的基础上,根据预警目标设立预警指标,并在问题的萌芽阶段,合理预估未来发展状况、度量未来风险程度的一整套运行程序,其中包括设定预警目标、设计预警指标、确定预警阈值、数据处理、产生预警信号和反馈预警效果等。为充分发挥审计的事前预防功能,预警系统通过对企业业务活动中产生的数据信息特性进行分析,预测是否存在审计风险,输出审计预警,对审计风险达到监控和规避的作用,进而实现防范风险的效果,这种将风险抑制住的方法将成为审计模式发展的一个新方向,所以构建一套行之有效的审计预警系统至关重要。目前,在智能审计下,作为碳排放审计的被审计单位,碳排放数据信息庞大,监测碳排放量的手段复杂,如果仅靠传统的审计预警模型已不能辅助审计人员进行高效的碳排放审计,也不能反映出对碳排放实时状况的监测,缺乏对风险的监控和预警。因此,为了更加有效的解决大数据背景下的这一系列问题,下文将基于K-Means聚类算法对碳排放审计预警进行探究。

1.预警流程设计。基于K-Means聚类算法对碳排放审计预警流程进行设计,具体如图2所示,第一步,获取数据。获取被审计单位内部相关数据,该数据不仅包括与碳排放相关的数据,还应涵盖相关财务数据,再将数据进行My SQL或者数据挖掘等大数据智能采集分析技术处理,然后将数据储存在数据库中以便提取;第二步,数据处理。数据值缺失是数据分析中的常见问题之一,在大量的审计资料中难免会遇到信息被遗漏的问题,故上述原始数据记录中极有可能存在空行、空值等情况,出现的缺失值会使后续运行算法模型陷入混乱,从而导致输出结果不可靠,因此,数据清理和数据转换必不可少,最常见的处理方法则是Z-score正规化方法;第三步,聚类分析。为了将具有相似“特征”的数据划分在同一个类别中,K-Means聚类算法通过迭代将所有数据进行分类,直至聚类中心不再发生变化,分类结果不再调整,则算法结束。但在正式聚类分析前,寻找一个适当的K值是获取最佳聚类效果的关键,常见的K值选取方法是手肘法,这是一种利用SSE值和K值的关系图确认最优K值的方法。当K值小于真实簇数时,由于每个簇之间的聚集度将随着K值的增加而增加,因此SSE值会大幅度降低,关系图将呈现出比较陡峭的连线;当K值达到真实聚类数时,随着K值的增大,SSE值的变化幅度将会减小,关系图呈现出比较平稳的连线。因此,SSE值和K值的关系图是一个手肘的形状,其中拐点处的K值则是样本集的实际聚类数,也是最佳聚类数;第四步,异常点检测。在完成K-Means聚类分析后,在对每个簇误差平方和大小的比较基础上,进一步选取误差平方和较大的簇并计算簇内各点距质心的距离,判断是否出现严重偏离质心的点,从而区分出正常数据与异常数据;第五步,风险预警。将异常数据作为审计疑点,进行风险信号传递,审计人员针对审计疑点根据企业历史数据以及企业的相关真实情况进行合理判断,若证实该审计疑点的确存在相关审计风险,应即刻做出风险预警,反之,不需风险预警。

2.预警指标设计。为确保预警达到良好的效果,预警指标应遵循重要性和可得性,选取更具有代表性的指标才能提升预警的准确性。在对碳排放结果进行检验、评价被审计对象碳排放水平时,可使用的碳排放水平指标包括:二氧化碳排放总量、碳排放强度、单位GDP能耗、人均碳排放量,并且Piecyk(2009)也认为碳排放审计的主要步骤包括确定审计目标和路线、选择计算方法、确定审计边界、选择排放因素、数据收集、碳排放计算和信息披露,由此可以说明碳排放量在碳排放审计过程中具有极大的影响,故将碳排放审计预警的其中一个指标设置为碳排放量。碳排放强度是由碳排放量与国民生产总值GDP的比值构成,其中产业结构变动作为碳排放量的影响因素之一,对碳排放强度起着根本性影响,这是由于各产业对能源的需求量不同,能源需求量大的企业,若其在国民经济中占有较大的比重并且增长率较高,那么能源消耗和碳排放量也会随之增加。对此为了满足企业内部预警系统的适应性,需对碳排放强度进行改进,使其能够成为企业所适用的指标,即变为企业碳排放量与企业营业收入的比值,进而将其设置为第二个指标。

3.预警阈值确定。根据K-Means聚类典型的划分思想,其算法的作用是将相似的数据聚成一簇,利用数据相似性对数据进行分类,并且该算法适用于误差平方和准则,误差平方和越小,聚类后的簇内部也会更加紧凑。其公式SSE在本文第二部分已有提及,但由于该公式描述的是整体误差平方和,即每一个簇的误差平方和之和,若仅算其中某一个簇的误差平方和,那么公式可改为:

此时,SSEi表示第i个簇的误差平方和。若通过上述公式计算出的误差平方和越大,则表明簇内某些样本点距质心的距离较远,即该点为异常点的可能性越大。因此如果某一个簇的误差平方和占总体误差平方和比重较大,那么该簇中存在异常点的可能性就越大。基于此,对于该占比的大小需要有一个界定值,此处将其设为λ1,即预警阈值为λ1,若则将该簇划分为异常簇,进而进行风险信号传递,再针对该异常簇内部的样本点进行距离分析,若样本点到质心的距离大于簇均值的限定倍数,则表示该点距质心较远,并且偏离簇内大部分点,从而基本确认该点为异常点,故此处将限定倍数设置为另一个预警阈值λ2,该不等式可以表示为:

其中,mi指第i簇的质心。在K-Means聚类的基础上,超过阈值的碳排放数据指标将被定义为异常点,并且触发审计风险预警。因此,在阈值被确定后,要通过实时对比分析,实现阈值与实际预警区间的不断吻合,并通过分析二者之间的差异,确定差异产生的原因,进而最大程度上实现预警阈值的合理化,为现代企业碳排放审计工作增添新动能。

四、基于K-Means聚类算法的碳排放审计预警的案例仿真

(一)数据获取

H企业作为我国特大型钢铁联合企业,拥有全球钢铁行业覆盖面积最大、控制产线最多、集成度最高的炼铁智控中心。在国家高度重视推动“双碳”目标的同时,H企业坚定不移地坚持绿色发展战略,加快企业低碳转型,促进企业与环境共同发展。此外,H企业主动迎合数字化时代的发展,在技术创新方面也有突出的贡献,力争走一条“体制机制新、经营绩效好”的特色发展道路,为K-Means聚类算法与碳排放审计工作相结合打下了技术基础。鉴于企业二氧化碳排放详细数据难以获取,并且依据联合国气象组织发布的《2006年国家温室气体清单指南》提出钢铁行业CO2排放系数表,如表1所示,其中钢铁生产的CO2排放系数为1.46吨CO2/吨钢,因此本文基于CSMAR数据库,以我国重点H钢铁企业2008年--2018年间的钢铁生产量为例,将其钢铁生产量间接转换为H企业的碳排放量。

表1 钢铁行(企)业CO2排放系数(强度)

(二)数据预处理

为了使预警模型的数据更加精确,首先将转换后的企业季度碳排放量以及计算出的企业碳排放强度原始数据集使用Z-score标准化方法进行数据预处理。具体预处理步骤如下:

步骤(1):将H钢铁企业钢铁生产量通过CO2排放系数1.46,计算出企业碳排放量,但由于在CSMAR数据库上企业披露营业收入的最小时间单位为季度,则为方便碳排放强度指标的计算,此处将月度碳排放数据转换为季度碳排放数据,得出第一个指标;第二个指标为碳排放强度,此处使用上文中已改进的企业碳排放强度,即季度碳排放量与季度营业收入的比值。最后删除一些冗余特征,并将缺失数据用该年平均值替代;

步骤(2):由于各项数字指标之间数量级相差较大,为了消除变量间的量纲关系,得到更加精确的模型,将对数据进行标准化处理。标准化的公式如下所示:

图4 K-Means聚类算法效果

其中x表示原始数据,mean表示数据的均值,σ表示数据的标准差。下述表2与表3显示的是数据处理前的部分数据与数据处理后的部分数据。

表2 H企业碳排放量与碳排放强度前十位数据截取(处理前)

表3 H企业碳排放量与碳排放强度前十位数据截取(处理后)

(三)聚类分析

经过以上数据预处理后,按照上文碳排放审计预警流程图中聚类分析的相关步骤,将得到的两个指标数据集进行K-Means聚类分析。利用手肘法,经分析对比发现,将数据集划分为3类时,聚类效果较好,然后通过质心的多次迭代,直到质心收敛为止,最终聚类结束。迭代过程图及聚类效果图如图3、4所示,其中聚类效果图中不同的颜色代表不同的簇,每个簇内红点表示该簇的质心。

图3 K-Means聚类算法迭代图部分截取

(四)异常点检测与风险预警

通过观察聚类图,并计算SSEi与SSE的比值,比较比值与设置的阈值λ1的大小关系,若比值大于λ1,则将该簇定义为异常簇,再通过计算异常簇内各点到异常簇质心的距离,比较距离与簇均值限定倍数λ2的大小,若结果显示大于λ2,则该点为异常点的概率较大,可将其作为审计疑点。值得注意的是,异常点也不一定全是审计存在问题的点,如该案例中(-2.5,-1)、(0,4),挖掘出异常点的结果只是为审计提供一种导向,需要审计人员根据该企业实际情况进行分析排查,结合企业历史数据,判断是否存在特殊情况,若没有特殊情况的出现并且实际情况也不能对该点的异常进行有效说明,则进行风险预警,即碳排放异常可能性较大。

五、K-Means算法的碳排放审计预警保障措施

1.加强数据管理,提升碳排放数据安全性。随着我国数字化转型进程不断深入,审计数据的获取已经从传统的获取方式转变为通过大数据技术实时获取,深度挖掘审计数据的内在价值,探明深层次的审计线索,帮助审计人员对企业经营活动的真实性和合法性做出更加客观、独立的评价,并及时发现企业运行中的问题。在碳排放审计预警的实施过程中,对预警实施后输出的预警结果会产生较大影响的是聚类过程中K值的选取以及预警阈值的确定,而对于这两个因素是否可靠,则要取决于数据的真实性与全面性。在前文已经提到,审计预警系统的数据是根据相关数据挖掘等智能分析方法提取的,然后再进入待测审计数据库中,基于此,被审计单位数字化水平的提高是必要的,在数据提取后,要保障碳排放数据的质量与安全,确保其不被篡改或盗窃,因此为了充分保障数据安全性,企业需要对数据进行加密处理,如若操作人员要使用碳排放相关数据,则仅能进行查看,不能对任何数据进行修改。

2.加强审计人员主导性,提高审计人员专业能力。当前审计与大数据技术的融合已经成为趋势,审计人员应当加大对新技术的学习,并将合适的技术运用于审计工作中,以适应社会的发展。在国内碳交易市场基础设施还未完善的背景下,碳排放审计要求的多学科复合人才缺乏,碳排放审计人才培养属于新技术、新技能、新工艺的全国紧缺人才培训项目的其中一项。基于此,首先在以低碳经济发展为主导的社会中,审计人员必须要向复合型人才进行转变。鼓励审计人员与其他学科人才进行合作、交流,尤其是经济学、环境学以及社会学等学科,同时也积极鼓励其他领域相关人才向碳排放审计领域发展,为今后碳排放审计注入新鲜血液。其次,还需加大对碳排放审计人员的培训,提倡让政府批准的具有相应资质的机构能够对碳排放审计人员进行碳排放审计培训,如有必要也可派送至国外进行前沿理论知识的学习。另外,积极引导碳排放审计人员参加实践研究,在实务中总结经验,能够更好地增强碳排放审计实操技能。在审计预警过程中,虽然相关数据是通过大数据平台智能分析方法提取,但是审计人员作为审计的主导,若仅依靠大数据方法,而缺乏主导性,则很可能导致数据的不准确,从而预警结果也会相应受到影响。审计预警模型只能起辅助的功能,而审计人员作为实际操作的主导,为确保审计预警模型更好地利用,应该提高自身信息化专业能力,并且需对审计预警中各个步骤,包括数据智能分析达到熟练操作的水平,才能够更加了解企业状况,并对预警模型进行相应的优化。

猜你喜欢
平方和质心聚类
重型半挂汽车质量与质心位置估计
基于GNSS测量的天宫二号质心确定
基于K-means聚类的车-地无线通信场强研究
费马—欧拉两平方和定理
基于轨迹的平面气浮台质心实时标定方法
利用平方和方法证明不等式赛题
基于高斯混合聚类的阵列干涉SAR三维成像
四平方和恒等式与四平方和定理
关于四奇数平方和问题
基于Spark平台的K-means聚类算法改进及并行化实现