基于聚类算法的电力制造业ERP数据分类

2022-01-12 02:31刘云天孙晶琪牛东晓张焕粉

科学技术与工程 2021年35期

刘云天，孙晶琪*，牛东晓，张焕粉

(1.华北电力大学经济与管理学院，北京 102206； 2.北京清畅电力技术股份有限公司，北京 100085)

伴随着大数据和信息化时代的来临，传统的库存控制管理方法渐渐难以适应现代化企业库存管理的需求。制造业企业往往存在着库存产品繁多，难以管理的问题，对于高经济价值的库存产品进行重点管理，而忽略低经济价值库存产品的管理控制，从长远来看会造成巨大的经济损失，制造业企业如何管理这些种类繁多的库存产品，使库存更加合理已成为亟待解决的难题[1]。

以上方法均采用传统分类方法对企业库存产品进行管理，存在着分类标准较为单一，在实际应用时存在盘点清查困难等问题。考虑到传统分类方法的局限性，很多学者已经开始探索新的数据分类方法。梁淑蓉等[7]基于权重搜索树提出了改进K近邻的高维分类算法，该算法对比K近邻分类算法、决策树和支持向量机算法，显著减少了数据分类的时间，相较其他算法也具有更高的分类准确率。张扬等[8]研究了一种新的证据分聚类融合算法。显著提高了分类准确度。王刚等[9]提出了一种新的云计算环境下自适应分类方法，通过提取的分布式语义文本特征并进行验证，发现该方法具有更高的分类精度和效率。从以上研究可知，学者们通过将数据挖掘技术应用到数据分类中，大大提升了数据分类的效率和准确性。

由于传统库存分类方法存在不能准确分类，存量控制困难等问题，现提出基于K-means聚类算法的ABC库存分类方法。首先从供应商的库存管理系统中提取产品销售数据，然后采用聚类分析算法，对原始数据进行数据预处理，在剔除掉无关数据后，根据各样本数据与各聚类中心的距离对样本数据进行分类，建立数据分类模型对库存产品进行分类，以指导企业的库存管理决策。通过将数据挖掘技术与传统库存管理方法相结合，达到建立科学而有效的库存分析系统的目的。

1 ABC分类法和K-means聚类算法的理论基础

1.1 ABC分类法

ABC分类法是将事物在价值、数量等方面的特征作为依据，进行划分和归类、区分重要和一般，以采取不同管理策略的一种方法[10]。ABC 分类法的思想实质上可以这样概括：多数的经济价值往往集中于少数产品，而多数产品仅仅占据少数经济价值，企业应该重视对前者的管理[11]。ABC分类法的一般步骤如下。

(1)数据获取。从ERP管理系统中获取产品的种类、型号、销售额等数据。

(2)分析计算。将从ERP管理系统中获取的数据进行分析、计算。继而计算各产品的销售量与销售累计量占总销售量的百分比、各产品销售额与累计销售额占总销售额的百分比。

(3)确定分类标准。根据ABC分类法基本思想，把累计销售额为 60%～80%的产品归为 A 类，把累计销售额为 20%～30%的商品归为 B 类，其余归为 C 类。

(4)依据上一步的分类结果，制订ABC分类管理标准表，对A、B、C三类对象采取不同的管理策略。

1.2 K-means聚类算法

聚类分析是数据挖掘中十分热门的一个研究方向，与其他学科的研究领域有着很大的交叉性[12]。可以通过使用聚类分析算法发现各种数据的隐含结构，对数据进行自动分类，进而获知数据的大致分布，能够在诸多领域为各种不同的企业提供决策支持[13]。

K-means算法是一种得到最广泛使用的聚类算法，其主要思想是：首先通过计算得出各聚类子集内所有数据样本的均值，并将其作为该聚类的代表点，然后把每个数据点归入最邻近的类别中，使评价聚类性能的准则函数趋于最优、从而使同类别中的对象相似度(相似度为一个簇中对象的平均值)较高，而不同类之间的对象相似度较小[14]。算法的一般步骤为：在样本中随机抽取K个对象，假设每个对象的初始值等于该簇的平均值，对于剩余对象，根据其与各个簇的质心的距离逐个分配到最邻近的簇，然后重新计算各个簇的平均值，不断重复此过程直至准则函数收敛。

K-means算法的一般步骤如下。

假定存在数据点集D={x1，x2，…，xn}，以及k个簇C={C1，C2，…，Ck}，每个簇的聚类中心为

(1)

式(1)中：nCi表示第i个簇中数据点x的个数。

构建准则函数为

(2)

(4)循环步骤(2)和步骤(3)，直到准则函数E的数值保持不变。

(5)分类完成，得到k个聚类。

2 基于K-means聚类算法和ABC分类法的电力制造业产品细分建模

在对库存产品进行分类时，首先为每一个类选择一个聚类中心，依据ABC分类方法将库存产品数据分为三个簇，其中A 类库存产品是指价值80%销售额的占据20%数量的产品型号，假设该类产品的总销售额为M，总库存数量为N，则定义A 类产品的平均销售额C作为A类产品的中心为

(3)

定义φ为评价函数为

(4)

式(4)中：Q(i)为i型号产品的销售额。

在K-means算法中，选取合适的评价函数非常重要，因此在本文所构建的模型中将评价函数的选取与ABC分类法相关联，通过设置合适的评价函数来衡量库存产品i的销售额与本类产品销售额的聚类中心间的距离。规定若φ<0.8，则表示该产品的销售额与聚类中心距离过远，并将该产品进行次一级分类评价；反之则将该产品归入当前类别。

将K-means算法中的评价函数引入分类算法，解决了ABC分类法对于分类边界判断模棱两可的问题。假设A类产品的销售额占比为80%，若仓库中存在m产品，库存占比为65%，则m产品库存占比与销售额占比之和未达到 80%，根据ABC分类法的理论，m产品属于 A 类。但假定m产品的销售额很少，那么将m产品归入 A 类是不合理的。因为在模型中引入评价函数，显然会使φ的值变小，从而m产品不应该归入 A 类。这种改进方法避免了传统方法的边界分类不准确性，使得分类边界更加清晰，加强了对库存产品分类的灵活性和准确性。

基于K-means算法的ABC分类法的步骤如下。

(1)根据各型号环网柜比例和基于ABC分类法得出的分类，计算各类库存环网柜的聚类中心Ci。

(2)对于每种商品x。

(4)如果φ>R(R为当前类别环网柜评分比例)，则将x归入当前类别。

(5)在当前品类产品销量比例的基础上，增加环网柜x占总销量的比例。

(6)否则转换为ABC中的下一类别，循环步骤(4)～步骤(6)。

(7)结束判断。

(8)结束循环。

(9)计算新的聚类中心Ci。

(10)循环步骤(2)～(9)，直至聚类中心Ci保持不变。

通过在计算机中运行上述算法，可以获得环网柜分类信息表，在表中可以直观的观察到各类别库存环网柜的销售额在总销售额中占多大比例。根据嵌套聚类算法后的环网柜分类结果，库存中心可以针对不同类别的库存环网柜产品采取不同的库存管理策略。比如对于A类环网柜，采购需求量较为巨大，必须保证这些型号的环网柜在多个仓库中的储存量，不允许出现缺货的情况；对于B类环网柜，可以采取适当控制的策略，应该在可能的范畴内尽量减少库存；对于C类中的各型号环网柜产品，只需采用经济批量即可。

3 实证计算

3.1 问题提出

某电力制造业企业库存中心每天要处理大量各种型号的环网柜，对于这些不同型号、具有不同经济价值的环网柜产品，考虑到客户对环网柜产品的多样化需求以及中心仓库较为有限的库存容量，企业库存中心必须根据各型号环网柜的月度销量，对不同型号的环网柜产品采取不同的库存策略(比如计划库存量、经济订货量)，从而提高产品出入库的工作效率、刺激环网柜产品的销售并尽可能的减少库存。在算例中需要解决的问题是：对于该企业的环网柜库存中心而言，通过数据挖掘算法挖掘出哪些型号的环网柜是占据库存空间较小，但是最有经济价值的，则应该对这些型号的环网柜产品进行重点管理。因此，可以依据该算法，利用计算机得出各环网柜型号的从属分类，企业的库存中心可以依据分类结果对不同型号的环网柜采取不同的管理策略，以实现最佳的库存管理效果。

3.2 数据采集

本文中数据来源于某电力制造业企业的后台ERP数据库中的历史环网柜产品销售表。根据算法输入的要求，本次建模需要的数据包括环网柜的型号(即库存品名称)，环网柜的月度销售量，环网柜的月度销售额。因此从ERP系统中导出的环网柜销售记录表如表1所示。

表1 环网柜销售记录表(部分)Table 1 Ring network cabinet sales record sheet(part of the table)

3.3 数据处理

从ERP管理系统的数据库中导出的原始数据存在着很多空缺和不一致的质量不高的数据，在建模分析时这些数据会对分析结果造成不良影响，因此在建模计算前必须对数据进行加工处理，一般的处理步骤大致包括数据清理、数据集成、数据变换和数据归约[15]。因为在本文的实证研究中以月为时间跨度，需要根据产品的月度销售额数据来对产品数据进行聚类，但从数据库中导出的数据表只有每批次销售额这一属性，因此需要对环网柜销售记录表中的库存数据进行处理。首先将原始数据中的空缺值等低质量数据去掉，然后根据环网柜销售记录表的库存品名称、每批次销售量和每批次销售额数据，通过运行代码计算得到月销售额数据，然后根据分类算法通过计算机计算得到相应的分类。

3.4 数据计算及分类

利用传统的ABC分类法对原始库存数据表进行数据分类的结果如表2所示，划分的库存环网柜累计金额占比趋势变化如图1所示。

图1 ABC分类法下的累计占比库存金额变化趋势图Fig.1 Change trend chart of cumulative proportion of inventory amount under ABC classification

表2 数据分类表Table 2 Data classification table

根据累计金额占比趋势图可知，17类不同型号的环网柜中，有3类产品被分为A类，4类产品被分为B类，10类产品被分为C类。然后将传统方法分类后的数据代入改进的基于聚类算法的 ABC 分类模型。在利用K-means算法进行聚类时，聚类中心的变化如表3所示。

表3 聚类中心变化表Table 3 Cluster center change table

在A、B、C三类的聚类中心不再改变后，利用K-means聚类算法进行二次分类的结果如表4所示，累计金额占比变化趋势如图2所示。

表4 二次数据分类表Table 4 Secondary data classification table

图2 基于聚类分类算法的累计占比库存金额变化趋势图Fig.2 The trend chart of the cumulative inventory amount based on the cluster classification algorithm

结果表明，AC10 kV、2 630 A和QLG-12/630这两类型号的环网柜属于A类产品，销售额占比约76%，WKXGN15-12CCVVVV和QLG-12/630-5L型号的环网柜属于B类产品，销售额占比8%，其余产品属于C类，销售额占比16%。故应该对AC10 kV、2 630 A和QLG-12/630型号的环网柜进行重点控制，应该严格控制其计划与采购、库存储备量、订货量和订货时间；对WKXGN15-12CCVVVV和QLG-12/630-5L型号的环网柜进行适当控制，在需求范围内适当减少库存；对于其余的C类产品可以放宽控制，采用经济批量。

4 结论

采用K-means聚类算法和ABC分类法建立了库存分类模型，并对某电力制造业企业生产的多种型号环网柜进行了产品库存分类，得到以下结论。

(1)在ABC分类法中引入评价函数较好的解决了传统分类的弊端，这种改进方法避免了传统方法在边界分类中的不准确性，通过定义合适的评判标准使得评价函数可以对各型号的库存环网柜产品与各聚类中心的距离进行定量的判断，也加强了各类环网柜划分的灵活性，增强了算法的准确性。

(2)根据数据挖掘聚类算法与经典库存分类方法建模计算得出的分类结果来指导企业库存决策，对于企业库存管理有着较强的指导意义。数据挖掘技术与ERP信息系统的紧密结合大大增强了ERP的分析和决策功能，充分满足了用户的需求，利用挖掘得到的ERP数据除了可以进行产品库存分类、股利分配决策、企业价值评估和财务预警外，还能为许多其他的企业决策提供支持。