基于支持向量机的图书分类管理研究*

2021-02-25 06:28胡谦锋陈沁磊
计算机与数字工程 2021年1期
关键词:子集正确率向量

胡谦锋 陈沁磊

(1.南京中医药大学图书馆 南京 210000)(2.江苏省中医院 南京 210000)

1 引言

1.1 支持向量机的基本原理

Vapnik 提出的结构风险最小化原理指出要最小化期望风险必须同时最小化经验风险和VC 维,SVM 就是基于结构风险最小化的一种机器学习算法[1~2],其源自在线性且样本指标可分开情况下的最优划分面,结构如图1。

图1 SVM原理示意图

上图中,“●”符号和“○”符号表示两种不同的样本,H为假设最优划分线(所谓假设最优划分线,要求能将不同的样本划分出来,目标是0 错误,还要使两划分线中间间隔尽可能大,这样能使风险保持最小状态。使间隔尽可能大使推广性界中的置信范围最小,在实际应用中把风险降到最低,H1、H2分别为数据样本中距离最优划分线最近的平行划分直线,H1、H2和H中间的部分是分类间隔(margin)。从一维空间扩展到高维空间,假设最优划分线H就成为了最优划分面,而H1、H2上的训练样本点群,便成了距超平面最近的异类向量,我们称其为支持向量(Support Vector),如图1 中用圆圈标出的数据样本所示。一组支持向量可以确定一个超平面,且这个平面是唯一确定的。

1.2 支持向量机多类分类原理

给定训练子集{(x1,y1),…,(xl,yl)} ,其中,x∈Rn,yi∈{1 ,2,…,M},i=1,2,…,l。寻找Rn上的一个差别函数f(x),对于任一输入x给出相对应的y值。上述多类分类问题实质上就是找到一个把Rn上的点分成M部分的规则[4]。

下面是利用二值分类的方法构造一个n类分类器的方法与步骤。

1)构造n个二值分类规则,其中规则fk(x),k=1,…,n将第k类的训练样本与其他训练样本分开,若向量xi属于第k类,则sgn[fk(xi)]=1,否则sgn[fk(xi)]=-1

2)选取函数fk(x),k=1,…,n中最大值所对应的类别:

以上两个步骤便可以将n类数据样本进行分类,以此为支持向量机处理多类分类问题的依据来构造多类分类器。

即多类分类问题的支持向量方法的描述如下:

设数据样本训练子集为

其中,中的目标k表示向量属于第k类。

考虑线性函数集;

目标是构造n个函数,n对 (ωk,bk) ,使得规则;

能将训练样本无错误地分开,即不等式

对所有k=1,…,n,m≠k和i=1,…,ln成立。

如果数据集间的指标不能准确地分开,则最小化如下泛函数;

约束条件为

其中,k=1,…,n,m≠k,i=1,…,lk。

Lagrange 最优化技术具有科学性,以该技术处理fk(x)函数,展开求解得可知:

函数fk(x)展开式的系数ai(k,m),k=1,…,n,m≠k,i=1,…,lk,j=1,…,lm需要最小化如下的二次形式:

约束条件为

2 传统的ABC 分类法在图书分类中的应用分析

ABC分类管理方法,是一种国内外应用较为广泛的方法,而且其原理比较好理解。ABC管理具有以下特点:成本低、见效快、技术简单。ABC分类方法,尤其在复杂错综的系统里,为了达到有效的管理,集中有限的精力于重要关键的领域,它是既必要又可行的方法。在传统的ABC 分类法中,首先基于年资金使用量对于库存项目按降序进行排序,然后把库存单位分成三类:前15%~20%属于A 类,控制年库存资金总使用量的80%,需要实行重点管理;最后50%~60%构成C 类,占有很少量的库存资金;在两类之间的属于B 类,约占项目的20%~30%。换言之,该分类方法依托的是传统模型,图书的单价与图书的重要程度直接挂钩(价格作为价值的唯一表现形式),对于单价不贵的图书并不重点管理,而要求重点管理高价值图书。

传统的ABC 分类方法以资金占比这一经济角度为依据,对图书的重要性进行评估,有失于全面性和精准性。作为图书管理方,图书的经济特征指标、图书的时间特征指标(如提前采买天数的长短)和重要度量化指标(如图书缺件时造成损失的程度)同样是不可缺少的,甚至占有更高的权重,所以传统的ABC 分类方法并不总是有效的。传统的ABC分类法在实际应用中指标过于简单片面,输入的量化指标主观性、随机性强,而想要该表这一状况就要输入大量统计数据,开展大规模的复杂运算。对于样本规模并不甚大图书分类,引入基于支持向量机的机器学习方法是十分必要的[6~7]。

3 提取图书不同数据类型的集合

图书分类模型的指标选取应坚持以下原则:与图书分类等管理活动相关度高;精简指标数量和规模;(降低SVM 的输入空间维数,缩小问题的规模,从而降低计算难度,节约时间)如实反映图书分类所需的各项特征。本文综合考虑图书管理工作的特点,制定了一个图书分类指标体系,如表1所示。

图书运营过程中,各个指标都影响其分类结果以及运营部门投入的关注度。这些指标要素影响着管理方的图书分类工作。加权各要素的总体,我们发现各个种类图书关注度整体上与对相关图书进行重点管理的程度同向变化[8~10]。

“单价”指的是单位图书的采购成本,是图书管理的经济性因素。在传统模型和当今模型中,单价都与关注度正相关[11]。

“提前采买天数”指图书从出单发货、运输到接收入库的耗时总长,体现的是采购难易程度。提前采买天数体现着采买过程中的变数,与缺货可能性和所需的关注度[12]都正向相关。

“年出货量”指的是该种类图书全年的销售量的大小。图书的年出货量越大,说明畅销程度越高,也就越需要提高关注度。

“历史销售量”指该种图书投入销售运营全过程以来的销售总量,是该图书交易的总体稳定性。对于历史销售量与关注等级正向相关。

“图书库存时间长度”指图书售出所需的时间长度。对于库存期越短的图书,市场需求就越大,关注程度应提高[13]。

“重要度等级”指该种图书对整体施加的影响水平和缺件时造成时损失的程度的大小。图书重要性与该种类图书对管理运营成本的影响、缺货造成的损失呈现正相关关系,要重点关注重要性等级高的图书。

“供应方等级”指图书供应方的综合水平。供应方等级和其供货的质量、服务水平呈现正相关的关系。当图书的供应方等级较低时,就需要调高对其提供的图书的关注程度。

表1 集内各指标内容说明

4 基于支持向量机的图书ABC 分类模型

应用基于支持向量机构建图书ABC 分类模型的基本步骤。

第1 步,根据实际情况,分别选取图书的单价、提前采买天数、年出货量、历史销售量、图书库存时间长度、重要度等级、供应方等级作为图书的分类指标。

第2 步,提取图书管理单位部分图书的各项指标值,形成数据集,由经验丰富的图书管理人员对图书进行分类。

第3 步,用极差变换法对数据集进行归一化处理,通过极差变换法,将图书的各个属性均变为属于[0 ,1] 区间的值,但并不改变各属性之间的相对关系,不会影响到分类模型的构建。

第4 步,随机抽取图书数据集中的部分样本作为训练子集,其它样本作为测试子集。

第5 步,采用向量机模型选择方法,以训练子集样本为基础,完成对支持向量机的优化。在后优化过程中,以训练子集作为验证支持向量机多分类模型的性能样本反复测试。若达不到预期性能,就该换方法重新进行优化,返回上步。

第6 步,若测试性能达标,分类模型的具体性能就可以在测试子集上进行验证。若该模型在训练子集和测试子集上的分类正确率达到合理区间,说明该模型比较成熟。若分类正确率达不到合理区间,甚至与预期相差较大,则从数据质量问题,模型优化方法两个方面考虑改进。

第7 步,如果在测试子集上的分类正确率在合理区间内,可以对得到的新模型进行保存,以新模型对图书样本分类[14~15]处理。

模型建立的具体过程如下图2所示。

图2 支持向量机图书分类基本步骤

5 实例分析

5.1 优化参数的选择

选取某书店的200 种图书,这里以同样方法进行处理。以150 种图书形成一个数据集合体(集内要素任意选择),其余的50 种图书作为测试的数据集合体,分别应用网格搜索法和遗传算法优化的支持向量机进行图书ABC 分类,将两种方法优化参数的支持向量机的预测模型对实际数据进行分类处理,并将分类结果进行对比。

图3 网格搜索法参数优化

图4 遗传算法参数优化

分类结果见到表2。

表2 参数优化方法比较

通过实验我们发现,经过网格搜索法优化参数的支持向量机训练子集分类正确率为96.6187 %、测试子集正确率为93.5484%,两者大致相当;经过遗传算法优化参数的支持向量机训练子集分类正确率97.4789%和测试子集正确率96.7741%,两者大致相当。这说明参数优化的合适。

另外通过实验数据对比,我们发现应用遗传算法进行参数优化后的支持向量机的分类正确率较传统的网格搜索法的支持向量机分类正确率有了较大的提高,其分类效果更优越一些。因此我们选择遗传算法来优化支持向量机的参数优化方法。

5.2 结果分析

为了更好地对支持向量机图书ABC 分类模型的性能进行检验,我们另外再从图书中随机抽取10 种图书进行分类,然后与传统的分类结果进行对比分析。这里以RBF函数对于数据进行处理,经过算法处理和优化,易知参数发生了显著变化,这里选择C=23.235 和g=1.9326,输入变量后以我们提出的模型分类处理,采用对比法研究,得出的分类结果见表3。

图书0654124 以传统分类处理的结果显然应该看作是A类图书,但我们的处理结果与传统结果不同,将其划作B 类。由表可知,图书0654124 具有较高的供应方等级,中等的重要度等级、采购价格和年出货量,较短的提前采购期等,综上所述,并没有显著必要性对该图书进行特别划分,所以由该数据认为相较于传统分类,该分类结果更加合理准确。

图书0412486和图书0145413它们的提前采买天数都比较短,基本上能够通过及时采购得到,较高的供应方等级,中等的重要度等级,年出货量不佳,库存周期也比较长,是小众图书,划分为C 类图书更加具有合理性。

图书1456439 是传统意义上的C 类图书。它具有低价、提前订货期长、消耗量大、重要度高等特点,但受到供应方等级的限制小,从数据表征的结果来看,我们认为其作为A 类一样是合理的,这里的分类不局限于C类。

表3 随机抽取的图书分类结果分析表

6 结语

由此可见,支持向量机分类模型具有强大的分类能力,它能够依据从图书多个指标要素点出发,对图书分类情况进行系统性的考察,得出较之于传统方法更加准确的分类结果。兼具精准性和高效性是该方法的显著特点。在实际的图书分类实施过程中,能够实现以较小的指标要素规模实现更加科学准确的运算,有效降低了运算的复杂程度,一定程度上减小了现实分析运算中常见的数据千头万绪、应用困难等问题,是一种优化进步。在新的模型中,各个指标的加权比重一般无需反复设定,使准确性大大提高。应用的简单提高了学习的泛化性能,“过学习”情况也得到缓解。

猜你喜欢
子集正确率向量
向量的分解
个性化护理干预对提高住院患者留取痰标本正确率的影响
高一上学年期末综合演练
课程设置对大学生近视认知的影响
生意
生意
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
集合的运算
每一次爱情都只是爱情的子集