基于改进SVM 的绩效数据智能处理与分析算法设计

2023-01-24 12:51刘晓静
电子设计工程 2023年2期
关键词:超平面分类函数

刘晓静

(河北北方学院附属第一医院,河北张家口 075000)

随着数字化建设的高速发展,现代化医院每天均会产生大量的数据,这其中就包括人力资源数据。现阶段,员工一年的工作量已无法用几个指标进行简单的量化。而传统的数理统计方法仅依靠简单的指标公式对员工的绩效进行衡量,例如层次分析法(Analytic Hierarchy Process,AHP)[1]使用主观评价的方式对员工进行评价,其主观性较强、无统一标准,且无法处理当今海量的数据。因此,需使用现代化的数理算法构建一套标准的员工绩效评价体系。近年来,云计算、大数据与人工智能等技术的应用[2]大幅提升了医院快速处理海量数据的能力。该文设计了一种改进的SVM 算法,并将其应用于医疗人力资源数据的分析与处理,最终建立了一套客观且科学的员工绩效数据分析系统。

1 多尺度卷积网络视频压缩算法

1.1 支持向量机

支持向量机(Support Vector Machine,SVM)[3-6]于1995 年提出,并被广泛应用于数据回归与分类中,其本质是一种监督机器学习的方法。支持向量机不仅可弥补传统统计学方法的不足,还能够解决数据维度高、线性度较差及样本数量少而导致的训练准确度偏低等问题。

支持向量机通过非线性变换将输入数据矩阵升维,进而在该高维空间内求解最优线性分类面。其分类函数的结构近似于神经网络,具体如图1 所示。

图1 支持向量机结构

支持向量机所实现的功能,即将传统统计学算法无法正确分类的数据使用特定函数向特征空间内投影,同时在该特征空间中找寻最优的分类超平面对数据进行切分,分类超平面切分数据如图2 所示。

图2 分类超平面

因此,问题的关键在于寻找最优的分类超平面。假设两类数据为(xi,yi),i=1,2,…,n,分类超平面可用wx+b=0 表示。其中,w、b均为平面函数权值。此时,该超平面需满足的约束条件为:

需使用拉格朗日函数对式(2)进行求解,构建的函数如下所示:

式中,L为拉格朗日变换算子,a为构造函数权值。基于数理知识,该求解问题可转化为:

由式(4)可计算得到最优的参数w*和b*,二者的计算公式为:

因此,由式(5)-(6)可推导得到最优分类函数为:

式中,sgn 为符号函数。由此可见,对于线性可分的数据,使用以上公式即可推导得到最优分类函数。若数据是线性不可分的,需在函数表达式中加入惩罚因子C,则式(2)将变为:

式中,ζ为拉格朗日乘子。为求解式(8),需引入核函数K(xi,x),此时可将线性划分切换到非线性划分,得到最终的优化分类函数为式(9)所示。此外,具体是使用线性公式或非线性公式需依据实际数据情况界定。

1.2 长短时神经网络

SVM 算法可对非线性的数据映射及少量样本数据进行学习,但该算法的时序性较差,故无法挖掘时序性较强的数据。人力资源管理数据通常包含有整个年度的数据,且具备一定的时序性,因此使用长短时神经网络(Long Short-Term Memory,LSTM)对数据进行特征挖掘与训练,并使用SVM 算法作为分类器对数据进行分类输出。

LSTM[7-11]也被称为长短时循环神经网络,该网络由循环神经网络(Recurrent Neural Network,RNN)改进而来,其主要特征是在RNN 网络的各单元中加入了各种特征门以实现算法的完整功能。

特征门包括输入门、遗忘门与输出门等。通过这些特征门,LSTM 便可实现记忆网络状态、存储网络时间特征等功能[12-13]。长短时神经网络的神经元组成结构如图3 所示。

图3 LSTM神经元结构

遗忘门的作用是对上一时刻数据神经单元的状态ct-1进行选择性存储或遗忘,同时将该数据ct输出迭代至当前状态。遗忘门结构的表达式为:

式中,Wf为遗忘门的特征因子矩阵,bf为遗忘门的偏置常数项,ft为遗忘门数据输出函数。

输入门为数据的输入端,其作用是将网络的输入数据保存至单元状态。输入门的结构公式为:

式中,Wi为输入门的特征因子,bi为输入门的偏置项,it为输入门的输入函数。

输出门为LSTM 单元状态的输出值,该单元的表达式如下:

式中,ot为输出门的输出函数,Wo为输出门的特征因子,bo为输出门的偏置项。

LSTM 网络的最终输出由输出门与最终时刻的单元状态共同决定,输出的公式为:

式中,∘表示哈密尔顿积运算。

1.3 SVM-LSTM绩效评估算法

系统设计以医院人员绩效评估体系为例,构建了基于SVM 和LSTM 算法的绩效评估系统。该系统共分为四个模块,分别为人员数据采集模块、数据预处理模块、基于LSTM 的数据训练模块与基于SVM 算法的结果分析模块,具体的系统架构如图4所示。

图4 系统结构

人员数据采集模块按照DRGs(Diagnosis Related Groups)标准医院评价指标体系进行采集,DRGs 可从多个维度对医生进行评价。评价指标包括一级与二级指标,具体的数据指标和指标权重,如表1 所示。需要说明的是,设计指标权重为归一化数值,因此数据预处理模块需要对人力资源数据进行初步处理,并实行归一化。人力资源数据量化后,便可输入至处理模块中加以训练。

表1 数据采集种类

基于LSTM 的数据训练模块能对数据的各方面特征进行学习,并最终输出特征区分显著的人力资源绩效特征数据集合。基于SVM 的分类数据模块训练特征数据,并对这些人力资源数据进行分类评分,进而得到排名结果。

1.4 评价指标

为了能对实验进行客观评价,选择以下评价指标对实验结果加以评估。实验指标分别为ACC(平均准确率)、MAPE(平均绝对百分比误差)、MSE(均方误差)及RMSE(均方根误差)值。表达式分别如式(14)-(17)所示:

在上述表达式中,T和F分别表示判断正确和错误的事件数,为实验正确率值,yi为理论正确率值,n为样本总数量。四项指标可从算法准确率与稳定性两方面对算法进行评估。

2 算法测试

2.1 数据训练

文中使用的数据集为某公司在2015-2020 年间某项目人力分配及产出数据。首先对该数据进行预处理操作,之后再完成特征分类。数据测试的环境如表2 所示。

表2 测试的软硬件环境

2.2 仿真结果分析与对比

在算法对比仿真中,从算法的性能及效率两个方面进行综合评估。

在算法性能测试方面,文中使用的对比算法为算法1(传统统计学方法)、算法2(RNN-SVM 算法)以及算法3(LSTM-Softmax 算法)[14-16]。算法性能测试则使用ACC、MAPE、MSE 及RMSE 指标值进行评估。

由表3 可以看出,所提算法的准确率ACC 均领先于其他算法,说明其可以对人力资源数据进行有效的绩效评估。同时,所提算法的MAPE、MSE 及RMSE 误差指标在所有算法中均为最小,证明所提算法的稳定度良好,综合性能也较为优越。

表3 各算法测试指标值

除算法性能外,算法效率也是评价中较为重要的指标,其是算法是否能够进行实时性交互的直观体现。该实验使用2016 年的数据对所有算法的运行时间进行了测试,时间统计标准为算法训练完数据并对分类结果进行输出的时间。各算法的运行时间如表4 所示。

表4 实时性测试结果

由表4 可以看出,传统统计学算法的运行时间为122 s,在所有算法中排名最后。而所提的LSTM-SVM算法在所有算法中运行最快,说明其结合了LSTM与SVM 算法的优势,因此算法效率有所提升。

3 结束语

绩效评估通过多项指标体系对医务工作者进行综合评价,随着医院信息化规模的发展,科学、有效的绩效评估将成为医疗系统高效运行的重要保障。以层次分析法为例的传统数理统计方法仅依靠简单的指标公式对人员的绩效进行主观的衡量,无统一标准,同时也难以处理现代化医疗体系中产生的海量数据。文中通过LSTM 算法融合改进了SVM 算法,并将新的算法用于人力资源数据的训练与分析,弥补了传统SVM 算法无法训练时序数据的不足。实验测试结果表明,所提算法具备较为理想的性能及良好的运行效率,具有一定的应用价值。

猜你喜欢
超平面分类函数
二次函数
全纯曲线的例外超平面
第3讲 “函数”复习精讲
涉及分担超平面的正规定则
分类算一算
二次函数
函数备考精讲
分类讨论求坐标
以较低截断重数分担超平面的亚纯映射的唯一性问题
数据分析中的分类讨论