基于不平衡数据分类的人体姿态分类算法*

2019-09-11 02:25王忠震王中森
传感器与微系统 2019年9期
关键词:分类器姿态噪声

黄 勃, 王忠震, 陈 欢, 王中森

(1.上海工程技术大学 电子电气工程学院,上海 201620; 2.邵阳学院 电气工程学院,湖南 邵阳 422000)

0 引 言

针对人体日常行为活动的分类问题越来越受到国内外专家学者的关注。文献[1]提出一种基于加速度信息与脚底压力的下肢运动信息采集系统,通过采集脚底压力信息监测关键步态事件,对4种常见行为(走路、跑步、上楼和下楼)进行识别。文献[2]提出一种非参数聚类的方法,通过加速度计对人体运动的特征数据进行采集。已有文献的关于人体姿态识别方法,其更加注重的是姿态信息数据的获取,而忽略了获取数据自身类别分布的特性。在现实生活场景中,由于年龄、所处环境以及场所的不同,人体所展现的姿态分布并不是理想状态下的均衡分布,呈现出不平衡的类别分布状态。例如年青人的姿态分布,“运动”姿态的数量远多于“静止”的姿态,老年人则是相反的状态。

基于此,本文提出一种基于不平衡数据分类的人体姿态分类算法。该算法首先针对数据集中存在噪声样本影响分类效果的情况,提出K-means噪声样本滤除算法,对少数类样本集中的噪声样本进行滤除。其次通过采样算法SMOTE来生成少数类样本,使数据达到平衡。最后使用以J48决策树为基分类器的Adaboost学习框架,利用集成学习的思想提高整体样本的分类精度。采用G-mean、F-value及AUC作为评价标准,通过将本文提出的算法与CUS-Boost、SMOTEBoost以及RUS-Boost算法相对比,在AReMr人体姿态数据集上的实验结果表明,该算法的预测性能优于其他三种算法。

1 预备理论

1.1 不平衡数据分类

在已有的多数分类算法中,模型的训练往往是基于数据集中各类样本分布,处于一个较为平衡的状态下进行训练的,但在现实世界中,样本的分布确是不平衡的。在不平衡数据集中,通常把样本数量较多的类称为多数类,样本数量较少的类称为少数类[3]。而在一些领域少数类样本所包含的信息更加重要,例如信用卡欺诈、故障检测、医疗诊断以及网络入侵等领域。

1.2 K-means算法

K-means算法[4]核心思想是中心探索法[5],从数据集中选取K个簇心zt1,zt2,……,ztK,使得每一个样本点xi到其最近簇心ztj的距离之和达到相对最小。通过选取样本之间的欧氏距离作为样本相似性的判断准则,计算各类簇中样本到簇心ztj的距离平方和

(1)

式中j=1,2,…,K;i=1,2,…,|Cj|,|Cj|为第j个类簇包含的样本数;xi∈Cj表示第j个类簇中的第i个样本;聚类的过程便是使式(2)中J(C)被最小化的过程

(2)

2 基于K-means不平衡数据分类算法

本文提出的基于K-means不平衡数据分类模型共分为两阶段:噪声样本滤除阶段、数据平衡以及模型训练分类阶段。分类模型如图1所示。

图1 基于K-means不平衡数据分类模型

2.1 K-means噪声样本滤除算法

在现实场景条件下,在进行人体姿态数据监测过程中,由于人体动作幅度、动作频率等其他客观情形的影响,极易使传感器产生噪声样本数据,进而影响分类性能。尤其在少数类样本数目较小且样本抗干扰能力较弱的情况下,噪声数据所产生的影响越大。所以,本文在对少数类样本采样之前,提出K-means噪声样本滤除算法。

K-means噪声样本滤除算法根据样本集中样本的分布特性:同类样本之间分布较为紧密,异类样本之间分布相对稀疏。对样本集中所包含的噪声样本予以识别、滤除。本文关于噪声样本的定义如下:若某一样本距离其簇心的距离大于该类簇最远样本到簇心距离的98 %,则该样本定义为噪声样本。

算法1K-means噪声样本滤除算法

Input:少数类样本集Sm

Output:去噪后少数类样本样本集S'm

1)定义K-means算法,类簇数为K

2)使用K-means算法将少数类样本集Sm划分为K个类簇

3)根据式(1)计算各类簇中样本到其类簇簇心的距离

4)Forj=1,2,…,K:

a.以类簇中距离簇心最远样本距离的98 %为半径Rj,簇心为圆心,定义类簇边界

b.根据类簇边界,若一样本在其类簇边界之内则定义为安全样本,反之定义为噪声样本

5)End For∥结束循环

6)根据第(4)步,将Sm所有定义为噪声的样本删除,安全样本保存到S'm

7)ReturnS'm

2.2 基于K-means不平衡数据集成分类算法

针对数据集中存在噪声样本干扰的情形,本文提出算法1基于K-means噪声样本滤除算法。数据集中的少数类样本集经过算法1处理后,会得到一个相对“干净”的数据集。其次为了获得类别数目相对平衡的数据集,本文采用经典的采样算法SMOTE,对去噪后数据集进行采样操作。最后对于采样后的数据集,本文选用以J48决策树为基分类器的Adaboost模型[6,7],进行分类模型的训练。详细算法训练过程如算法2所示。

算法2基于K-means不平衡数据集成分类算法

1)通过算法1对少数类样本集中噪声样本识别、滤除

2)使用SMOTE算法对去噪后的样本集进行新样本的合成,平衡样本集

3)初始化样本分布权重D1(i)=1/n,i=1,2,3,…,n,(n表示平衡样本集中样本数据目)

4)Fort=1toT:(T表示迭代次数)

根据样本分布Dt训练弱分类器ft:X→Y

5)End For

7)ReturnH(X)

3 实验结果与分析

3.1 数据集选取

实验数据选自UCI公开数据库中的AReM人体姿态数据集[8]。该数据集中的所有数据是通过对人体3个部分(胸部—右脚踝,胸部—左脚踝,右脚踝—左脚踝)佩戴无线传感器收集得到。数据信息分类:bending、cycling、lying down、sitting、standing、walking,共42 240条且每条有6个属性。

3.2 数据预处理

文献[9]提出意外摔倒是老年人尤其是独居老人面临的一个威胁生命的严重风险,住院率乃至死亡率都很高。有报告曾统计,有10 %~15 %的摔倒甚至会直接威胁老年人的生命。由此本文针对所选数据集选取lying down动作为少数类标记为1占比15.4 %,其他动作为多数类标记为0占比84.6 %。预处理数据信息如表1所示。

表1 预处理后数据集

3.3 性能评价指标

针对不平衡数据分类问题,分类模型性能的优劣采用以往分类准确率的方式来评价,已经不在适用。因此,本文采用被国内外广泛使用的不平衡分类器评价指标:G-mean、F-value及AUC,对提出的不平衡数据分类模型进行评定,依据表2所示的混淆矩阵得到。

表2 混淆矩阵

AUC即ROC(receiver operating characteristic)曲线下的面积。ROC曲线反映敏感性和特异性连续变量的综合指标,曲线下面积越大,模型的准确性越高。

3.4 算法对与结果分析

为验证本文所提出方法的优越性,将本文算法与已有的三种经典不平衡分类模型,在上述数据集上在G-mean、F-value及AUC进行对比。三种对比模型:CUS-Boost[10]、SMOTEBoost[11]以及RUS-Boost[12]算法。实验数据取自通过10折交叉验证后的平均值。

表3列出了4种不同算法在G-mean、F-value及AUC的实验结果。实验结果显示,本文所提出的不平衡分类算法,相对于其他三种算法,分类效果最优。在AUC衡量指标上,本文算法在AReMr数据集上取值达到了94.6 %,相对于其他算法,最高提高了21.1 %。在G-mean上最低提高了10.1 %,以及F-value上最高提高了16.6 %。

表3 四种不同分类模型的分类结果对比

4 结束语

在AReMr数据集上与经典的三种不平衡分类模型实验对比表明:本文方法相对于其他算法识别率更高,更能准确判断出人体姿态,分类性能更优。然而本文所提出的算法是基于二分类情况下提出的,但是在较多应用领域中,样本类别的分类还是以多类别为主。因此,下一步的研究工作将会是对本文算法进行改进,使其可以应用在多类别样本预测中。

猜你喜欢
分类器姿态噪声
噪声可退化且依赖于状态和分布的平均场博弈
攀爬的姿态
全新一代宋的新姿态
跑与走的姿态
控制噪声有妙法
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
一种基于白噪声响应的随机载荷谱识别方法
基于层次化分类器的遥感图像飞机目标检测
一种基于置换的组合分类器剪枝方法