基于可穿戴传感器的人体活动识别研究综述

2018-07-25 07:41郑增威杜俊杰霍梅梅吴剑钟

计算机应用 2018年5期

郑增威，杜俊杰，2，霍梅梅*，吴剑钟

(1．浙江大学城市学院杭州市物联网技术与应用重点实验室，杭州310015; 2．浙江大学计算机科学与技术学院，杭州310015)(*通信作者电子邮箱huomm@zucc．edu．cn)

0 引言

近十几年来，物联网行业快速发展，随着各种传感器、电子设备体积的缩小，性能的提高，成本的降低，这些电子元件在生活中得到更加广泛的应用。特别是可穿戴智能设备的研发以及人体活动识别在人体健康监控、娱乐、运动等方面的良好应用前景，使得基于传感器的人体活动识别成为研究热点之一。相比部署外部设备来识别人体活动状态方式成本昂贵、可移植性差的缺点，可穿戴传感器可以方便地通过集成传感器采集人体的各项行为数据，以此识别人体的活动状态。

实际上，人体活动识别的研究早在20世纪90年代末就已经展开:Foerster等［1］的实验结果表明人体的行为活动与运动学之间存在紧密联系，使用三轴加速度计采集行为数据来判断人体的姿态和动作是切实可行的;Mantyjarvi等［2］使用主成分分析(Principal Component Analysis，PCA)和小波变换从原始传感器数据中提取特征，在简单人体活动(站立、上下楼梯、行走)识别中使用多层感知器使得识别精度达到了83% ～90%;Olguin等［3］使用了隐马尔可夫模型(Hidden Markov Model，HMM)作为分类模型，对比了不同传感器位置对最终分类结果的影响，实验结果表明增加传感器数量能提高分类精度;Wang等［4］提出了耦合HMM来识别智能家居环境中的多用户行为，并开发了一个多模态传感平台来区分单用户和多用户的活动;Kwapisz等［5］提出了使用智能手机自带传感器来进行人体活动识别，在将上下楼梯视为同一动作时，分类精度达到了90%以上;Altun等［6］从计算成本、分类精度等方面对比了贝叶斯决策、最小二乘法、K最近邻等多种分类方法在体育活动上的分类效果，实验结果表明贝叶斯决策在计算复杂度最小的同时达到了最好的分类精度。

目前，典型的人体活动识别过程如图1所示。首先数据采集系统从人体各处传感器获取运动数据，其中传感器位置与具体的活动紧密相关;然后将传感器数据进行去噪、平滑处理;接着对数据进行分段并提取出特征，其中最常见的分段技术的是滑动窗口技术，特征选择的目的是为了降维，选择与特定运动相关性比较强的特征，减少后续的计算量，提高分类精度;最后通过特征样本训练得到的分类器来识别出当前的人体活动。

图1 典型的人体活动识别框架Fig．1 Framework of typical human activity recognition

1 原始数据的获取

1．1 公开数据库

人体活动识别的最终结果与数据集密切相关，在不同数据集上的实验方法无法互相比较，目前已有的基于传感器的公开数据库如表1所示，这些数据集包含人体日常的几个基本活动:站立、行走、坐、上下楼梯。

表1 公开数据集Tab．1 Public datasets

WISDM数据集［5］由使用三种不同手机上的传感器在29个人身上测得的日常基本行为数据所构成;UCI HAR数据集［7］由戴在30个年龄在19～48岁的志愿者手腕上的智能手机传感器采集得到，包括了三轴加速度计数据以及陀螺仪数据;tFall数据集［8］也由手机传感器采集，不仅包括跌倒数据，也包含了人体日常行为数据，这些数据包括了志愿者一个星期的行为数据;Shoaib SA数据集［9］从10位男性志愿者身上采集得到，传感器置于5个位置:左、右侧的裤袋，右臂，右腕，腰部;MobiFall数据集［10］包含跌倒数据和日常行为数据，也采用手机中的传感器来采集行为数据;UCI HAPT数据集［11］由从30个志愿者身上采集了5 h的运动数据构成，其运动类型还包括了过渡性的行为，比如从躺到坐的过程;MobiAct数据集［12］由MobiFall数据集扩展而来，包括57个志愿者的行为数据;UniMiB SHAR数据集［13］也使用手机传感器作为数据采集装置，手机位于志愿者左右裤袋，各占一半采集时长。

1．2 传感器位置

对于人体行为活动，身体不同部位所传递出运动数据不同，这些数据对于识别精度的影响也不同。例如，在识别人体日常活动时，来自头部的传感器数据重要性相对来说比较低，然而在泳姿识别中却十分重要，因此，对于特定的活动识别，寻找出具有最好识别效果的数据源十分有意义。

Kefer等［14］进行了动态手势识别的最佳传感器位置的研究，他们使用了手腕、手肘两个不同位置的运动数据，实验结果表明由于动态手势在手腕上有着更大的运动半径，位于手腕的传感器数据的识别精度要明显高于手肘;Cleland等［15］研究了不同传感器数据组合对人体日常行为(Activities of Daily Living，ADL)(包括行走、站立、上下楼梯、躺、坐等日常行为)的识别效果，传感器分别位于胸部、腕部、背部、臀部、大腿以及脚踝，实验结果表明在使用单一传感器的时候，使用位于臀部的传感器表现出的识别效果最好，识别精度达到了97．8%;Pannurat等［16］在两组不同年龄段数据集上研究了传感器位置对识别精度的影响，传感器位置分别位于头部、手腕、胸部、手臂、腰部、大腿以及脚踝，实验结果表明大腿、胸部、手腕部位的传感器数据对于活动识别有着较好的效果，识别精度达到了96%以上。

以上研究表明，由不同人体部位运动数据训练得到分类器的识别效果差异非常大，因此，针对具体的行为活动识别，寻找出最具识别能力的传感器数据是达到最好识别精度的前提。

2 特征提取及处理

2．1 特征类型

特征工程是人体活动识别中的关键，对后续识别结果有直接的影响。而对于不同的人体活动识别，特征的选择不是明确的。特征的数量十分多，简单来说，可以分成时域特征、频域特征以及时频域特征。

1)时域特征。时域特征通常直接从原始数据中提取，是原始数据的统计量。常用的时域特征如表2所示。

2)频域特征。时域特征在行为识别中使用十分广泛，但是，时域特征对噪声、测量误差不够鲁棒，受噪声数据的影响较大，而频域信息能够很好地规避这一点。将时域信息转换到频域可以将这些噪声数据过滤，并提取出有效的频域特征来识别时域特征不能很好区分的行为活动。从时域转换到频域的过程中，使用较多的技术是快速傅里叶变换(Fast Fourier Transform，FFT)［17］。常用频域特征包括光谱能量、频率范围、平均频率、光谱熵、光谱质心等。

3)时频域特征。小波变换［18］是提取时频域特征的常用方法，是时域到频域的局部变换，可以同时显示信号的时间与频率特征。Preece等［19］在实验中对比了不同特征类型对分类结果的影响，研究表明时频域特征能有效区分不同行为活动。

2．2 噪声去除

由于加速度计本身的测量误差、电噪声以及外界的因素干扰，采集得到的传感器数据总是夹杂着一些噪声数据，这些噪声会使得分类器产生分类偏差，因此，需要对数据进行滤波。常见的滤波方法包括均值滤波、高斯滤波、滑动平均滤波、小波滤波［25］等。

滑动均值滤波滑动均值滤波是一种低通滤波器，对于高频噪声信号以及随机误差有较好的过滤效果。Xiao等［23］在泳姿识别研究中使用了三种不同的滤波器，分别是均值滤波、滑动均值滤波以及Prewitt边缘滤波器，实验结果证明滑动滤波器的效果最佳。滑动均值滤波如式(1)所示:

其中:G为原始数据，M为滑动窗口大小，Gfilter为滤波之后的数据。

三次平滑算法在去除噪声的过程中，不仅要考虑去噪效果，也要考虑计算代价，例如卡尔曼滤波器［24］，它是一种递推的纯粹时域滤波器，滤波效果好，但是它的缺点是计算复杂度高，在计算资源有限的环境中难以应用。Chen等［21］同时考虑到去噪效果及计算复杂度，使用五点三次平滑算法来去除噪声数据并取得了较好的结果，如式(2)所示:

其中:(Gt－2，Gt－1，Gt，Gt+1，Gt+2) 为原始数据中相邻的 5 个点，(Gt－2'，Gt－1'，Gt'，Gt+1'，Gt+2') 为过滤之后的数据。

小波滤波小波滤波的基本思想是利用小波对原始数据在不同尺度上进行分解，有效信息的小波系数在不同尺度下相关性较强，而噪声的系数相关性较弱，利用这点特性将噪声数据从原始数据中去除。

2．3 滑动窗口技术

在人体活动识别中，传感器数据是时间序列数据，难以将这些数据直接进行特征提取。目前，大多数活动分类方法都会使用分段方法将传感器信号分成更小的时间段，对每个时间段进行特征提取，然后使用分类算法进行训练，其中最常用的分段技术是滑动窗口技术。由于不同的行为活动中动作的持续时间不同，因此确定合适的滑动窗口的大小以及每次的滑动长度是该技术的关键。Chen等［21］在基于手机传感器的人体活动识别研究中使用了窗口大小为1 s，窗口重叠率为50%(即每次向前滑动0．5 s)的滑动窗口，并根据峰值点来划分不同的动作段。Xiao等［23］在泳姿识别中使用窗口大小2 s，滑动长度0．5 s的滑动窗口技术来获取传感器的数据(采样频率100 Hz)。Sztyler等［26］使用了窗口大小为1 s，滑动长度为0．5 s的窗口技术来对数据进行划分(数据采样频率为50 Hz)。

表2 常用时域特征Tab．2 Time-domain features

以上研究工作使用的窗口大小均是固定不变的，但在实际中对于不同的动作，它们的信号特性是不同的。在一个完整活动过程中，固定大小的时间窗口无法对所有的动作做到良好的分割。因此，Noor等［27］提出了一种窗口大小可变的滑动窗口技术来适应不同动作的信号特性。该方法的基本思想是首先使用一个固定大小的窗口，并在划分的过程中不断通过概率密度函数来判断是否需要调整窗口大小，以此来最终得到最佳的窗口大小，实验结果表明，可变大小的窗口技术有效提高了活动识别精度。

2．4 特征选择

原始数据经过特征提取可以得到一个特征集，这个特征集有可能十分庞大，其中存在某些冗余的，甚至会对识别精度造成负面影响的特征，同时也会增加不必要的计算。为了更精准地分类，确定一组具有较高辨别能力的特征集极其重要，一个好的特征集应该在相同行为之间显示出很小的差异，同时在不同行为之间具有较大差异。

从评价准则的角度，特征选择方法可以大致分成3大类，分别是过滤式(Filter)方法、封装式(Wrapper)方法以及嵌入式(Embedded)方法［28］。其中:Filter方法的选择过程仅仅与当前的特征集相关，它直接利用某种评价准则从特征集中选择出最合适的特征子集，因此，这类方法的效率普遍较高。而Wrapper特征选择过程还与后续学习分类的结果相关，它需要后续的学习结果作为反馈来调整特征集，因此这种方法效率相比来说不是很高，但是它的精度相对较高。Embedded方法是结合上述两者方法优点的方法。目前在人体活动识别研究中，Filter方法使用得更为广泛，按照评价函数，可以分为距离度量、信息度量、相关系数度量［29］等方法。

2．4．1 距离度量

距离度量的基本思想是使用距离来评价样本之间的相似度，常用的距离包括欧氏距离、马氏距离、平方距离［29］等。Relief算法［30］是一种经典的基于距离度量的特征权重迭代算法，它的运行效率非常高，与样本的采样次数以及特征集的大小成线性关系，因此应用十分广泛。它的基本思想是根据式(3)对特征进行权重更新，权重越大，该特征的分类能力越强，当该特征的权重大于预先给定的阈值时，则将其加入特征子集。但是，Relief算法没有将特征之间的关系考虑在内，因此该算法无法去除冗余的特征。其中:W(i)是特征i的权重值，diff(i，R，H)是与相同类别H中样本的最近距离，diff(i，R，M)是不同类别M中样本的最近距离。

Pannurat等［16］使用Relief-F对身体不同部位的行为数据进特征选择排序，Relief-F是Relief算法的扩展，适用于多类别的情况。实验结果表明不同部位的不同特征对于区分活动的重要程度也不尽相同。

2．4．2 信息度量

基于信息度量的特征选择方法一般使用信息增益或者互信息［28］来衡量特征的作用，它的基本思想是筛选出具有最小不确定性的特征来进行训练分类工作。mRMR算法［31］是典型的基于互信息的特征选择方法，在考虑特征区分类别能力的同时，将特征之间的关系考虑在内，因而能去除冗余特征。mRMR算法的基本思想是使用互信息作为度量标准来计算特征子集与类别之间的相关性以及特征之间的冗余度，如式(4)所示。但是该算法未考虑特征的权重，无法体现不同特征的重要程度。

I(x，y)越大，说明x和y的相关性越高。利用这点特性，mRMR算法使用了最大相关性D和最小冗余度R的度量标准，并选择使得D－R达到最大值的特征子集作为最终选择出的特征集。

最大相关性:

最小冗余度:

其中:S是特征子集，x是某个具体的特征，c是类别。

Atallah等［20］在实验中对比了 Relief-F、Simba Feature Selection、mRMR三种特征选择方法，实验结果表明根据不同语义层次的活动识别，选择恰当的特征对于提高分类精度十分重要。

2．4．3 相关系数度量

皮尔森相关系数［32］是Pearson提出的用于衡量随机变量X、Y之间的线性相关程度的指标。相关系数r的计算方法如式(7)所示:

其中:Cov(X，Y)为随机变量X与Y之间的协方差，σx和σy分别是X和Y的标准差。

在特征选择中，通常使用相关系数来计算特征之间、特征与类别之间的相关程度，从而完成特征的选择。

3 分类方法

人体活动识别从本质上可以被认为是一个分类问题，即每个类别对应一个活动。目前，机器学习是构建分类器最常用的方法，按照模型的训练类型可以分成为有监督学习、半监督学习、无监督学习、强化学习［33］。在有监督学习方法中，输入数据是带有标签的训练样本集，训练的目的是根据某种评价准则来获得一个最优的分类器。根据分类原理的不同，有监督学习模型又可以分成生成模型、判别模型等。半监督学习是有监督学习和无监督学习的结合，它同时使用了未标记数据以及有标记数据来进行训练，在降低训练成本的同时保证了分类效果。无监督学习方法不需要有事先标记好的数据作为训练样本，它能自动根据数据之间的性质并对其进行聚类操作，但是由于人体活动的复杂多样性，因此，在完全无监督的学习下识别不同的行为活动还比较困难。强化学习是一种边获得样例边学习的方式，每次使用获得的样例来更新现有模型，并根据该模型来指导下一步的行动，不断重复迭代直至模型收敛。深度学习本质不是一种分类模型，而是一种学习方式，它能挖掘出更深层次、更具区分能力的特征，因此在模式识别中，深度学习成为研究的热点。

3．1 判别模型

判别模型的思想是直接从有限的样本中学习到决策函数Y=f(x)或者条件概率分布函数P(Y|X)。它并不关注输出X与输出Y之间的生成关系，学习的是不同类别Y之间的特征差异，利用这种差异来对X进行分类。典型的判别模型算法包括支持向量机、决策树、人工神经网络等。

3．1．1 支持向量机

支持向量机(Support Vector Machine，SVM)［20］是一种目前广泛使用的分类器。它的思想是通过非线性的算法将数据从输入空间映射到另一个特征空间，使得数据在这个空间中线性可分:Altun等［6］在19个不同人体日常行为识别的研究工作使用了7种不同的分类方法，在留1验证法中，SVM分类器获得了最好的结果，识别精度为87．6%;Beily等［34］使用了SVM模型来区分网球运动中四种活动(跑步、正手击球、反手击球、发球)，在离线的训练以及10折的交叉验证实验中，该分类方法的准确度为100%，在线分类实验中，SVM分类器也达到了96．25%的准确度。

3．1．2 决策树

决策树构建一个树状的层次决策图，是一种十分直观便于理解的统计概率模型，其中每一个非叶子节点表示特征属性的判断条件，每一个分支表示在其父节点上特征属性分类的结果，叶子节点表示最终的每一个类别［35］。由于其树型的结构，每次分类的计算量不会超过树的深度，因此决策树具有计算量小的特点。决策树的深度与特征的选择密切相关，合适的特征作为属性判断节点可以减少决策树的深度，从而提高分类效率。常用的决策树算法主要包括ID3、C4．5、分类回归树(Classification and Regression Tree，CART)。Ohgi等［36］在蝶泳、蛙泳、仰泳自由泳4种泳姿识别中使用决策树算法C4．5构建了深度为5的决策树，最终的分类精度达到了91．1%。随机森林是基于CART的一种分类器，本质上由多棵决策树组成，这些决策树相互独立，即采用不同的样本集训练得到，最终根据多棵决策树的投票结果来进行分类。Lombriser等［37］采用了随机森林的方法来对8种不同的行为(上下楼梯、跳、躺、站立、坐、跑步、行走)进行识别分类，达到了89%的分类精度。

3．1．3 人工神经网络

人工神经网络是20世纪80年代兴起的研究热点，它的基本思想是模仿生物学上的神经网络来构建大量神经元实现信息的处理［38］，人工神经网络的基本结构如图2所示。

图2 人工神经网络结构Fig．2 Structure of artificial neural network

每个神经元Uk的输出如式(9)所示，其中θ为神经元内部阈值，一般会随着神经元的兴奋程度而变化。

人工神经网络在模式识别、智能控制等领域有着广泛的应用，目前针对神经网络的研究主要集中在网络的构建和网络参数的学习。神经网络能自动从复杂数据中学习有用的特征、模式，因此在方法在人体活动识别应用十分广泛。Panhwar等［39］使用了两层的前馈神经网络来识别5种不同的行为活动，在对比实验中，神经网络模型的识别效果要远远好于SVM;Kharrat等［40］在神经网络模型中训练了20个隐藏神经元，在溺水行为识别研究中，达到了100%的准确率。

3．2 生成模型

生成模型是相对判别模型的另一种有监督学习算法，与判别模型直接求解决策函数或者条件概率分布不同，生成模型是通过数据建立联合概率密度分布函数P(X，Y)，然后根据式(10)来求解后验概率P(Y|X)，从而完成分类，因此，生成模型关注的是数据生成过程。

其中，X是输入信号，U是神经元，Wn，k是输入信号n与神经元k之间的连接权重值，φ(i)为激活函数。每一个神经元Uk的输入是输入信号之间的加权和，如式(8)所示:n

常用的生成模型包括朴素贝叶斯模型、隐马尔可夫模型［41］等。

3．2．1 朴素贝叶斯模型

朴素贝叶斯模型是一种基于统计的分类方法，它的基本思想是根据给定的待分类数据，分别求解在该数据属于各个类别的概率，概率最大的类别即为最终的类别，如式(11)所示:

其中y是类别，x是待分类项。在朴素贝叶斯中，特征属性之间相互独立的，因此p(yi|x)可以通过式(12)进行求解。

其中a是x的各项特征属性。

Pannurat［16］在人体日常行为的识别研究中根据不同位置的传感器数据使用了7种不同的分类方法，从整体分类效果而言，朴素贝叶斯模型要明显好于其他几种分类算法。

3．2．2 隐马尔可夫模型

隐马尔可夫模型是一种统计模型，是一个由隐含状态、可见状态、转换概率、输出概率来描述隐含位置参数的马尔可夫过程，如图3所示，其中Xi表示隐含状态，Yi表示可见状态，a表示隐含状态间的转换概率，b表示隐含状态到可见状态的输出概率。

图3 隐马尔可夫链Fig．3 Hidden Markov chain

在人体活动识别中，隐含状态即活动的类别，可见状态即测得的传感器数据。Cheng等［42］在人体活动识别研究中对每一个活动类别分别建立一个隐马尔可夫模型，并对待识别活动的传感器数据使用这些模型计算概率，概率最大的模型类别即为最终识别结果。

3．3 强化学习

强化学习的基本原理是通过Agent与环境进行交互，并获得反馈信息，这个反馈信息有可能是强化Agent的对应行为，也有可能是抑制Agent的对应行为，它的最终目标是使得Agent选择的行为能获得环境的最大奖赏。强化学习的基本框架如图4所示，其中有4个非常重要的概念:策略(policy)、奖惩反馈(reward)、值函数(value function)以及环境模型(environment model)［33］。

图4 强化学习基本框架Fig．4 Framework of reinforcement learning

其中:t是时间点，A(t)是t时刻Agent的行为，S(t)是t时刻的状态，R(t)是t时刻环境模型的奖惩反馈。

策略规则是状态到行为的映射，定义了Agent的行为方式，可以分成确定策略和随机策略。

奖惩反馈奖惩反馈是Agent执行相关动作后从环境中获得的反馈信号。这个信号反映了在当前情景下，执行该动作的好坏，Agent根据这个反馈信号来调整自己的策略。

值函数奖惩反馈反映当前动作的即时收益，而值函数定义了从开始状态到达到目标所能得到最大奖惩反馈。

环境模型环境模型定义了动作转移概率以及动作的奖惩，即环境根据Agent的行为生成下一时刻的状态和奖惩。

3．4 深度学习

深度学习作为最近几年的研究热点得到了快速的发展，在图像识别、行为识别等领域得到了非常好的应用。深度学习的实质是构建具有很多隐含层的学习模型从海量的数据中学习到更相关、更有意义的特征，因此许多研究者将其应用到人体活动识别的特征学习中。Ronao等［43］使用卷积神经网络(Convolutional Neural Network，CNN)来挖掘人体活动行为的内在联系，并提出了一种自动提取鲁棒特征的方法，实验结果表明卷积神经网络在对于传统方法难以分辨的相似行为有着很好的区分能力，在6种不同日常行为活动的识别中达到了95．75%的分类精度。Hammerla等［44］在基于传感器的人体活动识别中对比了三种不同的深度学习方法，分别是深度神经网络(Deep Neural Network，DNN)、卷积神经网络(CNN)以及长短期记忆网络(Long Short-Term Memory，LSTM)。实验结果表明:在大型的基准数据集上以及短时活动的识别上，LSTM相对来说具有最好的识别效果;而CNN更适用在重复性行为活动的识别。

表3 不同分类方法的比较Tab．3 Comparison of different classification methods

4 存在问题及展望

目前，尽管基于可穿戴传感器的人体活动识别研究已取得较好的实验结果，分类精度令人满意，但是仍然存在以下问题值得进一步的研究。

第一，由于可穿戴传感器本身的局限性以及外界环境的干扰，使得采集到的传感器数据往往含有许多噪声，目前存在滑动均值滤波、小波滤波等滤波技术只能在一定程度上去除噪声，如何有效去除噪声仍是待解决的难点。

第二，可穿戴设备在日常生活中的使用比较随意，然而目前现有算法与设备摆放的位置、方式紧密联系，因此，提取出与设备放置无关，能有效区分各种不同行为活动的特征仍是目前的研究热点与难点之一。

第三，个体之间行为活动的差异性导致传统静态模型识别精确度不高，如何有效消除个体的差异，使得分类模型更具有广泛适用性也是待解决的难点［45］。

第四，人体日常行为活动复杂多样，目前人体活动识别大都集中在简单活动的识别，比如:行走、跑步、上下楼梯等，如何结合情景环境信息(例如:全球定位系统信息)进行更高语义上行为上的识别［46］也是待研究的方向。

5 结语

本文从4个方面对基于可穿戴传感器的人体活动识别进行了分析总结。人体活动识别流程一般经过数据采集，特征提取，特征选择以及分类器的构建。人体不同部位的数据与行为活动紧密相关，针对区分不同行为，选择合适数据源十分重要。特征工程是人体活动识别中的关键，提取的特征类型、处理方式直接影响后续的识别精度。特征选择一方面降低后续计算量，另一方面有利于提高分类精度。在分类器方面，传统的机器学习算法应用十分广泛并取得了一定的识别效果，深度学习作为新的研究热点也在活动识别中得到应用。最后分析了人体活动识别中各个环节还存在的问题并展望了基于可穿戴传感器的人体活动识别的发展方向。