基于核极限学习机自编码多标记学习

2020-01-14 01:07李存志孟金彪
数字通信世界 2019年12期
关键词:学习机集上编码

李存志,钱 萌,孟金彪

(安庆师范大学计算机与信息学院,安庆 246133)

1 引言

近年来多标记学习逐渐成为数据挖掘和信息检索的重要主题,是机器学习的热点之一。多标记学习任务的步骤为:每个样本都有对应的训练集数据,使用一定的算法可以在训练集数据的基础上获得有效的模型,通过模型进而推断甚至预测未知新样本所属的类别,得到其所在的标记集合。

自编码神经网络类似无监督学习范式,可以从大规模数据中提取有效特征。为此不断有学者对自编码神经网络进行了改进,例如:黄广斌等提出的ELM 算法因为它没有迭代过程,这是与传统的神经网络算法最大的不同,因此相比较而言ELM 的训练速度更加快,空间代替时间的思想使它的泛化能力更强。分析可得,基于特征以及标记关系结合重新分析得到的结果能够一定程度提升算法的分类能力。基于此本文提出一种核极限学习机自编码多标记学习算法,在输入层中加入标记节点信息,输出带有特征与标记关系的特征。在分类过程中使用奇异值分解作为线性分类器。

2 相关理论介绍

2.1 多标记学习理论

目前算法基于思想上的区别可分为:算法适应型和问题转化型。

2.2 核极限学习机理论

ELM 作为一种快速的前馈单隐藏层神经网络学习算法,隐藏层的参数并不是固定的,因此算法只需要设置合适的神经元的个数,使用指定的算法实现求出输出权重值,此过程一直到结束不需要做任何的调整。因此,与传统的神经网络算法相比,在训练速度和准确性上都有一定的优势,但结果较为不稳定。

在传统的ELM 算法中计算结果容易受到隐藏层个数和随机权重和偏置的影响,而核矩阵可以解决这一问题,则核ELM 神经网络f(x)可以表示为:

3 核极限学习机自编码多标记算法

3.1 自编码神经网络

自编码网络由三部分构成(输入层、输出层、输出重构),自编码器由编码器(encoder)部分和解码器(decoder)部分构成,其将输入样本数据进行压缩操作之后到隐藏层之后重新解压映射回输出层。作为深度学习学习中一种无需标记的无监督特征学习方法,自编码器能够有效地提取数据特征内在的联系。

3.2 学习算法建模

本文提出的核极限学习机自编码算法是一种半监督学习范式,我们在输入层特征集中加入标记信息为标记空间计算每个标记样本集合值的求和结果,这样避免了标记节点加入导致维度过高带来的维度灾难问题。此时输入的特征X 表示为:,其中把Xi作为输入特征,则极限学习机模型可表示为:

将这种转化特征作线性分类器的特征输入可以表示为:

4 实验及其结果分析

4.1 实验数据集描述

本 文 选 取Emotions,Natural scene 和Yeast 共 3 个Mulan 数据集以及Yahoo Web Pages 的5个数据集一共8个数据集。

4.2 实验环境及评价指标

实验代码均在Matlab2016a 中运行。本文选取了Average Precision,Coverage,Hamming Loss 等几种评价准则对标记学习算法进行结果评测,用来检验算法的性能。为方便,分别简写为:AP ↑、CV ↓、HL ↓。(备注↑字符标识代表此标准数据越大越好,↓字符标识次标准数据越小越好)。设多标记分类器,预测函数,排序函数,多标记数据集

4.3 算法选择与相关参数设置

将本文算法与4 个多标记分类算法做对比实验,分别是MLKNN,IMLLA,RankSVM 和MLFE。在ML-KELMAE 算法中正则项系数C=1,核函数选择RBF 核,核参数σ 选自{0.2,0.5,1,2}之间。在ML-KNN 算法中近邻个数k 和平滑参数s 分别设为10和1。在RankSVM 算法中,其代价损失参数设为1,核函数选择RBF 核。在IMMLA 算法中平滑参数s 设为1,近邻空间数k 设为10。在MLFE 算法中,核函数选择RBF,核参数β1,β2和β3选自{1,2,…,10},{1,10,15}和{1,10}之间分别在训练集上进行交叉验证。

4.4 实验结果与分析

下表给出了本文算法和其他4种算法在本文使用数据集上实验结果。其中下标表示的是各个算法在实验数据结果上的排序,其中得分越高算法性能越优。

表1 分类算法在本文使用数据集上的平均精度结果对比

表2 分类算法在本文使用数据集上的覆盖率结果对比

表3 分类算法在本文使用数据集上的海明损失结果对比(↓)

5 结束语

多标记分类学习中关于特征信息与标记相关性的研究非常重要。本文提出一种新的多标记学习算法,在输入层中加入标记节点信息,输出带有特征与标记关系特征的半监督学习。多个多标记基准数据集上的结果显示,本文的方法具有一定的优势。

猜你喜欢
学习机集上编码
GCD封闭集上的幂矩阵行列式间的整除性
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
R语言在统计学教学中的运用
Genome and healthcare
基于极限学习机参数迁移的域适应算法
基于改进极限学习机的光谱定量建模方法
分层极限学习机在滚动轴承故障诊断中的应用
师如明灯,清凉温润