多示例学习下的多任务分类方法

2021-03-16 10:08广东工业大学自动化学院林志全
电子世界 2021年4期
关键词:多任务示例分类器

广东工业大学自动化学院 林志全

多示例学习已应用于许多场景,如图像分类、恶意软件分类、文档分类、对象检测等。在多示例学习中,训练数据集中的每个数据都是一个包,包由多个示例组成。包有类别标签,实例没有类别标签。而学习的最终目标是给出新包的类别预测。我们以图像分类为例,每个图像都被视为一个包,图像被分成多个部分,每个部分可以看作是其中一个示例,对应多个示例在袋子里。如果图像是我们需要的图像,那么这个包就是一个正包,具有此图像特征的示例就是一个正示例。

传统的分类学习方法,往往都是单个任务进行。而在现实生活中,分类任务往往是多个相似任务一起进行,对此研究人员提出来多任务学习(MTL)。通过共享相关任务之间的共同因素,可以使模型更好地对原始任务进行总结从而提高任务的泛化能力,从而提升分类器的判别度。例如,S.Pan等人提出了FELMUG框架,分析了任务间特征的敏感性,并将图数据分为子图挖掘中的3个特征:公共特征、辅助特征和唯一特征,在图数据分类上取得了很好的效果。

1 定义和预处理

在多示例学习中,训练集由一组分类标签的包组成,如果包中至少含有一个正示例,则该包被标记为正包。如果多示例包的所有示例都是负示例,则该包被标记为负包。

(1)对于多示例学习中,我们用代表一组训练集,是包的集合,代表有N个包,其中BN代表第N个包,YN是包的标签,。包BN是示例的集合,其中bN是代表第N个示例,yN是示例的标签。

(2)对于多任务学习,我们用T=1,2,…t代表t个任务。对于第t个任务,来代表任务t的包的集合。

(3)我们利用基于单个示例的相似性,挑选每个包中,最有可能为正的示例。假设给定示例x和一个子集S,可以用公式来计算,x和子集S的相似度。

2 方法

我们首先将多任务学习应用到SVM中,假定第t个任务的方程为,在这种分类下,它的结果yit的结果是代表输入xi的分类结果是正的还是负的。接着我们把多个任务结合起来形成一个新的目标方程。考虑到任务是相互关联的,我们使用通用功能、辅助功能和专有功能,表示wt的特征。

得到最终的目标方程后,为了改善决策边界和提高分类器的学习性能,我们采用了一种启发式策略,一种基于交替优化的方法来更新正候选。

第一步,选择初始正例候选作为初始正候选,根据初步的正选正示例,去解决目标方程,并得到原始拉格朗日乘子。

第二步,固定得到拉格朗日乘子α,正候选值更新如下:

第三步,重复以上2个步骤,直到满足下面条件:

其中,F是目标方程的求解,表示第k次迭代的目标方程的解。而是自己设阈值,在实验中我们给予的值是0.01。

3 实验结果

为了检验本文提供的方案,我们利用5个多示例的数据集,Musk、Fox、tiger、Elephant去检测本文方案的精确度,并用MI-SVM,EM-DD,FMT-MIL,MTML-MIL进行比较实验。

表1 分类准确度对比

实验结果由表1所示,结果表明:

(1)对比MI-SVM,EM-DD两个多示例学习,FMT-MIL,MTML-MIL以及我们提出的方法,有更好的分类结果。说明相对于多示例分类,多任务学习应用于多示例学习时,能得到更好的分类效果。

(2)我们的方法,相对于FMT-MIL和MTML-MIL,得到更好的分类效果,分类精度有显著的提升,比其他模型能得到更好的性能。

结论:在本文中,我们在研究多示例学习中,充分考虑到多个相似任务之间的关系,提出了基于多示例的多任务学习方法。在多示例学习中,引入树模型,和SVM分类器,将相似任务联系起来,重构目标方程。由实验结果表明,我们提出的方法能够获得更好的分类结果,是有效可行的。

猜你喜欢
多任务示例分类器
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
基于中心化自动加权多任务学习的早期轻度认知障碍诊断
常见单位符号大小写混淆示例
“全等三角形”错解示例
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于判别性局部联合稀疏模型的多任务跟踪
基于多任务异步处理的电力系统序网络拓扑分析
一类完全由内积构造的多任务核的几个性质