基于Transfer-SVM多标签文本分类算法研究

2019-08-06 13:48李程文宋文广谭建平
无线互联科技 2019年10期
关键词:迁移学习文本分类支持向量机

李程文 宋文广 谭建平

摘   要:传统的支持向量机分类模型只有在利用大量已标注数据进行训练才能获得较高精度。在实际应用中,多标签数据相对于传统单标签数据更具有价值,但多标签数据中含有大量冗余數据,获取大量多标签数据难度非常大。文章提出一种基于迁移学习的分类算法,利用目标数据域和源数据域的相关性,从源数据域中选取对分类超平面起关键作用的支持向量和目标数据域,一起训练分类模型以提高分类精度。

关键词:多标签;迁移学习;文本分类;支持向量机

一般支持向量机(Support Vector Machine,SVM)要想获得比较好的分类精度需要满足两个需求:(1)利用大量的有标签数据训练分类模型。(2)要求测试集和训练集是同分布数据[1]。

针对传统的SVM,需要利用大量的有标签数据训练分类模型才能获得分类精度的问题[2],本文引入迁移学习,通过选取源域数据集中对分类超平面起决定性作用的关键支持向量与目标数据域数据一起进行模型训练,并且放宽了对训练集和测试集的要求,以提高分类模型的分类精度[3]。

1    基于Transfer-SVM多标签文本分类算法

1.1  算法思想

本文MT-SVM的核心思想是:由于对支持向量机的分类超平面起决定性作用的只有关键的少数支持向量,所以,假如源数据域和目标数据域相关,则这两个数据域的支持向量机分类超平面非常接近,因此,决定目标数据源的分类超平面的支持向量和决定源数据域的分类超平面的支持向量非常接近。所以,通过选取源域数据集中对分类超平面起决定性作用的关键支持向量与目标数据域数据一起进行模型训练以提高分类模型的分类精度是可行的。

1.2  目标函数构造

利用高斯函数σ(vsi,DTl)评估支持向量与已标注目标域数据vsi的相似度,选取关键支持向量。将相似性评估项加入到支持向量机的目标函数,构造算法的目标函数,表示如下:

2    实验

2.1  数据集

化合物毒性预测(Prediction Toxicity of Compounds,PTC)。本文实验所用数据集为PTC,该数据集包含作用在4种不同老鼠身上的417种不同的化合物致癌信息。将数据集中存在缺陷的数据集(即具有E,EE和IS标签的数据)移除,最终得到253种化合物实验的数据,并为数据分配4类标签(即MR,FR,MM,FM)。对于每一类标签的属性可以标记为+1,-1或0,即+1表示没有产生致癌效果,0表示未被标记,-1表示产生了致癌效果。具体数据如表1所示,其中,Pos(%)表示每个实验的积极化合物的平均百分比。

2.2  试验方法

为了能体现提出的算法的有效性与实用性,将实现以下方法进行对比。

SVM[4]:传统的支持向量机分类算法,实验在多标签目标域数据比较少的情况下分类性能。

MT-SVM:采用评估方法选择适合的多标签源数据域支持向量,并加入到目标数据域进行分类器训练。

2.3  实验结果

在实验中,目标领域分训练集与测试集,目标领域训练集只选取源领域训练集1%,剩下的为测试集,由于目标训练集很少,要保证样本基本分类正确,Transfer-SVM中参数在[0.000 001,0.000 01,0.000 1,0.001,0.01,0.1,1,10,100,1 000]中选取。可以看出,本算法的准确率要高于传统的SVM分类算法。

3    结语

利用目标数据域和源数据域的相关性,从源数据域中选取对分类超平面起关键作用的支持向量和目标数据域一起训练分类模型以提高分类精度。因此,Transfer-SVM算法能够有效地提高分类精度。

[参考文献]

[1]JIANG S,PANG G,WU M.An improved K-nearest-neighbor algorithm for text categorization[J].Expert Systems with Applications,2012(1):1503-1509.

[2]SEBASTINAI F.Machine learning in automated text categorization[J].Association for Computing Machinery Surveys,2002(1):1-47.

[3]YANG J,YAN R,HAUPTMANN A G.Cross-domain video concept detection using adaptive SVMs[C].Augsburg:the 15th International Conference on Multimedia,2007.

[4]CHIH C C,CHIHJEN L.LIBSVM:a library for support vector machine,2001[EB/OL].(2018-07-15)[2019-05-10].http://www.csie.ntu.edu.tw/~cjlin/libsvm.

猜你喜欢
迁移学习文本分类支持向量机
奇异值分解与移移学习在电机故障诊断中的应用
基于组合分类算法的源代码注释质量评估方法
基于支持向量机的金融数据分析研究
大数据环境下基于迁移学习的人体检测性能提升方法