基于数据分类的领域自适应新算法*

2014-09-14 01:33王士同
计算机工程与科学 2014年2期
关键词:球心复杂度公式

顾 鑫,王士同

(1.江南大学数字媒体学院,江苏 无锡214122;2.江苏北方湖光光电有限责任公司,江苏 无锡 214035)

基于数据分类的领域自适应新算法*

顾 鑫1,2,王士同1

(1.江南大学数字媒体学院,江苏 无锡214122;2.江苏北方湖光光电有限责任公司,江苏 无锡 214035)

一般的机器学习都假设训练数据与测试数据分布相同,而领域自适应算法则是在不同数据分布条件下进行知识传递和学习,在数据挖掘、数据校正、数据预测等领域有着广泛的应用。支持向量机SVM的主要思想是针对二分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论由Tsang I提出的,是一种改进了核向量机CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。而CCMEB理论同样适用于二分类的SVM数据集。将SVM理论、CCMEB理论与概率分布理论相结合,提出了一种全新的基于数据分类的领域自适应算法CCMEB-SVMDA,该算法通过计算各自分类数据组的包含球球心,能够有效地对不同领域数据进行整体校正和相似度识别,具有较好的便捷性和自适应性。在UCI数据、文本分类等数据上对该算法进行了验证,取得了较好的效果。

支持向量机;领域自适应;最小包含球;中心约束型最小包含球

1 引言

传统的知识学习一般假定训练数据和测试数据来自同样的数据分布。但是,在实际情况下由于多种原因这种假设并不成立,训练数据和测试数据往往有不同的分布,当分布发生变化时,传统的机器学习方法必须从头开始,需要用户重新收集大量的训练数据。重新收集训练数据和再次训练模型的代价是昂贵的,因此希望能够运用先前任务中所学到的知识来帮助学习新的任务,减少对新的训练数据的需求。而领域自适应[1,2]可以看做是一种特殊的迁移学习,其任务是传递和共享不同任务和域之间的知识。领域适应性的研究主要体现在两个方面:一是特征表示,二是概率分布。特征表示重点研究如何对于目标领域进行特征选取[3~6]。概率分布则是通过计算不同领域之间的概率分布差异度来进行领域自适应的。文献[1,7]从概率分布角度出发研究了领域适应性方法。传统的领域自适应算法大都利用少量的目标领域数据来判断相关性,容易出现过度拟合,使泛化误差较大、抗干扰性弱且不适用于大样本运算。

本文从大样本、抗干扰出发提出了新的算法,其核心思想是首先将分类数据(SVM数据)(Support Vector Machines)进行最小包含球化,然后分别计算出源始领域、目标领域相对于最小包含球球心的概率估计值,通过概率估计值之间的积分差判断出源始领域与目标领域数据分布的差异度。为了在不同领域之间完成大样本学习,参考中心约束型最小包含球CCMEB(Center Constrained Minimum Enclosing Ball)理论[8~11]提出了CCMEB-SVMDA (CCMEB ON Support Vector Machines Domain Adaptation)算法,该算法有如下特点:(1)能将不同域或近似域进行整体比较,判断它们的相似度,从而快速判断其数据分类属性。(2)有较强的抗扰动性,通过提高源始领域与目标领域的相似度,消除有害样本对分类器的误导,提高分类精度。(3)只需获取部分目标域数据就能完成领域自适应学习,而该特性对隐私保护、海量数据处理和局部数据分类等都有着较好的应用,能在不重新搜集数据或者搜集少量数据的情况下,有效地提高分类效果。该算法对不同类型的领域数据有着较好的泛化能力,实验结果表明该算法具有较高的效率和准确性。

本文在以下三个方面做出了贡献:

(1)将概率密度差理论与最小包含球理论相结合,提出了一种新的领域自适应算法MEB-SVMDA,该算法可演化为面向大样本的快速算法。

(2)提出了面向大样本的快速算法CCMEB-SVMDA,该算法既适用于大样本数据,也适用于小样本数据。

(3) CCMEB-SVMDA从抗扰动性角度展示了较强的领域自适应性。

2 最小包含球理论

2.1 传统最小包含球MEB

MEB的主要思想是找到包含一类数据的超球,并且使球的半径尽量小。其QP化、核化后的对偶问题为:

(1)

其中,ai为Lagrange乘子的子项,N为样本数量,k(xi,xj)为核函数,diag(k(xi,xj))为提取矩阵k(xi,xj)主对角线元素,C′为惩罚系数。

通过公式(1)可求出半径和球心:

(2)

(3)

该算法可等价为:

(4)

2.2SVM的最小包含球化[12,13](MEB-SVM)

支持向量机是在统计学习理论基础上发展出的一种性能优良的学习机器。TsangI在文献[8]中指出,SVM算法可以归结为MEB问题求解,为后续的快速求解提供条件。其QP化、核化后的对偶问题为:

(5)

其中,N为样本数量,xi为样本数据,yi为样本标签,δij为附加的参数量。

当i=j时,δij=1,其他情况下δij=0,将公式(5)简化后为:

(6)

(7)

公式(7)中当所采用的核函数满足公式(3)时则:

(8)

(9)

其中,ei为一调节量,详见文献[1]。

2.3CCMEB理论

(10)

由公式(10)的最优解可得该最小包含球的中心点c和半径r:

(11)

由于αT1=1,故在公式(10)的目标函数中增加一项-ηαT1(η∈R)将不会影响最优解的值,于是得到下式:

(12)

(13)

通过不断选择样本点,迭代比较公式(11)与公式(13)的值,我们先求出样本空间的核心点(Core-set),继而可求出最小包含球球心c,具体过程见参考文献[6]。

3 基于SVM的领域自适应算法CCMEB-SVMDA

3.1MEB-SVMDA算法

(14)

证明

(15)

其中,Rd为d维实数集。

(2)等价MEB:

不失一般性,本文选高斯函数为核函数,即Kh(x,xi)=Gh(x,xi),则:

(16)

(17)

得:

(18)

证毕。

我们需要判断的是两个样本域之间是否相似或存在某种关联性。根据ParzenWindows理论可知,利用有限的采样样本可以计算出对应点的概率估计。这里设Zi相对于D1样本空间概率估计为PD1(Zi),设Zi相对于D2样本空间概率估计为PD2(Zi)。使用最小累积平方误差,使PD2(Zi)最优逼近源域概率密度PD1(Zi),即如下表示:

(19)

根据ParzenWindows概率公式:

(20)

将公式(20)代入到公式(19)中,展开如下:

(21)

则密度差估计公式可简化为:

(22)

所以得出结论,两样本是否相似与各自球的半径无关而与球心相关。根据定理1可知公式(19)等价于最小包含球问题。总结后的公式为:

(23)

在得出公式(23)后,为了方便求解将此公式化解为一QP问题求解,化解后的公式如下:

(24)

因为c为原样本空间的最小包含球的球心,其公式为:

(25)

将公式(25)代入公式(24)得到求解公式如下:

(26)

将公式(7)~公式(9)代入公式(26),通过计算可得新的最小包含球映射在二维空间的球心公式:

(27)

3.2 CCMEB-SVMDA算法

在小样本条件下MEB-SVMDA有着较好的运算速度,但对大样本数据的处理就显得力不从心。在MEB-SVMDA的基础上提出了CCMEB-SVMDA算法,实验发现其有着较好的运行效率。算法表述如下:将公式(26)参考2.3节的CCMEB算法取:

(28)

此时只要选择足够大的η,使Δ≥0,此时公式(29)即是一个标准的CCMEB问题,于是结合Core-set技术就可得到本文的CCMEB-DA算法。其QP公式如下:

(29)

(30)

将公式(7)~公式(9)代入公式(30),计算可得球半径和球心,分别为:

(31)

(32)

3.3 领域依赖系数参数选择

公式(14)中定义了领域依赖系数μ,该系数越大,源始领域球心与目标领域球心越接近,则领域校正能力越强,但求得的目标领域最小包含球识别精度就越低(球外点越多)。为了能尽可能多地将测试点用最小包含球包围,同时又要尽可能靠近源始领域的球心,所以需要对μ进行选择。首先定义两个概念:

(1)最小包含球识别精度RA(Recognition accuracy)定义如下:

RA=(SPI/TSP)*100%

其中,SPI(Sample Points Inside)表示最小包含球内部样本点个数,TSP(Total Sample Points)表示总样本点个数。

RA的值越大,则表明算法识别率越高。

(2)领域漂移度DDV(Domain Drift Volume)定义如下:

DDV= (Distance/R)*100%

其中,R为源始领域的最小包含球半径,Distance为源始领域与目标领域球心之间的距离。

DDV的值越小,则说明领域相似度越高,通常我们将设定一阈值来判别领域相似性。如DDV≤ 50%,两个领域相似;DDV>50%,两个领域无关。

在对μ进行取值时要尽可能地提高“最小包含球识别精度RA”,同时也要尽量减小“领域漂移度DDV”。只有这样才能实现最大限度地利用已有数据学习的同时不丢失现有数据,从而达到领域自适应性。

3.4 CCMEB-SVMDA求解过程

CCMEB-SVMDA解题步骤如下。

输入:D1、D2,其中D1为原样本空间,含有N个样本点Zj,D2为目标样本空间,含有N个样本点Zi;

步骤1利用CCMEB算法求出D1空间核心集的CORE-SET-1,并求出最小包含球的球心c和半径R。

步骤2利用核心集CORE-SET-1求出公式(10)对应D1空间的拉格朗日系数αj,最小包含球的球心c和半径R:

步骤3利用CCMEB-SVMDA算法求出D2空间核心集的CORE-SET-2。

步骤5(测试):计算出不同领域之间的漂移度DDV,判断领域的相似性。

3.5 CCMEB-SVMDA算法复杂度分析

标准最小包含球算法的时间复杂度为O(m2),空间复杂度为O(m2),其中m为样本的规模。CCMEB利用基于MEB的核心集快速求解,时间复杂度和样本规模m呈线性关系,空间复杂度不依赖于样本规模,大大提高了运算速度。3.4节步骤3在迭代求解核心集Qt(其中t表示核心点数目)时,每作一次迭代运算的时间复杂度为O(|Qt|2+|D2|· |Qt|),当样本D2规模较大时非常耗时。本文参考文献[14]提出的加速方法,在样本D2中随机抽取一子集D21作为替代,寻找距离中心最远的点。文献[15]证明了当子集大小为59时,最远点在D21中的概率为95%。时间复杂度则下降为O(|Qt|2+|D21|·|Qt|),其中|D21|为59。这时数据求解规模远远小于样本总体规模,其时间复杂度也远远小于求解所有样本的时间复杂度。CCMEB-SVMDA算法将CCMEB理论作用于大数据集快速运算,因此算法复杂度可参考CVM[3,10],其时间复杂度上界为O(m/ε2+1/ε4),与样本规模m呈线性关系,其空间复杂度上界为O(1/ε2),可使用存储核心集代替所有样本而不依赖于样本规模(ε为Core-set逼近精度)。

4 实验结果及其分析

本节实验分为三部分。第一部分为人工数据,主要从抗扰动、隐私保护和数据缺失两方面验证算法的合理性和自适应性。第二部分为UCI真实数据集,主要验证算法针对小样本真实数据的领域自适应性。第三部分为DatabaseonManhattantraffic数据集,用来进行大样本真实数据的算法验证。需要注意的是,本文研究方向为跨领域学习,其源始域与目标域数据分布不同但近似,源域与目标域的分布差异可参考文献[16,17]进行量化。

4.1 人工生成数据

(1)数据生成与参数选择。

人工数据实验主要验证算法原理的合理性。在自生成数据实验中,本文采用f(x)=ax2+bx+c作为二维数据的分割线来构造SVM数据集。固定参数b,c的取值,通过改变参数a的值形成不同的二分类数据集合,然后选择11组二维向量数据,每一组数据均含60 000个随机样本点,11组数据均为指定条件下的随机分布。其中,Train数据集设定为源始领域,其余数据集为目标领域,其分布情况如表1所示。

表1中的Train、Test1和Test2的数据分布相同,其余则不同。为了满足算法抗干扰性测试,人为地对Test1、Test2加以扰动,加入了不超过10%的错误分类样本点,错误样本点为Test3~Test10中的随机抽取点。算法首先需要确定μ的取值,选择相似的领域数据集(Train,Test1),通过反复实验比较得到图1所示结果。

Table1 Artificially generated data set表1 人工生成数据分布设定

Figure 1 μ selection experiment(Artificial data)图1 领域依赖系数选择实验(人工数据)

通过观察图1可以发现,当μ取值大于10时,识别精度RA显著下降,而当μ小于10时,漂移度DDV明显增强,算法的校正功能下降。可知理想的情况应该是最小包含球识别精度RA大于90%,领域漂移度DDV小于50%。基于这种标准我们将参数μ设定为10。

(2)数据扰动下的自适应测试。

CCMEB算法只能求出各自领域数据集的球心而不具备抗扰动性,在数据受到扰动的情况下,我们通过CCMEB算法与CCMEB-SVMDA算法的比较测试本文算法的领域自适应性。具体作法如下:首先通过CCMEB算法求出源始领域的球心坐标、目标领域的最小包含球球心坐标,以及各目标领域与源始领域的球心间距离;然后通过CCMEB-SVMDA算法计算出目标领域相对于源始领域的球心坐标和目标领域相对于源始领域的球心间距离。数据结果见表2。

Table 2 Artificial data’s distance表2 人工数据集的Distance统计

本文3.3节曾定义过领域漂移度DDV,本实验将在表2的基础上分别计算出纯粹采用CCMEB算法的DDV值与采用CCMEB-SVMDA算法的DDV值,计算结果如表3所示。

Table 3 DDV of two algorithms(Artificial data)表3 不同算法DDV对比(人工数据) %

对比观察表3可以发现,CCMEB-SVMDA算法的领域漂移度更小,目标领域球心更加靠近源始领域,算法能够较好地克服因扰动数据带来的领域漂移,从而完成数据校正功能。当DDV阈值设为50%时,CCMEB-SVMDA算法相对于CCMEB算法有着较好的领域自适应性,能够校正Test1与Test2中的扰动,判断出Train、Test1和Test2之间的相似性。而对于数据分布明显不同的数据,如Test3~Test10也能够通过球心之间的距离反映出不同领域之间的差异大小。

(3)隐私保护与数据缺失测试。

为了测试CCMEB-SVMDA算法是否具有隐私保护功能,我们按不同百分比抽取目标领域数据进行测试,判断该算法的领域漂移度DDV,实验结果如图2所示。

Figure 2 DDV vs sampling percentage(Artificial Data)图2 局部数据的领域漂移度分析(人工数据)

通过图2可以发现,虽然当取样百分比变化时领域漂移度也有所波动,但总体来说波动范围不大,且领域属性判断分割明显,说明CCMEB-SVMDA算法对目标源数据完整性的依赖度不大,而该特性可应用在“数据的隐私保护”、“海量数据处理”、“数据丢失、缺失处理”等领域。在此需要说明该特性不适用于小样本数据。

4.2 UCI数据

(1)数据生成与参数选择。

本文选用UCI数据库的Car、Abalon 两个数据集作为实验样本。具体数据如表4所示。

Table 4 Data characteristics description(UCI)表4 数据集数据特征(UCI)

在做Car数据库实验时,我们将四类样本数据(unacc, acc, good,vgood) 两两配对,组合成二分类的SVM数据集,并分别对应CCMEB-SVMDA算法的源始领域与目标领域。同理,选择Abalon数据库中的Abalon8~Abalon11四类数据,将其两两配对形成CCMEB-SVMDA算法的源始领域与目标领域,如表5所示。

Table 5 UCI data packet set表5 UCI数据分组设定

数据集生成后需确定μ的取值,选择相似的领域数据集通过反复实验比较的结果如图3和图4所示。

Figure 3 μ selection experiment(Car data)图3 领域依赖系数选择实验(Car数据)

Figure 4 μ selection experiment(Abalon data)图4 领域依赖系数选择实验(Abalon数据)

参照4.1节方法,Car数据集的μ选择为12,Abalon数据集的μ选择为15。

(2)数据扰动下的自适应测试。

表6、表7中的第一、二组为同样属性的分类数据,其余则不同。为了满足算法抗干扰性测试,人为地对第一、二组数据加以扰动,加入了不超过10%的错误分类样本点,错误样本点为其他分类数据的随机抽取点。测试方法与4.1节相同。

Table 6 DDV of two algorithms(Car data)表6 不同算法DDV对比(Car数据) %

Table 7 DDV of two algorithms(Abalon data)表7 不同算法DDV对比(Abalon数据) %

对比表6和表7可以发现,CCMEB-SVMDA算法的领域漂移度更小,更加靠近源始领域,相同分类问题的领域偏移度较小。该实验设定DDV阈值为50%,当Distance较小时,可以判别源始领域与目标领域为同一SVM二分类问题;当Distance较大时源始领域与目标领域为不同SVM二分类问题,说明CCMEB-SVMDA算法通过迁移学习较好地克服了因扰动数据带来的领域漂移,尽量多地利用源有信息实现了领域自适应。

4.3 Database on Manhattan traffic(曼哈顿交通数据集)

(1)数据生成与参数选择。

曼哈顿交通数据集(下载自http://www.datatang.com/)为文本数据,该数据的特征如表8所示。

Table 8 Data characteristics description (Manhattan)表8 数据集数据特征

本文从数据集中选择四类数据(MT1~MT4)并随机各抽取30 000个样本点,然后将四类数据两两配对分成源始领域数据集与目标领域数据集。领域依赖系数选择方法参照4.1节,具体结果如图5所示。

Figure 5 μ selection experiment(Manhattan data)图5 领域依赖系数选择实验(曼哈顿交通数据)

观察图5可以发现,当μ取值大于9时,识别精度RA显著下降,而当μ小于9时,漂移度DDV明显增强,算法的校正功能下降。可知理想的情况应该是最小包含球识别精度RA大于90%,领域漂移度DDV小于50%。基于这种标准,我们将参数μ设定为10。

(2)数据集的领域自适应测试。

在同一数据集的情况下,源始领域与目标领域球心越接近,则领域分类属性越相似,反之则为不同分类问题。在此设定Distance为源始领域与目标领域球心之间距离,通过CCMEB-SVMDA算法计算出Distance数据结果,如表9所示。

观察表9可以发现,相同分类属性的球间距明显小于不同类子集之间的球心间距。结果显示算法能较好地体现不同领域之间的相关性,具有较好的领域自适应性。

(3)领域自适应与数据缺失测试。

与上节相同,我们按不同百分比抽取目标领域数据进行测试,判断该算法的领域漂移度DDV,实验结果如图6所示。

Figure 6 DDV vs sampling percentage(Manhattan data)图6 局部数据的领域漂移度分析(曼哈顿交通数据)

目标领域源始领域MT1AMT2AMT1AMT3AMT1AMT4AMT2AMT3AMT2AMT4AMT3AMT4AMT4AMT4AMT1BMT2B0.36324.43934.93364.90355.99945.19025.0303MT1BMT3B5.24450.32114.67275.26255.03324.66494.6959MT1BMT4B4.93024.54080.48525.20355.35874.85674.3694MT2BMT3B4.91375.46895.20450.22335.21285.35825.7321MT2BMT4B4.56035.22335.34685.21570.37215.12425.4568MT3BMT4B5.13624.71254.49985.74325.68984.68294.6150MT4BMT4B5.72354.21384.26895.23895.76914.61110.3212

通过图6依然可以发现,在大样本真实数据集情况下,CCMEB-SVMDA算法的领域漂移度对目标源数据完整性的依赖度不大,且领域相关性分割清晰,该特性可应用于数据的隐私保护和数据缺失处理。

5 结束语

本文将SVM、MEB、CCMEB理论应用在领域自适应研究上,提出了MEB-SVMDA、CCMEB-SVMDA算法。在求解目标域球心位置时尽可能多地利用到源域数据完成知识传递,并发现不同域之间的内部联系。最后通过比较不同域球心位置实现数据的修正和校正。为了满足大样本数据集运算要求,引入了CVM、CCMEB理论,大量的实验结果验证了本文算法的有效性和快速性。

[1] Daumé III H, Marcu D. Domain adaptation for statistical classifiers[J ].Journal of Artificial Intelligence Research,2006, 26(1):101-126.

[2] Blitzer J, McDonald R, Percira F. Domain adaptation with structural correspondence learning[C]∥Proc of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006:120-128.

[3] Daumé III H. Frustratingly easy domain adaptation[C]∥Proc of the 45th Annual Meetingassociation of Computational Linguistics, 2007:1.

[4] Jiang Jin, Zhai Cheng-xiang. A two-stage approach to domain adaptation for statistical classifiers[C]∥Proc of CIKM’07, 2007:401-410.

[5] Blitzer J, Dredze M, Pereira F, et al. Biographies, bollywood, boom-boxes and blenders:Domain adaptation for sentiment classification[C]∥Proc of ACL’07, 2007:440-447.

[6] Satpal S, Sarawagi S. Domain adaptation of conditional probability models via feature subsetting[C]∥Proc of PKDD’07,2007:224-235.

[7] Jiang Jin, Zhai Cheng-xiang. Instance weighting for domain adaptation in NLP[C]∥Proc of ACL’07, 2007:264-271.

[8] Tsang I W, Kwok J T, Cheung P, et al. Core vector machines:Fast SVM training on very large data sets[J]. Journal of Machine Learning Research, 2005, 6(4):363-392.

[9] Qian Peng-jiang,Wang Shi-tong,Deng Zhao-hong.Fast mean shift spectral clustering on large data sets[J]. Control and Decision, 2010, 25(9):1307-1312.(in Chinese)

[10] Tsang I,Kwork J,Zurada J.Generlized core vector machines[J]. IEEE Transactions on Neural Networks,2006,17(5):1126-1139.

[11] Hu Wen-jun, Wang Shi-tong, Deng Zhao-hong. Maximum vector angular margin core vector machine suitable for fast training for large datasets[J]. Acta Electronica Sinica, 2011,39(5):1178-1184.(in Chinese)

[12] Guo Rui-hua, Cheng Guo-jiang. Pattern classification and experiment testing based on core vector machine[J]. Microelectronics & Computer, 2010,27(9):190-192.(in Chinese)

[13] Fan Long-feng.A boosting feature selection method for core vector machine[J]. Electronic Technology, 2010,37(10):17-21.(in Chinese)

[14] Smola A J, Scholkopf B. Sparse greedy matrix approximation for machine learning[C]∥Proc of the 17th International Conference on Machine Learning, 2000:911-918.

[15] Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction[C]∥Proc of the 23rd Associate for the Advancement of Artificial Intelligence, 2008:677-682.

[16] Suzuki T. Mutual information approximation via maximum likelihood estimation of density ratio [C]∥Proc of IEEE International Symposium on Information Theory, 2009:463-467.

[17] Suzuki T, Sugiyama M,Kanamori T. Mutual information approximation via maximum likelihood density ratio estimation[C]∥Proc of IEEE International Symposium on Information Theory, 2009:5-20.

附中文参考文献:

[9] 钱鹏江,王士同,邓赵红. 大数据集快速均值漂移谱聚类算法[J].控制与决策, 2010, 25(9):1307-1312.

[11] 胡文军,王士同,邓赵红. 适合大样本快速训练的最大夹角间隔核心集向量机[J]. 电子学报,2011,39(5):1178-1184.

[12] 郭瑞华,程国建. 基于核向量机的模式分类及其实验测试[J].微电子学与计算机,2010,27(9):190-192.

[13] 樊龙夫.一种面向核支持向量机的boosting特征选择方法[J]. 电子技术, 2010,37(10):17-21.

GUXin,born in 1979,PhD candidate,engineer,his research interests include artifical intelligence, pattern recognition,and image processing.

王士同(1964-),男,江苏扬州人,教授,博士生导师,研究方向为人工智能、模式识别、数据挖掘、神经网络、模糊系统、医学图像处理和生物信息学。E-mail:wxwangst@yahoo.com.cn

WANGShi-tong,born in 1964,professor,PhD supervisor,his research interests include artifical intelligence, pattern recognition, data mining, neural networks, fuzzy system, medical image processing, and bioinformation.

Anoveldomainadaptationapproachbasedondataclassification

GU Xin1,2,WANG Shi-tong1

(1.School of Digital Media,Jiangnan University,Wuxi 214122;2.Jangsu North Huguang Opto-Electronics Co.Ltd., Wuxi 214035,China)

General machine learning assumes that the distribution of training data and test data are same, but the domain adaptation algorithms aims at handling different but similar distributions among training sets, which have a wide range of applications such as transfer learning, data mining, data correction, data projections. Support vector machine (SVM) attempts to find an optimal separating hyperplane for binary-classification problems in high-dimensional space, in order to ensure the minimum classification error rate. CCMEB proposed by I Tsang, as an improvement of the CVM, is particularly suitable for training on large datasets. In this article SVM and CCMEB are combined with probability distribution theory to formulate a novel domain adaptation approach (CCMEB-SVMDA). By calculating the center of each dataset, we can correct the dataset or identify the similarity of data between different domains.This fast algorithm has a good adaptability. As a validation we test it on the fields of “UCI data” and “text classification data” and the obtained experimental results indicate the effectiveness of the proposed algorithm.

SVM;domain adaptation;minimum enclosing ball;CCMEB

2012-09-20;

:2012-11-30

国家自然科学基金资助项目(61170122,60975027);江苏省研究生创新工程项目(CXZZ11-0483)

1007-130X(2014)02-0275-11

TP391.4

:A

10.3969/j.issn.1007-130X.2014.02.015

顾鑫(1979-),男,江苏张家港人,博士生,工程师,研究方向为人工智能、模式识别和图像处理。E-mail:guxinbest@sina.com

通信地址:214000 江苏省无锡市凤宾家园92号401室Address:Room 401,92 Fengbin Jiayuan,Wuxi 214000,Jiangsu,P.R.China

猜你喜欢
球心复杂度公式
组合数与组合数公式
排列数与排列数公式
直击多面体的外接球的球心及半径
等差数列前2n-1及2n项和公式与应用
一种低复杂度的惯性/GNSS矢量深组合方法
例说:二倍角公式的巧用
?如何我解决几何体的外接球问题
例析确定球心位置的策略
求图上广探树的时间复杂度
画好草图,寻找球心