面向多视角数据的极大熵聚类算法*

2016-05-25 07:58张丹丹邓赵红王士同
计算机与生活 2016年4期
关键词:权值

张丹丹,邓赵红,王士同

江南大学数字媒体学院,江苏无锡214122

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0554-11



面向多视角数据的极大熵聚类算法*

张丹丹+,邓赵红,王士同

江南大学数字媒体学院,江苏无锡214122

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0554-11

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The National Natural Science Foundation of China under Grant No. 61170122 (国家自然科学基金); the New Century Excellent Talent Foundation from MOE of China under Grant No. NCET-12-0882 (教育部新世纪优秀人才支持计划).

Received 2015-05,Accepted 2015-07.

CNKI网络优先出版: 2015-08-11, http://www.cnki.net/kcms/detail/11.5602.TP.20150811.1519.004.html

摘要:当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,CoMEC),该算法加book=555,ebook=109入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将CoMEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-CoMEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。

关键词:熵;多视角聚类;划分;权值;集成策略;UCI数据集

1 引言

众所周知,聚类的目的是将对象或数据样本划分为组或类,而在相同组或类的对象或数据样本相对具有相似性,不同组或类的对象或数据样本则相对具有不相似性。聚类作为一种无监督学习技术,是数据挖掘、模式识别等领域的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。然而,由于现代技术的发展,数据复杂性随之不断提高,使得聚类算法的研究面临更大的挑战。

当前,人们对经典的聚类分析方法的研究不断深入,其中经典的极大熵聚类(maximum entropy clustering,MEC)算法[1]已成为众人研究的重点,相关文献[2-5]给出了很多有关MEC算法的研究成果。由于数据复杂性提高,人们在观察复杂数据集时,往往可以通过多个视角来诠释,即得到多视角数据。多视角数据是指一些事物或对象从不同属性空间有多个视角或特征组,它是从不同角度综合多种类型属性特征的结果。例如一个银行客户数据集,可以被分为表示客户的人口信息的人口统计视角、显示有关客户账户信息的账户视角和描述客户消费行为的消费视角。多视角聚类算法的研究也成为当前研究的重点。研究表明,极大熵聚类算法主要是针对单一视角数据的聚类方法,该算法在面对多视角聚类任务时,只能单独对每一个视角进行独立聚类分析以获取各视角下的聚类结果,然后使用集成学习机制[6-7]将每一视角下的聚类结果进行统一,最终得到全局意义下的聚类结果。但是,人为地把多视角数据分解为多个单一视角数据进行处理,会因各个视角的聚类结果存在明显差异而给最终获取的全局聚类结果带来不好的影响,使得最终的全局聚类结果出现恶化,最终造成算法性能较差或不稳定。对此,本文提出对各视角共性和差异性综合考虑的新方法,首先通过协同划分学习参数协调各个视角的空间划分,提出多视角协同划分极大熵聚类算法(multiview collaborative partition MEC,CoMEC);继而,通过给每个视角添加权值,表示不同视角的重要性程度,以达到更好的聚类性能,提出增强版本算法,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-CoMEC)。

当前,针对多视角数据的聚类问题,相关的可利用聚类技术包括如下几个方面的进展。

首先,基于多视角学习技术的聚类方法近年来受到广泛的关注。如文献[8]提出了可用于解决多视角聚类问题的协同聚类算法Co-EM(collaborative EM)。同样文献[9]基于协同思想提出了一种双视角谱聚类算法。文献[10]利用图论的知识提出了多视角谱聚类算法。此外,文献[11]首次在经典的模糊C均值(fuzzy C-means,FCM)算法中采用协同聚类的思想,提出了CoFC(collaborative fuzzy clustering)算法。文献[12]同样基于FCM算法提出多视角模糊聚类算法Co-FKM(collaborative fuzzy K-means),相关文献的实验表明Co-FKM算法较之一些相关多视角算法具有一定的优势。此外,文献[13]以经典的K-means算法为框架,提出了一种多视角K-means聚类方法,即多视角双层变量自动加权聚类算法TWKM (TW-K-means),该文献的实验展现出TWKM算法处理多视角聚类任务的良好性能。

此外,针对多视角数据的聚类问题,相关的聚类技术还有多任务聚类技术、组合聚类技术及基于样本与特征空间的协同聚类技术。如文献[14]的LSSMTC(learning the shared subspace for multi-task clustering)算法是一个典型的应用多任务聚类技术的算法。该算法把各视角看作一个单一聚类任务,且考虑的是任务之间的相似性,不同任务对应不同的聚类对象;另外,该算法要求每个视角的数据样本特征数相等,即其不能处理各视角样本特性数不等的多视角聚类任务。文献[14]中的组合K-means (CombKM)算法则是采用组合聚类技术的思想,在处理多视角数据时,将不同视角下的样本特征组合为一个整体进行处理,这种做法破坏了各视角间的独立性,进而影响最终的聚类结果。文献[15]基于样本与特征空间的协同聚类技术提出了Co-clustering (collaborative clustering)算法。该算法在处理多视角聚类任务时,不仅采用组合聚类思想对样本进行聚类,同时还考虑了对特征的划分。然而由于其采用了与组合聚类相同的思想,使得其对特征空间的划分相对粗糙,最终的聚类结果不理想。

本文组织结构如下:第2章简要介绍了MEC算法;第3章提出了一种多视角协同划分极大熵聚类算法;第4章提出了增强的版本,即视角加权协同划分极大熵聚类算法;第5章分别在人工模拟数据集和UCI真实数据集上验证了所提算法的性能,并与相关算法进行了比较;第6章总结全文。

2 极大熵聚类算法

对于样本集X={x1,x2,...,xn},根据某种相似性测量,它被聚类成c(2≤c≤n)个子类,各类中心用矩阵Z=[z1,z2,…,zc]表示;划分可用矩阵U=[uij]∈Rcn表示,其中每一项满足如下的约束:

极大熵聚类算法的目标函数定义为:

这里‖∘‖表示欧几里德距离;参数γ是非负常数。对于目标函数(1),利用拉格朗日极值求解方法,得到类中心及划分矩阵的优化迭代公式,如定理1所示。

定理1 P(U, Z)取极小值的必要条件为:

式中,i=1,2,…,c, j=1,2,…,n

根据定理1,极大熵聚类算法可描述如下:

算法1极大熵聚类算法

输入:样本集X={x1,x2,…,xn},聚类类别c(2≤c≤n),迭代阈值ε,迭代次数r,参数γ。

输出:全局性的模糊划分矩阵U,聚类中心矩阵Z。

步骤1初始化划分矩阵U(0);

步骤2根据式(2)更新类中心Z(r);

步骤3根据式(3)更新隶属度U(r)为U(r+1);

步骤4若‖U(r+1)-U(r)‖F≤ε,则算法迭代循环停止,否则返回步骤2。

上述算法中‖∘‖F表示Frobenius范数。极大熵聚类算法是针对单一视角数据的经典算法,在面向多视角数据时,采用与处理单一视角数据相同的思想处理多视角数据,这极大地影响了极大熵聚类算法的性能。针对此问题,本文首先提出了一个面向多视角数据的聚类算法,即多视角协同划分极大熵聚类算法。

3 多视角协同划分极大熵聚类算法

3.1改进的目标函数

根据上文对极大熵聚类算法面对多视角聚类任务的局限性分析,本文首先提出了一种多视角极大熵聚类算法,即多视角协同划分极大熵聚类算法。

对于一个有k个视角的多视角样本集X={view1, view2,…,viewk},其第k个视角的样本集可表示为viewk={x1,k,x2,k,…,xN,k}。对该多视角数据样本进行聚类时,根据某种相似性度量,把每一视角聚类为c(2≤c≤n)类,用矩阵Uk=[uij,k]表示第k个视角的划分隶属度,第k个视角的聚类中心可用矩阵Zk=[z1,k, z2,k,…,zc,k]表示。则多视角协同划分极大熵聚类算法的目标函数可表示如下:

对于目标函数(4)满足如下约束条件:

这里‖∘‖表示欧几里得距离。式(5)中参数λ为协同学习参数,用来调控中各视角间协同学习的程度。参数γ、λ为非负常数。

最后,根据获取的各视角的划分,利用如下的集成方法得到最终具备全局特性的空间划分矩阵:

3.2目标函数的优化

对于目标函数(4),如下定理成立:

定理2当U固定时,P(U,Z)取得极小值的必要条件为:

定理3当Z固定时,P(U,Z)取极小值的必要条件为:

分别对uij,t,χ求导,并使得导数为0,得到:

由式(9)和式(10)即可得到:

3.3算法描述

根据上节推导出的参数学习规则,给出算法的具体步骤如下:

算法2多视角协同划分极大熵聚类算法

输入:多视角样本集X={view1,view2,…,viewk}共k个视角,其中viewk={x1,k,x2,k,…,xn,k},聚类类别c(2≤c≤n),迭代阈值ε,迭代次数l,参数λ、γ。

输出:全局性的模糊划分矩阵Uˉ,各视角聚类中心点Zi,k。

步骤1随机产生各视角的模糊隶属度uij,t(1≤t≤k);

步骤2根据式(7)更新各视角下的中心点Zi,k;

步骤3根据式(8)更新各视角下的隶属度uij,t;

步骤5算法收敛后,得到各视角下的隶属度;

步骤6根据步骤5所获取的各视角下的隶属度uij,t,利用式(6)获取具备全局特性的空间划分矩阵Uˉ。

4 视角加权协同划分极大熵聚类算法

本文在多视角协同划分极大熵聚类算法的基础上,提出了一个增强版本的聚类算法。该算法在处理多视角聚类任务时,不仅考虑了各视角的协同划分,而且通过给每个视角添加一个表示其重要性程度的权值,使得不同视角达到更好的协调聚类性能。

4.1视角加权协同划分极大熵聚类算法

根据以上对视角加权协同划分极大熵聚类算法的介绍,其目标函数可表示如下:

上式满足如下约束:

其中,W=[wk]是分配给各个视角的权重矩阵,它的每个元素表示对应视角的重要性程度;是协同划分项,其表示如式(5)所示;参数γ、η、λ为非负常数。

香农熵正则化项在自适应调整权值方面的有效性在相关文献已得到充分的体现,例如在本文研究的极大熵聚类的概率划分方面的成功应用。为了确保视角W的协同划分,式(11)引入了香农熵正则化项,这使得在多视角聚类过程中各视角的权值得到更好的协调,进而得到更佳的视角划分结果。

最后,类似于多视角协同划分极大熵聚类算法,其增强方法根据获取的各视角的划分,同样利用几何均值的集成方法得到最终具备全局特性的空间划分矩阵,具体见式(6)。

4.2目标函数的优化

对于目标函数(11),如下定理成立:

定理4当U、W固定时,P(U,Z,W)取得极小值的必要条件为:

定理5当Z、W固定时,P(U,Z,W)取极小值的必要条件为:

上式分别对uij,t,χ1求导,并使得导数为0,得到:

由式(14)和式(15)即可得到:

定理6当U、Z固定时,P(U,Z,W)取极小值的必要条件为:

上式分别对wt、χ2求导,并使得导数为0,得到:

由式(17)和式(18)即可得到:

4.3算法描述

根据上节推导出的参数学习规则,下面给出增强版本W-CoMEC算法的具体步骤如下。

算法3视角加权协同划分极大熵聚类算法

输入:多视角样本集X={view1,view2,…,viewk}共k个视角,其中viewk={x1,k,x2,k,…,xn,k},聚类类别c(2≤c≤n),迭代阈值ε,迭代次数l,参数γ、η、λ。

输出:全局性的模糊划分矩阵Uˉ,各视角聚类中心点Zi,k,视角权重矩阵W={wk}。

步骤1随机产生各视角的模糊隶属度uij,t(1≤t≤k),随机产生视角权重矩阵W={wk};

步骤2根据式(12)更新各视角下的中心点Zi,k;

步骤3根据式(13)更新各视角下的隶属度uij,t;

步骤4根据式(16)更新视角权重矩阵W={wk};

步骤5如果‖Pl+1-Pl‖<ε,则算法迭代循环停止,否则跳回步骤2;

步骤6算法收敛后,得到各视角下的隶属度;

步骤7根据步骤6所获取的各视角下的隶属度uij,t,利用式(6)获取具备全局特性的空间划分矩阵Uˉ。

4.4时间算法复杂度和收敛性分析

本节对算法的时间复杂度描述如下:对多视角协同划分极大熵聚类算法,即CoMEC算法,其时间复杂度为O(tknc+tkc);对其增强版本的视角加权协同划分极大熵聚类算法,即W-CoMEC算法,由于该算法考虑到各视角的影响,故其时间复杂度为O(tk+ tknc+tkc)。其中t是算法迭代的总次数,k是数据集的视角个数,n是数据集的大小,c是类别数。由以上两种算法的时间复杂度可知,考虑视角加权的WCoMEC算法和未考虑视角加权的CoMEC算法的时间复杂度数量级相差不大,具有相同的阶次。

文献[3]对MEC算法的收敛性已经给出了收敛性分析,而根据相关收敛性理论[16-17]可知,W-CoMEC算法也是满足Zangwill收敛性定理的条件的。

5 实验研究

为了验证本文算法处理多视角聚类任务的有效性,将分别对人工模拟数据集以及UCI标准多视角数据[18]进行实验分析与评估。有关模拟数据集与真实数据集的详细内容将分别于下文给出,相关UCI标准多视角数据集的基本信息可见表1。为了对本文算法的聚类性能做出合理的判断,也将给出与相关聚类算法的性能比较。实验中采用的相关聚类算法有MEC算法[1]、多视角模糊聚类算法Co-FKM[12]、多视角双层变量自动加权聚类算法TWKM[13]、基于多任务学习框架的LSSMTC算法[14]、基于多任务的组合K-means算法(CombKM)[14]及基于样本与特征空间协同聚类的Co-clustering算法[15]。

另外,本文采用如下两种常用的评价指标评估各聚类算法的聚类性能,即pairwise Precision[19]和NMI(normalized mutual information)[20-21]:

Table 1 Real multi-view UCI datasets表1 UCI真实多视角数据集

其中,f11表示数据点具有相同的类标签并且属于同一类的配对点数目,而f00则表示数据点具有不同的类标签并且属于不同类的配对点数目;Nij表示第i个聚类与类j的契合程度,Ni表示第i个聚类所包含的数据样本量,Nj表示类j所包含的数据样本量,而N表示整个数据样本的总量大小。

以上两种性能指标,其取值范围均为[0, 1],取值越接近1,表示算法的聚类性能越好。

本文所显示的评价指标的均值和方差均为最优参数下运行10次得到的。

5.1人工模拟数据集实验

为了有效验证本文算法的聚类性能,在人工模拟数据集实验部分,针对UCI数据库中真实数据集Iris,抽取其中三维特征,将每一维特征看作一个视角,进而构造出具有3个视角样本的多视角模拟数据集irisMoni。其中每个视角都由3类样本组成,该数据集每个视角的具体信息如图1所示。

Table 2 Definitions and settings of related notations表2 参数定义与设置

Fig.1 IrisMoni corresponding datasets under each view图1 数据集IrisMoni各个视角样本直观图

观察图1可以发现,在IrisMoni数据集的3个视角样本数据中,视角1和视角2的3类样本间都会出现一定的重叠现象,而视角3却能够清晰地显示出3个类别的样本,即视角3具备清晰的聚类特性。若使用现有的传统单一视角聚类算法对此类聚类任务进行分析,得到的聚类结果将会受到视角1及视角2的影响,进而使得整体的聚类性能受到影响。对此,本文算法及相关算法均在该人工模拟数据集上进行了实验,得到的实验数据结果如表3及图2所示。

Fig.2 Weight of each view for IrisMoni datasets with W-CoMEC algorithm图2 W-CoMEC算法获取的IrisMoni数据集各视角权重

对表3的结果进行分析可以发现,与当前多任务的LSSMTC算法、组合任务的CombKM算法及基于样本空间与特征空间协同分析的Co-clustering算法相比,多视角极大熵聚类算法CoMEC和W-CoMEC的聚类结果均明显优于它们的聚类性能;而与单一视角的极大熵聚类算法MEC相比,CoMEC和WCoMEC亦展现出稳定的聚类性能。且由表3的评价指标也可以直观地看到,W-CoMEC算法较CoMEC算法较之于多视角模糊聚类算法Co-FKM具有更好的聚类性能。此外,与多视角双层变量自动加权聚类算法TWKM相比,CoMEC算法略显不足,而其增强版本W-CoMEC算法的性能与之相当,这也体现了面向多视角数据的极大熵聚类方法具有处理多视角聚类任务的性能。

从图2中展示出的增强版本W-CoMEC算法在IrisMoni数据集各视角权重分布情况也可以知道,该算法使得最佳视角权重达到最大,有效利用了最佳视角,进而获取了更为合理的空间划分结果。

综上,各实验指标的数据显示,W-CoMEC算法利用视角加权的协同划分的思想,使其可以有效处理多视角聚类任务,并表现出一定的聚类优势。

5.2多视角真实数据集实验

本节选择经典机器学习数据库UCI中的两个具备多视角特性的数据集,即IS数据集和WTP数据集,针对这两种真实多视角数据集来进一步进行性能评估。这两种数据集的相关信息已在表1中给出,对这两种多视角数据集的实验结果如表4和表5。

由于LSSMTC算法本身的局限性,它需要在各视角样本的维数相等的多视角数据中才能使用该算法,从而LSSMTC算法无法处理IS和WTP各视角维数均不相等的数据样本。

Table 3 Experimental results of several algorithms on IrisMoni datasets表3 各算法在IrisMoni数据集上的实验结果

此外,观察表4和表5中的实验结果可知,与LSSMTC、CombKM和Co-clustering算法相比,本文多视角极大熵聚类算法性能上有了进一步的改进。在比较的几种算法中,MEC和CombKM算法仅实现了各视角数据的简单融合,因而性能较差。虽然Coclustering聚类针对多视角数据已具有一定的各视角之间的协作学习能力,但协作学习的程度不够充分。而本文CoMEC算法仅实现了各视角的协同划分,因此与视角加权的W-CoMEC算法相比,聚类性能较差。而与多视角模糊聚类算法Co-FKM相比,在IS数据集上的实验结果。显示出该算法优于本文多视角极大熵聚类算法,在WTP数据集上却不及本文算法的性能;与K-means框架的多视角双层变量自动加权聚类算法TWKM相比,在IS数据集和WTP数据集上的实验结果均展现出本文算法的聚类性能优势。

综上,较之于几种相关的算法,本文算法针对多视角数据采用视角加权的协同划分策略,最终得到具有全局最优划分的聚类性能,使得经典的极大熵聚类算法具有处理多视角数据的性能。

Table 4 Experimental results of several algorithms on IS datasets表4 各算法在IS数据集上的实验结果

Table 5 Experimental results of several algorithms on WTP datasets表5 各算法在WTP数据集上的实验结果记录

5.3运行时间比较

本节针对IS和WTP两个真实数据集,将本文提出的新算法及其他对比算法在对应数据集上的运行时间进行比较,具体如表6所示。由于LSSMTC算法要求各数据样本维数相等无法使用,故未能记录该算法的运行时间。表6中记录均是算法在各个数据集上在给定参数时运行一次所用的时间,单位为秒。

由表6中的结果可以看出,在IS和WTP真实数据集上,本文提出的两种新算法运行一次所用的时间都与MEC算法和CombKM算法差不多,与Coclustering算法相比,运行时间方面展现了较大的优势。同时,与Co-FKM和TWKM两种多视角聚类算法相比,运行时间方面同样也展现出了一定的优势。

6 结束语

Table 6 Running time of several algorithms on IS and WTP datasets表6 各种算法在IS和WTP数据集上运行时间 s

本文在经典MEC算法框架上,通过引入协同划分技术和视角加权技术,提出了多视角协同划分极大熵聚类算法及其增强版本的视角加权协同划分极大熵聚类算法。在协同划分学习参数的作用下,使得各个视角之间协调作用更加灵活,同时视角权重凸显出了最佳视角,进而使得极大熵聚类算法具有处理多视角聚类任务的性能,并体现出一定的聚类优势。而本文实验部分中无论是模拟数据集还是UCI真实数据集得到的对比数据,均显示出本文方法具有处理多视角数据的聚类性能,并且在模拟数据集和WTP真实数据集上体现出更好的聚类性能。但由于本文采用的MEC框架中欧式距离的使用,使得在面对高维多视角聚类问题时仍面临一定的考验,当前距离学习方法的研究也成为后人研究的热点,针对欧式距离的局限性,距离学习在多视角聚类中的应用将会成为今后研究的重点。特别地,近年来广受关注的软子空间聚类对于高维数据聚类展现出了有希望的性能,因而本文的多视觉学习策略和软子空间聚类技术融合来开发新的算法亦将是非常有意义的工作。

References:

[1] Li R P, Mukaidono M.Amaximum-entropy approach to fuzzy clustering[C]//Proceedings of the 4th IEEE International Conference on Fuzzy Systems and the 2nd International Fuzzy Engineering Symposium, Yokohama, Japan, Mar 20-24, 1995. Piscataway, USA: IEEE, 1995: 2227-2232.

[2] Karayiannis N B. MECA: maximum entropy clustering algorithm[C]//Proceedings of the 3rd IEEE Conference on Computational Intelligence, Orlando, USA, Jun 26-29, 1994. Piscataway, USA: IEEE, 1994: 630-635.

[3] Zhang Zhihua, Zheng Nanning, Shi Gang. Maximum entropy clustering algorithm and its global convergence analysis[J]. Science: E Series, 2001, 31(1): 59-70.

[4] Deng Zhaohong, Wang Shitong, Wu Xisheng, et al. Robust maximum entropy clustering algorithm RMEC and its outlier labeling[J]. Engineering Science, 2004, 6(9): 38-45.

[5] Qian Pengjiang, Sun Shouwei, Jiang Yizhang, et al. Knowledge transfer based maximum entropy clustering[J]. Control and Decision, 2015, 30(6): 1000-1006.

[6] Asur S, Ucar D, Parthasarathy S. An ensemble framework for clustering protein-protein interaction networks[J]. Bioinformatics, 2007, 23(13): i29-i40.

[7] Wang Hongjun, Shan Hanhuai, Banerjee A. Bayesian cluster ensembles[J]. Statistical Analysis and Data Mining: The ASAData Science Journal, 2011, 4(1): 54-70.

[8] Yamanishi Y, Vert J P, Kanehisa M. Protein network inference from multiple genomic data: a supervised approach[J]. Bioinformatics, 2004, 20(S1): i363-i370.

[9] Virginia R de Sa. Spectral clustering with two views[C]// Proceedings of the 22nd International Conference on Machine Learning Workshop on Learning, Multiple Views, Bonn, Germany, Aug 7-11, 2005. New York, USA: ACM, 2005: 20-27.

[10] Zhou Dengyong, Burges C J C. Spectral clustering and transductive learning with multiple views[C]//Proceedings of the 24th International Conference on Machine Learning, Corvallis, USA, Jun 20-24, 2007. New York, USA: ACM, 2007: 1159-1166.

[11] Pedrycz W. Collaborative fuzzy clustering[J]. Pattern Recognition Letter, 2002, 23(14): 1675-1686.

[12] Cleuziou G, Exbrayat M, Martin L, et al. CoFKM: a centralized method for multiple-view clustering[C]//Proceedings of the 9th IEEE International Conference on Data Mining, Miami, USA, Dec 6-9, 2009. Piscataway, USA: IEEE, 2009: 752-757.

[13] Chen Xiaojun, Xu Xiaofei, Huang J Z, et al. TW-k-means: automated two-level variable weighting clustering algorithm for multiview data[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(4): 932-944.

[14] Gu Quanquan, Zhou Jie. Learning the shared subspace for multi-task clustering and transductive transfer classification [C]//Proceedings of the 19th IEEE International Conference on Data Mining, Miami, USA, Dec 6-9, 2009. Piscataway, USA: IEEE, 2009: 159-168.

[15] Gu Quanquan, Zhou Jie. Co-clustering on manifolds[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, Jun 28-Jul 1, 2009. New York, USA: ACM, 2009: 359-368.

[16] Zangwill W I. Convergence conditions for nonlinear programming algorithms[J]. Management Science, 1969, 16(1): 1-13.

[17] Luenberger D G, Ye Yinyu. Linear and nonlinear programming[M]. [S.l.]: Springer Science & Business Media, 2008.

[18] Bache K, Lichman M. UCI machine learning repository[EB/OL]. (2013)[2015-03-12]. http://archive.ics.uci.edu/ml.

[19] Liu Yi, Jin Rong, Jain A K. Boostcluster: boosting clustering by pairwise constraints[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Jose, USA, Aug 12-15, 2007. New York, USA:ACM, 2007: 450-459.

[20] Jing Liping, Ng M K, Huang J Z. An entropy weighting kmeans algorithm for subspace clustering of high-dimensional sparse data[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(8): 1026-1041.

[21] Deng Zhaohong, Choi K S, Chung F L, et al. Enhanced softsubspace clustering integrating within-cluster and betweencluster information[J]. Pattern Recognition, 2010, 43(3): 767-781.

附中文参考文献:

[3]张志华,郑南宁,史罡.极大熵聚类算法及其全局收敛性分析[J].中国科学: E辑, 2001, 31(1): 59-70.

[4]邓赵红,王士同,吴锡生,等.鲁棒的极大熵聚类算法RMEC及其例外点标识[J].中国工程科学, 2004, 6(9): 38-45.

[5]钱鹏江,孙寿伟,蒋亦樟,等.知识迁移极大熵聚类算法[J].控制与决策, 2015, 30(6): 1000-1006.

ZHANG Dandan was born in 1992. She is an M.S. candidate at School of Digital Media, Jiangnan University. Her research interests include artificial intelligence and intelligent computation.

张丹丹(1992—),女,江南大学数字媒体学院硕士研究生,主要研究领域为人工智能,智能计算。

DENG Zhaohong was born in 1982. He is an associate professor at School of Digital Media, Jiangnan University. His research interests include fuzzy modeling and intelligent computation.

邓赵红(1982—),男,博士,江南大学数字媒体学院副教授,主要研究领域为模糊建模,智能计算。

WANG Shitong was born in 1964. He is a professor at School of Digital Media, Jiangnan University. His research interests include artificial intelligence, pattern recognition and bioinformatics.

王士同(1964—),男,江南大学数字媒体学院教授,主要研究领域为人工智能,模式识别,生物信息。

Maximum Entropy Clustering Algorithm for Multi-View Dataƽ

ZHANG Dandan+, DENG Zhaohong, WANG Shitong
School of Digital Media, Jiangnan University, Wuxi, Jiangsu 214122, China

+ Corresponding author: E-mail: zdd1226394625@163.com

ZHANG Dandan, DENG Zhaohong, WANG Shitong. Maximum entropy clustering algorithm for multi-view data. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 554-564.

Abstract:Currently, the maximum entropy clustering (MEC) merges the multi-view samples to process the multi-view clustering task. However, this will damage the independence of each view, and affect the final partition results. Aiming at this problem, this paper proposes a multi- view collaborative partition maximum entropy clustering (CoMEC) algorithm, which joins a constraint to coordinate each perspective space partition, to make each view in a separate clustering process consider the influence of other views. Then this paper proposes the enhanced weighted view version called W-CoMEC by identifying the importance of each view. Finally this paper applies the geometric average integration strategy to obtain the global partition results. The experimental results on a synthetic multi-view dataset and several UCI real-world multi-view datasets show that the proposed algorithm outperforms or is at least comparable to the existing clustering technology in dealing with multi-view clustering task.

Key words:entropy; multi-view clustering; partition; weight; integration strategy; UCI dataset

文献标志码:A

中图分类号:TP18

doi:10.3778/j.issn.1673-9418.1505041

猜你喜欢
权值
二进制张量分解法简化神经网络推理计算①
一种融合时间权值和用户行为序列的电影推荐模型
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
CONTENTS
Massive MIMO天线权值自优化在5G 网络中的应用
基于MATLAB的LTE智能天线广播波束仿真与权值优化
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究