聚类分析在岩石图像中的应用研究

2017-06-05 17:42程国建范鹏召
电脑知识与技术 2017年7期

程国建 范鹏召

摘要;岩石组分识别是岩石图像分析中的重要工作之一。该文先提取岩石图像区域颜色特征,再分别使用k均值和模糊C均值两种聚类算法进行聚类,实验表明,通过提取区域颜色特征进行聚类能划分岩石组分,从而为后期的岩石组分识别奠定基础。

关键词:岩石图像;k均值聚类;模糊C均值聚类;岩石组分

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0250-02

图像分析是人们获取信息的一种重要手段。聚类是通过机器学习算法将相似的对象聚在一起组成一个集合,不相似的对象分离开,并要集合内对象具有较高的相似性,而集合与集合之间的对象具有较高的互异性。目前已有很多学者对K均值(k-means)聚类算法和模糊C均值聚(FCM)类算法及其在图像分析中的而应用进行了研究,如:曾山、严峻等对FCM算法进行了研究,朴尚哲对FCM算法进行了有效性评价;聂生东使用FCM分割算法对磁共振颅脑图像进行了研究与分析;彭立军使用FCM研究了遥感图像的分割方法等。蒋帅、樊宁等研究了k-means聚类算法;李丹丹、刘靖明等在HIS空间下使用K-means方法研究了彩色图像的分割;廖松有_10]对比研究了FCM与K-means聚类算法等。为了方便岩石组分分析,本文分别使用K-means聚类算法与FCM聚类算法对岩石组分进行了聚类,并有效的划分了岩石组分,为后期岩石组分分析奠定了基础。

1K-means聚类算法

K-means聚类算法是麦克奎因(J.B MacQueen)于1967年提出的。该算法简单易行,广泛应用于科学及工业领域。它是将含有n个实体的集合X=(x1,x2,…,xn)划分为k个簇(类)。该算法的输入时集合X与类别数k,输出是聚类结果,具体算法流程如下:

1)令I=1,从具有t1个实体的样本集中随机选取k个实体作为初始聚类中心,%(D,j=1,2,…,k;

2)分别计算其余n-k各个实体到各聚类中心的距离d(xi,mj(I)),i=1,2,…,n,j=1,2,…,k,并将各实体与距离最近的聚类中心聚为一类;

3)分别计算每个簇内实体的平均值,并将该值作为新的聚类中心,得到k个新的聚类中心;

4)分别对所有实体计算其与k个新聚类中心的距离,并将各个实体与距离最近的聚类中心聚为一类;

K-means聚类算法优缺点

K-means是一种基于划分的聚类算法,思想简单并易于实现,是目前最常用的聚类算法之一。然而同其他大部分聚类算法一样,K-means算法仍然存在其自身的局限性。

1)K-means算法需要用户实现给出聚类数目。

2)K-means算法对初始聚类中心的选取及奇异值非常敏感。K-means聚类算法每次迭代过程都要重新计算实体与聚类中心的距离,并将每个实体与距离最近的聚类中心聚为一类,故它严重依赖于聚类中心的选取。再者,聚类中心的更新是以簇内实体平均值代替的,故,奇异值对K-means算法的影响也较大。

3)K-means算法不适用于大数据量的聚类问题。由于K-means算法每次迭代过程都要计算距离并求平均值,计算量较大,故当数据量大时,迭代过程的计算量更为庞大,此时,该算法效率较低。

2FCM聚类算法

K-means算法是一种硬聚类算法,非一即二,即实体要么数据属于某一类别,要么不属于。但由于事物在质上没有明确的定义,在量上没有明确的界限,导致时间呈现“亦此亦彼”的性态,这是事物的模糊性,用隶属度来衡量。而FCM算法是一种模糊聚类算法,通过隶属度判断实体属于某一类别的程度,能较为客观的反映现实世界,已广泛应用于大规模数据分析、图像分割、模式识别等领域。

FCM算法流程

FCM算法结合了模糊理论与K-means算法,假设样本集为X={x1,x2,…,xn),类别数为c,样本i对于第j个类别的隶属度为μj(xi),各聚类中心记为mi,模糊度参数记为b,则FCM聚类过程可描述如下:

1)确定聚类数目c以及参数b;

2)在数据样本中随机选取c个实体作为初始聚类中心;

3)按式1计算隶属度函数:

(式1)

4)按式2更新聚类中心:

(式2)

5)损失函数如式3所示,判断其是否收敛,如若收敛,结束迭代并输出所有的聚类中心及隶属度值;否则迭代执行第三步至第五步。

(式3)

6)将输出的模糊聚类结果转化为确定分类,即去模糊化。

F℃M算法中,参数b>l,其选取也是其中关键问题之一。b→1时,FCM算法便等价于K-means算法;b→∞时,FCM算法得到的是完全模糊的聚类结果,没有实际意义。通常情况下,令b等于2。

FCM聚类算法引入了模糊集理论,克服了K-means算法非一即二的性质,但它仍然需要预先确定类别数目并随机初始化聚类中心,对聚类中心的选取仍具有较高的依赖性。

3实验及结果分析

本文岩石图像取自鄂尔多斯某油田并在偏光显微镜下拍摄而成。图像大小为760*753像素。

3.1特征提取

由于RGB颜色空间有R、G和B三个分量,本文分别从这三个颜色空间提取了6个区块特征,图像区域块大小为15*15,提取的岩石特征如下:特征1,2,3分别为R、G,B颜色区块的均值,特征4,5,6分别R、G,B颜色区块的标准偏差。

3.2实验结果分析

本文使用分別使用了K-means与FCM聚类算法对上述提取的岩石图像岩石特征进行聚类。原始岩石图像如图1,由图可知,聚类划分类别为5,聚类结果如下:图2是使用k-means聚类算法的结果,图3是FCM的聚类结果:

由图可知:K-Means聚类和FCM聚类都能够划分出不同的岩石组分,且能清晰地看出岩石图像轮廓,说明聚类方法在岩石组分划分中的可行性,为后续的图像边缘提取工作奠定基础,但FCM聚类要比K-means聚类算法更好地反映原图,如图中标志1处所示,FCM算法对噪声的敏感较低,聚类结果更加准确。然而,由于岩石图像矿物复杂的特殊性,FCM及K_means仍不能实现精准的岩石组分划分,如图中标志2处所示,两个聚类结果都出现了错误聚类,故还需在岩石组分聚类方面作更多研究。

4总结

本文通过提取岩石图像区域颜色特征,再分别使用k均值和模糊C均值两种聚类算法对提取特征进行聚类,能将岩石颗粒进行有效划分,从而为后期的岩石组分识别奠定了基础。由于岩石图像复杂,只使用颜色特征进行虽能划分颗粒,但某些细节无法进行聚类划分,因此,下一步工作准备在其他岩石空间进行纹理特征提取,并在此聚类基础上进行聚类,从而实现对岩石图像组分进行细分。