基于SVM的白细胞识别研究

2010-03-26 07:32吴爽
电子设计工程 2010年12期
关键词:迭代法信息熵白细胞

吴爽

(河海大学计算机与信息学院,江苏南京211100)

身体的各个器官和组织都与血液密切相关,甚至全身各组织的疾病都可以表现在血液中。血液中包含白细胞、红细胞、血小板和其他杂质,其中白细胞在血液中的作用尤其重大,因为白细胞能吞噬异物产生的抗体,在机体损伤治愈、抗御病原的入侵和对疾病的免疫方面起着重要作用。通过对血液中的各类白细胞数量的统计,来帮助医生诊断疾病。因此,白细胞的识别分类在医学临床检测上有着重要的实际意义。目前国内大多数医院的血液白细胞的检验以人工操作为主,使得白细胞的检测质量和效率受到一定的影响。而将计算机图像处理和模式识别理论用于白细胞的检测,可以提高白细胞检测质量和效率,因此,提出基于支持向量机SVM的白细胞识别研究算法。

1 白细胞图像分类识别流程

白细胞大致分成淋巴细胞、单核细胞、中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞等5大类。假定已经得到一幅预处理过的血液细胞图像,识别其中的白细胞的步骤:首先是分割细胞核,并进一步以细胞核的中心为基础,分割出细胞浆,从而提取出完整的单个白细胞;然后根据需要,对提取得到的白细胞图像进行统计和计算,得到相应的白细胞特征,最后由分类器根据细胞特征确定该细胞的所属类别,完成细胞识别的任务。由此,可以得到如图1所示的完整的细胞识别流程[1]。

图1 白细胞分类识别流程Fig.1 Flow chart of classification and recognition of white blood cell

从图1可以看出,白细胞的准确分割是保证后续工作的前提,它是最基本、最关键的一环,其准确性和稳定性直接影响到白细胞的分类。

2 SVM的基本理论

支持向量机SVM是由Vapnik[2]等人在统计学习理论(SLT)和结构风险最小化原理的基础上根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,通过选择适当的选择函数子集及其函数子集中的判别函数,使学习机器的实际风险降到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差仍然较小。因而,SVM是一个具有最优分类能力和推广能力的学习机器,其基本思想:把在输入空间中的线性不可分的数据集,通过内积核函数,非线性映射到高维特征空间后,变为线性可分的数据集,随后在高维特征空间建立一个不但能将两类正确分开,而且使分类间隔最大的最优分类面。目前,支持向量机SVM[3]已广泛应用于各个领域,包括模式识别、回归分析、密度估计和时间序列预测等。SVM原理图[4-5]如图2所示。

图2 SVM原理图Fig.2 Principle figure of SVM

2.1 线性可分情况

给定一个样本集x=(x1,y1),(x2,y2),…,(xn,yn),其中xi∈Rd,yi∈{-1,1},是两类问题的标签,n是样本数,SVM的基本思想就是为了寻找一个两类之间的最优分类面w·x+b=0,如图3所示。

图3 最优分类面Fig.3 The optimal classification surface

训练数据的约束条件为:

式中,αi为Lagrange系数。

αi>0的样本称为支持向量,由此得到支持向量机(即判决函数)为

式(3)中的求和实际上只对支持向量进行。b*是分类阈值,可以用任意一个支持向量求得,或通过两类中任意一对支持向量取中值求得。

2.2 线性不可分情况

对于分类问题线性不可分的情况,引入一个松驰变量ξi≥0,使得目标函数Q(w,ξ惩罚参数,约束条件变为0≤αi≤C就可以解决样本点线性不可分的情况了,预测函数的形式与式(3)一样。

2.3 非线性情况

对于这种情况,可将其输入向量经非线性变换映射到一个高维空间,使其线性可分。在变换后的空间中寻找一个最优超平面,使其推广能力最好,然后进行线性分类。引入的核函数只需要满足Mercer条件即可,常用的核函数是径向基核函数。

3 白细胞的分割提取

白细胞的分割,即是将白细胞与周围的红细胞、血小板、杂质等背景分离。传统的分割方法[6]有阈值分割、经典迭代法、形态学和分水岭分割方法、区域生长与分裂合并以及近年来提出的基于最大信息熵法分割方法等,这些方法虽然有的达到了分割的要求,但其鲁棒性和分割的完整性不能达到很好的要求。因此,本文利用SVM的方法分割白细胞,其速度和准确率都达到了保证。由于所获取的图片是RGB彩色图片,不符合人的视觉特性,应将其转换为符合人眼视觉的HSI彩色空间中[7]。根据HSI空间中色调分量对光照的变化不敏感,对用不同颜色的染色剂得到的细胞图像能够保持良好的一致性,有助于后续处理。

其算法步骤:

1)将彩色图像转换为灰度图像;

2)构造SVM分类器。由于白细胞区域图像色彩颜色比周围背景的颜色较深,并且灰度变换比较明显,而背景区域的灰度变化比较平稳(与前景区比较),因此选取对比度(即灰度标准差和均值的比值)以及由当前像素邻域的灰度共生矩阵导出的一组局部纹理参数作为SVM的输入向量。为了获取局部特征,需要将当前像素的邻域形成一个子图像,然后在子图提取相应的局部灰度统计特征和局部纹理特征作为当前像素的特征向量。将血液细胞图像分成9×9大小的图像块,对每个图像块B(i,j)按式(4)计算对比度[8]:

式中,分子分母分别是由图像块B(i,j),B(i,j+1),B(i+1,j),B(i+1,j+1)组成的灰度标准差和均值,w是小块的边长。

纹理特征[9-11]选取如下:

考虑到图像纹理的方向性,θ分别取0°、45°、90°及135°当前像素的灰度共生矩阵的局部纹理特征的均值。由于所提取的特征可能在量值上有很大的差异,对所提取的特征进行归一化非常重要,采用式(9)对特征进行归一化:

经过归一化处理后,各特征值的范围被限制在[-1,1]之间。以图像各块的对比度和纹理特征为特征,构造特征向量,作为训练SVM的输入向量。对于输入的特征向量,如果SVM的输出g(x)=1,则表示背景;若g(x)=-1,则表示前景。以上构成的SVM的样本数据集,经训练得到α*,b和支持向量SV表示的SVM模型,用于白细胞图像分割。

本文主要采用的是由台湾大学林智仁教授编写的LIBSVM工具箱,在MATLAB平台上对图像进行分割实验的,并与经典迭代法、最大信息熵法[12]进行了对照。为了很好的对比,恢复了检出区域的彩色信息。实验结果如图4所示。

图4 各种方法分割图Fig.4 Several ways of segmentation

图4中,图像从左至右分别为:原图像,经典迭代法,最大信息熵法和SVM法。用经典迭代法即是根据迭代计算得出阈值来进行分割图像,最大信息熵法是根据香农定理求熵最大以此来获得阈值,SVM法是根据提取特征向量构造分类器来获得分割图的。根据第一组图像,可以得出:基于SVM的分割效果比经典迭代法、最大信息熵法效果要好。而第二组图像,这3种方法的差别不大。通过比较可以看出不同的算法适用于不同的图像对象,并且即使同一种算法对不同的图像的分割效果也有好坏。由于图像的分割效果没有统一的判断标准,所以最终结果的评价主要采用主观判断作为分割质量的评价标准。

4 结束语

基于统计学习理论,提出了应用SVM方法对白细胞图像进行分割的方法,为后续的白细胞识别分类奠定基础。纵观近几年来出现的白细胞图像分割的各种算法与研究,可以看出目前图像分割领域的发展趋势,将其他学科的新技术应用于该领域,力求寻找一种通用的算法,对于环境具有较好的鲁棒性,结合应用现有不同的算法,优势互补。虽然SVM等一些其他方法对白细胞图像分割都取得了比较理想的结果,但由于白细胞图像检测主要应用于临床,准确性非常重要,所以今后还必须继续寻找更适合于白细胞图像的分割方法。

[1]吴建斌,李家志,李太全.基于支持向量机的白细胞自动识别[J].计算机工程与设计,2008,29(1):184-186.

WU Jian-bin,LI Jia-zhi,LI Tai-quan.Based on support vector machine automatic classification[J].Computer Engineering and Design,2008,29(1):184-186.

[2]Vapnik V N.Statistical learning theory[M].New York,W iley,1998.

[3]邓乃扬,田英杰.支持向量机——理论、算法与拓展[M].北京:科学出版社,2009.

[4]Omar Selmi,Pinti A,Abdelmalik Taleb-Ahmed,et al.Use of support vector machines for color image segmentation[C]//IMACS Multiconference on“Computational Engineering in Systems Applications”(CESA),2006:574-577.

[5]Jerdnimo Arenas-Garcia,Fernando Ptrez-Cruz.Multi-class support vector machines:a new approach[J].IEEE,2003:781-784.

[6]Gonzalez R C,Woods R E,Eddins S L.数字图像处理:MATLAB版[M].阮秋琦,译.北京:电子工业出版社,2008.

[7]王敏,储荣,曾晓勤.基于边界支持向量的白细胞检出新方法[EB/J].中国科技论文在线,2009,4(2):146-151.

WANG Min,CHU Rong,ZENG Xiao-qin.New method for white blood cell detection based on boundary support vectors[EB/J].Chinese scientific papers online,2009,4(2):146-151.

[8]魏鸿磊,欧宗瑛,张建新.采用支持向量机的指纹图像分割[J].系统仿真学报,2007,19(10):2362-2364.

WEI Hong-Lei,OU Zong-Ying,ZHANG Jian-xin.Using support vector machines for fingerprint image segmentation[J].System Simulation,2007,19(10):2362-2364.

[9]张德丰.MATLAB数字图像处理[M].北京:机械工业出版社,2009.

[10]ZHI Zheng-liang,TUO Zhao.Feature selection for linear support vector machines[C]//The 18th International Conference on Pattern Recognition(ICPR'06),2006.

[11]XU Peng,DAI Min,Chan A K.Texture classification using optimized support vector machines[J].IEEE,2004:544-547.

[12]严学强,叶秀清,刘济林.基于量化图像直方图的最大熵阈值处理算法[J].模式识别与人工智能,1998,11(3):352-358.

YAN Xue-qiang,YE Xiu-qing,LIU Ji-lin.Quantization histogram based on the maximum entropy thresholding algorithm[J].Pattern Recognition and Artificial Intelligence,1998,11(3):352-358.

猜你喜欢
迭代法信息熵白细胞
迭代法求解一类函数方程的再研究
基于信息熵可信度的测试点选择方法研究
白细胞
H-矩阵线性方程组的一类预条件并行多分裂SOR迭代法
白细胞降到多少应停止放疗
一种基于信息熵的雷达动态自适应选择跟踪方法
预条件SOR迭代法的收敛性及其应用
基于信息熵的IITFN多属性决策方法
白细胞介素17在湿疹发病机制中的作用
求解PageRank问题的多步幂法修正的内外迭代法