融合PCA与混沌自适应遗传算法的图像识别

2019-06-06 04:21曹晓杰王文强于德鑫

软件导刊 2019年3期

曹晓杰王文强于德鑫

摘要：针对图像特征识别转为特征选择优化的问题，提出主成分分析与混沌自适应遗传算法结合的图像目标识别算法。首先通过PCA将图像特征线性组合转变为低维空间几个综合变量;同时改进遗传算法，利用混沌Tent模型生成均匀分布的初始种群、种群交叉及变异概率与种群适应度结合自适应变化，利用类内类间距与特征相关性重新构造适应度函数，采用精英保留策略进行子代选择，得到最优特征子集;最后利用概率神经网络与支持向量机分类器进行训练，识别测试图像。仿真实验表明，PCA与混沌自适应遗传算法结合能降低特征空间维数，使识别性能得到较好提升。

关键词：图像特征识别;主成分分析;混沌自适应遗传;类内类间距;精英保留

DOI：10. 11907/rjdk. 181875

中图分类号：TP317.4文献标识码：A文章编号：1672-7800（2019）003-0191-05

0 引言

随着模式识别与人工智能的快速发展，图像识别作为其分支也得到了长足发展，在工业生产、医学、军事、计算机方向的应用越来越多。在实际应用中，人工操作应用识别技术并不能使其发挥应有作用，所以识别技术与人工智能结合愈加紧密。当前，图像识别结合人工智能的常用算法包括遗传算法[1] 、粒子群优化算法[2]等，以及先进的数学工具，如小波分析[3]、模糊数学[4]等，在实际应用中已得到较好发展，智能识别正向更高效、更精确的方向迈进、向更宽广领域开拓。

主成分分析（PCA）属于一种简单的特征选择方法，在图像利用特征识别领域广受关注。PCA基本原理是在数据间进行K-L去相关变换，利用新生成的成分代替原数据信息，同时新成分之间互不相关，去除原数据错误干扰、冗余信息。但PCA特征向量并不是最有利于分类的，文献[5]提出核主成分分析是PCA算法的一种非线性处理改进，文献[6]提出一种主成分分析和遗传算法相结合的特征识别方法。利用遗传算法进行特征选择，但是遗传算法在求解问题时易陷入局部最优、收敛等缺点。目前针对上述问题已有许多改进方法，如文献[7]提出的利用互信息与遗传算法结合，文献[8]-[10]利用混沌模型改进遗传算法，该算法利用Logistic映射生成初始种群，但并不能维持种群多样性。

本文提出一种PCA与改进遗传算法相结合的新算法。该算法先利用主成分分析对组合的特征数据进行分析，去除冗余信息，映射为少数几个综合特征;然后利用Tent序列的遍历性生成初始群体，使其均匀分布在可行解域，为避免算法运行陷入局部收敛、提升寻优速度，考虑到标准遗传算法交叉和变异概率采取固定值，不利于种群多样性且影响搜索速度，因此本文采用随算法运行、依据适应度值自适应变化的交叉与变异概率确保种群多样性，提升寻优效率和识别率;最后依据新算法选出的特征数据，利用支持向量机与概率神经网络进行训练识别，验证算法性能。

1 图像预处理与特征生成

进行图像目标识别时，首先对图像进行预处理。将图像二维数字化灰度图像转变为二维平面上像素点的分布，每个像素点的灰度值为f（x，y）。对图像处理具体步骤如下：①将图像进行归一化，使大小相同;②利用直方图均衡化，使图像显示更多细节;③对图像进行边缘检测，显示图像边线;④利用二值化算法锐化图像;⑤对图像进行中值滤波处理;⑥将得到的灰度图转为二进制图像;⑦根据 Hu[11]提出的利用二阶与三阶中心矩构造7个不变矩公式，计算图像的Hu不变矩。

Reiss & Flusser分别独立提出具有尺度、平移和旋转变化的3个仿射不变矩[12]。两种矩特征因为计算方式、量纲不同，不能直接组合在一起，需要进行归一化，本文所利用的min-max归一化公式为：

2 主成分分析（PCA）

主成分分析（PCA）是一种以K-L变换[13]为基础的统计分析方法，该方法基本思路是对高维数据集的各维进行相关计算，转变为低维数据集。将原始数据信息通过PCA转换，生成新的低维主成分，组成新的特征空间。新特征空间的特征名为主成分，各主成分之间互不相关，且根据对应的贡献率降序排列。

主成分分析是利用映射，将高维特征转变到由几个低维综合特征组成的空间 [14]，具体操作如下：

3 改进遗传算法

标准遗传算法处理问题需要条件较少，且在對待非线性问题时，有较好的优化性、并行性等优点，因此得到广泛应用。算法优化过程中较容易陷入局部极值解，得不到最好的结果，且易发生“早熟状况”。本文针对标准遗传算法进行改进。

3.1 改进初始群体的产生过程

标准遗传算法初始群体都是利用计算机的伪随机自动生成，并不能保证初始群体的多样性。前人已对初始群体的产生进行改进，其中利用混沌变量的随机性、遍历性、规律性等特点解决非线性问题的混沌优化方法已发展成熟。许多学者利用遗传算法过程的混沌模型优化初始种群，以提高算法性能。

还有许多学者利用Logistic映射混沌系统产生初始群体，但是Logistic混沌序列的分布并不是均匀的，不利于实现搜索最优。

Logistic混沌映射与Skew Tent混沌映射[15]的模型公式如下所示。

为验证Skew Tent模型比Logistic模型分布更均匀，更符合生成遗传的初始种群，给定一个初始值，分别经过两个模型迭代10 000次，得到生成的数据遍历分布如图1、图2所示。

Logistic混沌映射与 Skew Tent映射结果统计对比如图3、图4所示。

从图中可以看出，Logistic模型映射结果多在0～1两端，出现在中间数值次数都较低，分布出现两端极化，最多与最少次数相差较大，出现山谷状;而Skew Tent结果分布比较均匀，最多与最少次数相差不大，总体比较平滑。所以本文利用Skew Tent分布均匀、遍历的特性，在解空间中映射出二进制编码形成初始群体，克服随机产生的不均匀，提升搜索性能。具体产生步骤包括：根据待处理数据的维数L，先形成L个不同但相差不大的起始值，对于Tent混沌模型方程，根据要形成的初始种群规模大小M，经过方程迭代M代产生相应的混沌变量，形成M×L。

各元素经过二值方式处理，公式如下：

即可得到长度为L的M个二进制串组成的初始种群，每个二进制串代表一个可行域内的个体。

3.2 自适应交叉变异概率

标准遗传算法（GA）采用固定交叉、变异概率，虽在算法运行过程中起到一定作用，但也带来一定副作用。交叉概率较大时，使算法搜索能力提高，但也会对有利的交叉项产生破环;交叉概率较低时，算法搜索不易起作用。变异操作主要为了保证多样性，较大的变异概率可能使算法易产生优解[16]，可能使算法变成纯粹的随机搜索，交叉概率较低时，能减小群体重要基因流失，也可能无法得到优解，无法发挥作用。综上所述，本文采用交叉、变异概率随个体适应度值自适应变化，利用个体适应度，与当代平均适应度，结合最优解得出个体的交叉变异概率，克服早熟，使优解能够留下，且不陷入局部极值解。如式（6）所示。

3.3 适应度函数

适应度指群体中单个个体适应环境的能力，遗传算法以此评定个体优劣。遗传算法运行过程基本不利用外部信息，仅以适应度评判[17]。适应度函数的设计影响算法能力，因此对于识别分类问题，需要寻求相关适应度函数构造法。

类内间距离准则用于评价特征对同类样本的聚散[18]。同类样本间距离之和越小，最大距离越小，聚集越紧密（类内距离越小越便于区分），说明特征对同类样本的聚合能力越强。不同类样本位于特征结构空间的不同范围，距离越大则不同类样本区分度越大，因此类间距离越大越便于分类。因需要将个体进行分类，且个体之间也存在差异，所以相应选择类内距离、类间距离结合特征向量相似度构造适应度函数。

3.4 精英保留策略

该策略基本思想是：适应度最好的个体尽量存储到子代群体。具体步骤如下：

步骤一：记录当前群体中适应度值最大、最小的个体。

步骤二：得到群体最好的个体，如果大于前群体中最大个体适应度值，则用前者代替后者。

步骤三：将当前适应度值最小的个体用目前为止适应度值最大的个体替换。

该策略能保证最优个体不被破坏，并且能完整遗传到子代中，这是遗传算法一个很重要的收敛条件[19]。

混沌自适应遗传算法特征选择的流程如图5所示。

4 图像目标识别具体步骤

在图像目标识别中，对于图像信息的采集多数是多特征、加噪声、非线性的数据集合，所以特征的选择优化非常重要，在利用采集到的信息时，需要对特征中的噪声、冗余信息或不相关特征进行分析筛选。本文从特征选择出发，利用PCA与混沌自适应遗传算法相结合应用到图像目标识别，利用选择后的最优解，选取组合出新的特征空间结构，具体步骤如下：

步骤一：对图像进行预处理。

步骤二：根据Hu不变矩与仿射不变矩公式计算每幅图像的特征，组成特征空间以表示图像信息。

步骤三：利用PCA对表示图像的数据集进行特征处理，将求得的特征值由大到小排序，特征值对应特征向量，组成新的特征空间。

步骤四：应用SKew Tent混沌模型生成遗传算法初始群体。

步骤五：根据公式计算个体适应度值。

步骤六：进行轮盘赌选择、自适应交叉变异运算。

步骤七：对群体个体进行精英保留。

步骤八：根据终止条件判断算法是否满足，若满足，则停止;若不满足，循环到步骤六，继续运行。

步骤九：利用新算法得出最优解，在图像数据集中选取相应的特征，组成新的数据特征空间。利用得到的数据集，采用概率神经网络[20]与支持向量机[21]两种分类器进行图像目标识别分类。

5 实验结果与分析

本文采用150幅飞机目标图像和50幅小型汽车目标图像，组合成300幅图像作为试样样本。先对图像进行预处理，根据步骤二得到图像的特征空间。根据实验要求选取飞机图像100幅、汽车图像100幅组成训练样本集，剩余100幅组合生成测试样本集。

样本示例如图6、图7所示，矩特征如表1所示。

本文分别选取300幅图像Hu不变矩特征数据、仿射不变矩特征数据、Hu矩与仿射不变矩的组合特征数据，标准遗传算法选择组合数据得到的新特征集、PCA处理后的特征集、PCA與标准遗传选择后的特征集及本文新算法选择的特征集，其特征集维数如表3所示。

对于各部分取得的特征矩进行整理，利用概率神经网络与支持向量机作为分类器，对特征数据进行训练测试，结果如图8、图9所示。

从上述实验结果可以看出，相对于使用单一类的特征矩，组合特征矩代表更丰富的目标信息，识别率也有提高;相对于以单一特征表示图像信息，发现多种特征组合可以包含图像更多信息，但特征维数较大;使用单一的PCA与标准遗传算法及PCA结合标准遗传算法处理能有效降低特征维数，但识别率提高不大;而通过本文PCA与混沌自适应遗传结合处理，不但能有效降低特征维数，降低识别过程运算量，且能够提高识别准确率。

6 结语

本文将PCA与混沌自适应遗传算法结合，应用于图像识别特征选择过程，相较于单一的PCA算法与单一的遗传算法，本文算法在特征选择方面有较大优势，可减少选取的特征维数，相对提高识别过程的运算速度，且实验测试结果证明图像目标的识别正确率有所提高。

本文算法虽已取得较好效果，为了将其更好地应用到实际中，还需要更高的准确率，所以未来将在图像预处理阶段寻求新的处理方法，使图像目标更加明显，使提取的特征更加准确、全面。另外，本文算法分类器仅应用了简单的神经网络，后续需要研究神经网络优化，以便进一步提高识别正确率。

参考文献：

[1] BHARDWAJ A，TIWARI A，BHARDWAJ H. A genetically optimized neural net-work model for multi-class classification[J]. Expert Systems with Applications，2016，60（10）：211-221.

[2] BUI K T T， BUI D T，ZOU J G，et al. A novel hybrid artificial intelligent approach based on neural fuzzy inference model and particles warm optimization for horizontal displacement modeling of hydropower dam [J]. Neural Compution & Applications，2018，29 （12）：1495-1506.

[3] SU H Z，LI X，YANG B B，et al. Eavelet？support vector machine- based prediction model of dam deformation[J]. Mechanical Systems and Signal Processing， 2018，110：412-427.

[4] WEI G W，ALSAADI F E，HAYAT T，et al. A linear assignment method for multiple criteria decision analysis with hesitant fuzzy sets based on fuzzy measure[J]. International Journal of Fuzzy Systems，2017，19 （3）：607-614.

[5]魏弦. 基于核主成分分析的熱误差模型自变量优化[J]. 电子测量与仪器学报，2017，31（12）：2017-2022.

[6] 苑玮琦，于清澄. 一种基于改进主成分分析的人脸识别方法[J]. 激光与红外，2007（5）：478-480.

[7] 涂昌慧，葛红，胡天亮. 基于遗传算法和互信息公式结合的特征选择[J]. 华南师范大学学报：自然科学版，2014，46（6）：28-32.

[8] 申情，蒋云良，沈张果，等. 基于组合混沌遗传算法的最小测试用例集生成[J]. 电信科学，2016，32（6）：93-102.

[9] 方仕勇，邹恩，辛建涛，等. 新型混沌遗传算法在多约束QoS路由的应用[J]. 计算机应用研究，2012，29（8）：3078-3080.

[10] 王世玮，张迪，魏明磊，等. 基于混沌多目标遗传算法的分布式电源规划[J]. 宁夏电力，2017（2）：1-6+14.

[11] 崔彦平，葛杏卫. 复杂背景下回转体目标识别方法研究[J]. 半导体光电，2010，31（6）：931-935+940.

[12] 杨红梅，刘志刚，韩志伟，等. 基于仿射不变矩的电气化铁路绝缘子片间夹杂异物检测[J]. 铁道学报，2013，35（4）：30-36.

[13] 宣国荣，郑俊翔，杨程云，等. 巴氏距离和K-L变换结合的特征选择[J]. 计算机工程与应用，2004（36）：90-92.

[14] 唐莉，张永波，祝雪萍，等. 基于主成分分析法与量变质变判别模式的汛期分期[J]. 水力发电，2018（5）：27-31.

[15] 李雪岩，李雪梅，李学伟，等. 基于混沌映射的元胞遗传算法[J]. 模式识别与人工智能，2015，28（1）：42-49.

[16] 张大科，钱谦. 一种新型自适应遗传算法在多峰函数优化中的应用[J/OL]. 软件导刊：1-4 [2018-06-01]. http：//kns.cnki.net/kcms/detail/42. 1671.TP.20180529.1755.010.html.

[17] 金芬，孙春华，钟鸣. 遗传算法中适应度函数的改进[J]. 机械设计与制造，2010（3）：218-219.

[18] 周爽，张钧萍，苏宝库. 基于最速上升算法的超光谱图像波段选择搜索算法[J]. 计算机应用研究，2008（11）：3501-3503.

[19] 孙明华，崔海涛，温卫东. 基于精英保留遗传算法的连续结构多约束拓扑优化[J]. 航空动力学报，2006（4）：732-737.

[20] 贺静，徐成武，任密林. 基于概率神经网络的IPv6入侵检测技术研究[J]. 太原理工大学学报，2017，48（6）：969-972+983.

[21] 刘方园，王水花，张煜东. 支持向量机模型与应用综述[J]. 计算机系统应用，2018，27（4）：1-9.

（责任编辑：江艳）