基于改进的免疫遗传的选择性随机森林优化算法及应用

2020-03-16 02:31刘林慧
电子技术与软件工程 2020年24期
关键词:均匀分布列表选择性

刘林慧

(黑龙江工业学院 黑龙江省鸡西市 158100)

1 算法

1.1 选择性集成

集成学习就是通过集成很多个学习器来完成学习任务,通常集成学习得到的结果比单个学习器得到的结果更加准确。而选择性集成[1]是指在现有的集成学习的学习器中,剔除掉一部分作用不大或者是起反作用的学习器,使得结果更加准确的一种算法。

1.2 免疫遗传算法

免疫算法[2]是一种仿生智能算法。相比于其他仿生智能优化算法,免疫算法有很多优点,如全局收敛性、种群多样性等。免疫遗传算法[3]是免疫算法中的一类,也是遗传算法的改进算法。

1.3 随机森林

随机森林[4][5][6]是一种集成学习算法,随机森林的每个学习器是决策树。通常随机森林与决策树相比,有更低的泛化误差。

2 初始种群生成方式的改进

基因空间均匀分布策略[7]的主要思想就是突变其中占比高的基因,让所有的基因都最大限度的均匀分布在编码空间中,达到使初始种群多样化的目的。

将基因空间均匀分布策略的思想用在随机森林子集优化中,为了保证每棵树在种群中是均匀分布的。优先突变的抗体应符合如下条件:

(1)抗体浓度高的抗体。

(2)种群中树的列表值重复的抗体。

抗体i 的第k 位基因突变方式如下:

以表1 所示的原始基因为例,按照随机森林问题下的基因分布均匀策略的原则对基因进行突变,改进前后抗体浓度对比结果如表2。

从实验结果可以看出,新生成的初始种群有更低浓度,说明抗体之间的相似度大大降低;树的总和中有更多的组合值出现,说明改进的方法很好的增加了初始种群的多样性。

因此,随机森林问题下基因空间均匀分布策略的算法如算法1。

算法1: 随机森林问题下基因空间均匀分布策略

随机森林问题下基因空间均匀分布策略输入:随机产生的初始种群过程:1.生成抗体浓度列表、种群中树的列表和基因为0 的分布列表2.For 检测种群中每一基因位的组成{

表1:原始基因分布表

图1:UCI 数据集上免疫遗传、改进免疫遗传的适应度函数值折线对比图

3.If 某基因在该位所占比例大于平均值4.Then 把这种基因变异成在该位所占比例最低5. 遍历抗体浓度列表和树的列表6. 优先选择抗体浓度高且树的列表有所重复的位的基因 的基因}抗体,突变该基因7. 更新抗体浓度列表和种群中树的列表输出:经空间均匀分布策略处理后的新的初始种群

3 新方法在优化随机森林问题中的有效性检验

表2:改进前后基因为0 的抗体浓度对比表

表3:数据形式表

表4:优化前后模型泛化误差表

从图1 可以看出,针对随机森林优化问题改进的免疫遗传算法每次搜索的效率更高,且更快收敛,说明改进的初始种群的生成方式可以用来优化随机森林子集。

4 基于改进的免疫遗传的选择性随机森林优化算法

综上,基于改进的免疫遗传的选择性随机森林优化算法如算法2。

算法2:基于改进的免疫遗传的选择性随机森林优化算法基于改进的免疫遗传的选择性随机森林优化算法

输入:数据集、随机森林、迭代次数、适应度函数、相似度阈值、变异算子、交叉算子过程:1.For i in range(迭代次数):2. If i 为1:3. 使用空间均匀分布策略生成初始种群4.else:5. images/BZ_155_309_2093_388_2163.png过选择、交叉、变异之后的种群,再随机生成一部分新种群6. 将种群解码,解码的值为树的平均精度、树的残差相关度以及森林规模组成的矩阵7. 将解码的值代入到适应度函数中,求解适应度函数的值8.将适应度最大的值所对应的二进制串作为最优的子集输出9.使用得到的随机森林最优子集进行预测输出:预测结果

5 实验

在实验部分本文仍然从上述UCI 数据集上选取一组数据,共包含8 个属性,一个因变量。使用基于改进的免疫遗传的选择性随机森林优化算法对其进行预测。数据形式如表3。

将数据集进行拆分,选取75%的数据作为训练集,25%的数据作为测试集进行预测。

本实验目标函数设定同上,其中随机森林的规模设为100,迭代次数为设为100,种群个数设为50,变异算子设为0.1,交叉算子设为0.8,相似度阈值设为0.5,使用改进的免疫遗传算法优化随机森林,最终得到的优化前后的模型的泛化误差和森林规模如表4。

优化后森林的规模从原来100 棵树压缩到了40 棵树,压缩率达到了60%,且有更低的泛化误差。

6 总结

传统的免疫遗传算法存在种群多样性差,搜索效率低,容易陷入局部最优等问题,为解决该问题,本文提出一种基于基因空间均匀分布策略的初始种群生成方法,针对优化随机森林子集问题随机生成初始种群,增加种群多样性,提高算法运行效率。本文在UCI数据集上对其进行验证,发现针对随机森林子集优化问题改进的免疫遗传算法每次搜索的效率更高,且更快收敛。

本文旨在建立一个基于改进的选择性随机森林优化模型,在缩减森林规模的同时,降低模型的泛化误差。从本文的实验结果来看,森林规模能够缩减至一半,但模型的泛化误差降低的不多,下一步应继续对模型进行改进,提高模型预测的准确率。

猜你喜欢
均匀分布列表选择性
学习运用列表法
接触压力非均匀分布下弯曲孔道摩阻损失分析
电磁感应综合应用检测题
选择性应用固定物治疗浮膝损伤的疗效分析
选择性执法的成因及对策
铈基催化剂用于NH3选择性催化还原NOx的研究进展
不含3-圈的1-平面图的列表边染色与列表全染色
椭球上三维均匀分布的参数估计
关于两个均匀分布总体标准差比的估计