基于文本聚类的档案数据全自动分类方法研究

2021-08-18 08:33于红
电子测试 2021年14期
关键词:准确性种群聚类

于红

(吉林省珲春市敬信镇卫生院,吉林延边,133300)

0 引言

随着网络化、信息化的发展,档案因关联内容多样、涉及范围广,数据量和规模面临着规模化的递增发展趋势,并以文本形式存储于计算机上,而此时,以往的人工分类、归档已经无法适从,亟待进行分类方法的变革。而文本聚类作为一种文本处理方法,其目的是将存在某种语义或主题关联的数据集依照某种结构予以分类,划归为不同的聚类,而K-means算法作为应用最广泛的文本聚类方法,具有运算简便、收敛速率快等优点,但也存在易于陷入局部最优解的缺点,而以往多将PSO 与之融合,但并未解决问题。而GWO 算法作为一种新型的群智能算法,与PSO 相比搜索能力更强、收敛速度更快,可满足海量档案数据快速分类的需求,为此,本文结合该算法的优势,着眼于档案数据分类的准确性、效率性,借鉴以往研究来对GWO 算法进行优化,以化解PSO、K-means 算法早熟收敛、局部最优解问题,以此提升档案数据分类的准确性,而后,引入FastText 深度学习模型,通过分类训练实现档案数据的全自动分类,实现档案数据分类的高效性。

1 文本聚类的算法改进

1.1 GWO 算法改进

PSO 是文本聚类最常用的方法,但档案数据的海量性使其搜索空间维数过稿,且特征稀疏下种群差异缩小,易于陷入局部最优解,且经过多方研究未找到有效解决方法,影响了分类的准确性。而灰狼优化算法(Grey Wolf Optimizer,GWO)是基于灰狼捕食猎物活动而设计的一种新型群智能优化算法,其因搜索能力、收敛性能较强,且参数运算少、易于实现而被推广应用[1],但是,在迭代逐渐增加时,因种群多样性减弱,个体差异缩减,易产生早收敛问题,后期易于陷入局部最优解,影响文本聚类的准确性。为解决上述问题,优化档案数据分类的可靠性,本文对该算法进行如下改进。

改进1:免疫克隆操作,为实现种群中个体的优选,将对精英个体进行克隆与变异操作以构建新种群,而后,从新种群中选出适应度更优的个体进行迭代,直至免疫克隆选择达到最大迭代次数[2],具体的操作步骤如下:

依据适应度函数从灰狼种群中优选出m 个个体组成精英种群;而后,对该种群中全部个体进行克隆,组建Nc大小的临时种群T,如此即可保证精英种群中各个个体均匹配一定数量的克隆体[3]:

而后,通过下式对种群中所有个体的高频变异,来获取精英个体附近最优的候选解:

改进2:以改进DE 算法更新个体,因DE 算法利用种群中随机选取的个体构造差分量,而后,以最优个体作为目标向量进行交叉融合生成后代,以依据适应度值进行个体更新生成新种群,但是,因为种群个体的聚类中心排序完全随机,而在个体间进行自我寻优和全局寻优交叉操作时,不同簇类上差异较大的聚类中心会在出现在同一维度上,如此,个体将无法获得有效的搜索经验,彼此间的学习效果也将受到影响,甚至会偏离全局最优解的搜索方向,陷入局部最优解。故而,本文将针对个体间学习与更新中,种群个体的聚类中心向量排序随机对其的负面影响,设计一种自适应调整排序方法,也即基于个体间相似度排序,尽量将相似度最高的聚类中心排列在同一维度,以个体ix、x j为例,该方法构建过程如下。

2 档案数据的快速分类方法

结合上述方法,在优化文本聚类准确性基础上,为实现档案数据的快速分类,本文引入FastText 深度学习模型,其旨在协助创建文本表达和分类的可伸缩解决方案的资料库,主要由输入层Inputlayer、隐藏层hidder layer、输出层out layer 等构成,整体结构如图1 所示。

图1 FastText 深度学习模型的结构

结合上图,输入层是添加文本n-gram 特征的词语词向量,可准确表征存在矢量特征的词语语义,以确保语义表达的准确性;而隐藏层则用于各个词向量均值的求解,并使用优化器和梯度下降算法完成权重参数的更新,而后,进一步计算出损失函数及与对应的分类,通过输出层输出分类概率,完成档案数据的快速分类。与其他分类方法不同的是,FastText 利用分层分类器将档案数据的不同分类整合为树形结构,且为优化分类效率,其引入Softmax 分层技术,利用Huffman 编码进行文本数据标签的编码,以提升分类模型训练的效率,具体,FastText 分类模型训练的步骤如下:

首先,对档案的文本数据A 进行分词、去停用词的预处理,并增添标签于每行结尾,初始化词语向量;同时,设置选取损失函数LOSS、分类训练的学习率为lr,并选定文本输出对应的类别;而后,利用梯度下降算法完成各个词语向量权重的计算,并据此,在分类训练过程中实时更新词向量数据、标签数据的权值,进行分类模型的训练,以实现档案数据全自动分类。

3 结束语

档案数据的海量性、高速更新性,使得其归类管理面临诸多难题,而且,多领域、不同描述的多模态数据,更是增加了其聚类分析的维度和运算量,且PSO 固有的局部最优问题也无法得到根本解决。为此,上述研究借鉴免疫克隆与DE 算法个体更新的优势性,通过对GWO 算法进行改进,来实现可靠的文本聚类;同时,利用FastText 深度学习模型来进行权自动分类设计,由此从准确性、效率上双重驱动档案数据分类优化发展。

猜你喜欢
准确性种群聚类
山西省发现刺五加种群分布
浅谈如何提高建筑安装工程预算的准确性
基于K-means聚类的车-地无线通信场强研究
中华蜂种群急剧萎缩的生态人类学探讨
基于高斯混合聚类的阵列干涉SAR三维成像
影响紫外在线监测系统准确性因子分析
论股票价格准确性的社会效益
一种层次初始的聚类个数自适应的聚类方法研究
超声引导在肾组织活检中的准确性和安全性分析
自适应确定K-means算法的聚类数:以遥感图像聚类为例