云存储中心多源文本主题融合模型研究

2019-05-16 01:39谌裕勇
智能计算机与应用 2019年2期
关键词:聚类关联规则

谌裕勇

(广东工业大学华立学院,广州511325)

0 引 言

随着云存储和云计算技术的快速发展,对云存储中心多源文本主题信息开发成为未来云存储和数据库建设的关键技术。随着数据资源规模的不断扩大,大量的云存储资源分布在云集成数据库系统中,通过云组合服务和大数据管理的模式,实现云存储资源共享,为了提高云存储系统的数据调度性能,需要对云存储中心多源文本主题进行融合处理,结合多媒体集成学习方法进行资源信息优化调度,提高主题信息资源的检索能力[1]。云存储中心多源文本主题信息表现为一组大数据,采用关联规则挖掘方法进行云存储中心多源文本主题资源信息整合,促进云存储中心多源文本主题信息检索效率的提升。

传统方法中,对云存储中心多源文本主题融合研究采用层次数据聚类方法,结合资源的聚类处理技术[2],提取云存储中心多源文本主题信息的规则性关联特征量,采用向量量化编码方法实现计算资源的融合调度,取得了较好的调度效果[3]。文献[4]中,提出一种基于混合差分并行调度的云存储中心多源文本主题资源信息的整合算法,首先构建云存储环境下多媒体集成学习资源信息分布的数据结构和网格结构模型,采用资源信息流的样本聚类分析方法进行云存储环境下资源信息的属性归类处理,提高资源整合能力,但该方法计算开销较大,对云存储中心多源文本主题融合的实时性不好。针对上述问题,本文提出一种基于关联规则挖掘的云存储中心多源文本主题融合模型。首先构建云存储中心多源文本主题分布大数据模型,采用相空间重构方法进行大数据的特征分布式重建和融合聚类处理,提取云存储中心多源文本主题信息的关联规则特征量,然后采用相关性检测技术进行信息集成滤波,结合模糊聚类方法进行云存储中心多源文本主题特征分类处理,根据分类结果实现信息融合。最后进行仿真实验分析,展示了本文方法在提高云存储中心多源文本主题融合能力方面的优越性能。

1 云存储中心多源文本主题信息采样及特征分析

1.1 云存储中心多源文本主题信息资源采样

为了实现云存储中心多源文本主题融合模型的优化设计,采用统计分析方法进行云存储中心多源文本主题信息资源采集,对采集的云存储中心多源文本主题信息资源进行信息重构,构建云存储中心多源文本主题信息资源的特征信息流,采用线性回归分析模型和网格划分技术构建云存储中心多源文本主题信息资源的分布式结构模型[5],用xn-i表示云存储中心多源文本主题信息资源属性集的模糊分布自相关量,ηn-j表示云存储中心多源文本主题信息资源属性特征向量的有限分布集,则云存储中心多源文本主题信息资源信息流重组模型表示为:

其中,a0为统计数据的采样幅值,bj为云存储中心多源文本主题信息资源的最优关联规则分布属性。采用分段样本统计分析方法进行云存储中心多源文本主题信息资源的联合关联互信息特征分析[6],云存储中心多源文本主题信息资源的标量时间序列为x(t),t=0,1,…,n-1, 结合模糊信息特征分析方法,采用相关的数据分析和信息采集技术,分析反映主体资源信息的相关性指标,得到主题信息分布的有限集合为:

结合融合数据聚类模型,得到云存储中心多源文本主题信息资源的关联相关性特征提取结果为:

在大数据处理环境下,云存储中心汇聚了大量的多源信息资源[7],在模糊聚类中心,得到云存储中心多源文本主题特征的二元语义特征映射描述为:

设实数β∈[0,T]为相似度,将关联指标参量加载到信息处理模块,采用关联规则挖掘方法[8],实现信息采样和特征提取。

1.2 相空间重构与特征提取

构建云存储中心多源文本主题分布大数据模型,采用相空间重构方法进行大数据的特征分布式重建,当多源文本主题信息分布聚类中心的相对距离满足得到云存储中心多源文本主题信息资源的聚类迭代式为:

设 (sk,ak)和(sl,al) 为云存储中心多源文本主题信息资源融合节点之间的模糊贴近度矢量,采用相空间重构方法进行特征重组[9],相空间重构模型为:

其中,xij=1表示云存储中心多源文本主题信息资源融合的回归系数,提取云存储中心多源文本主题信息的关联规则特征量,得到云存储中心多源文本主题信息资源属性分类评估约束因子为:

计算云存储中心多源文本主题信息资源的模糊关联度特征,得到信息融合的检测统计分析模型表达式为:

其中,TTD表示关联规则集,在数据融合的相空间中,得到云存储中心多源文本主题信息大数据挖掘后输出为:

其中,sc(t)表示多源文本主题信息的并行调度集,由此提取云存储中心多源文本主题信息的关联规则特征量,根据特征提取结果进行信息融合聚类处理。

2 云存储中心多源文本主题融合模型优化

2.1 关联规则挖掘模型

在上述构建了云存储中心多源文本主题分布大数据模型和采用相空间重构方法进行大数据的特征分布式重建处理的基础上,进行云存储中心多源文本主题融合模型的优化设计,本文提出一种基于关联规则挖掘的云存储中心多源文本主题融合模型,提取云存储中心多源文本主题信息的关联规则特征量,采用多特征的静态拟合方法进行信息流重组[10],则资源分布集合的优先级属性可以表示为P(ni)={pk|prkj=1,k=1,2,…,m} 。 采用并行调度的关联规则挖掘方法进行云存储中心多源文本主题大数据挖掘,得到资源信息流的分组关系为:

采用多元信息融合方法,进行云存储中心多源文本主题信息流的自适应分配,得到资源信息流为:

其中,q表示多个节点重组下的云存储中心多源文本主题信息流集合,nq表示负载,云存储中心多源文本主题信息关联规则挖掘输出为:

根据关联规则挖掘结果采用分组样本回归分析方法进行主题信息融合。

2.2 信息融合滤波

给定云存储中心多源文本主题信息资源融合的相关因子,分别是a1,a2,…,ak,在云存储中心多源文本主题信息资源分布结构模型下,以β为边界条件,得到云存储中心多源文本主题信息资源融合的拓展外延Mβ:

由此得到资源融合的模糊函数为:

计算云存储中心多源文本主题信息资源的模糊关联度特征,采用C均值聚类方法进行大数据融合处理,优化的模型可表达为:

3 仿真实验分析

为了测试本文方法在实现云存储中心多源文本主题融合和检索中的应用性能,进行仿真实验,实验中分析软件为Excel 2007和SPSS19.0,相关参数为:Q=200,c1=30,c2=10,cr=2,μ1=μ2=0.01,ρ1=ρ2=0.01,δ=0.8,云存储中心多源文本主题分布的相关性统计分析结果见表1。

表1 云存储中心多源文本主题分布的相关性统计分析结果Tab.1 The correlation statistical analysis results of multi-source text topic distribution in cloud storage center

根据表1的云存储中心多源文本主题分布相关性检测结果进行关联规则挖掘,得到挖掘结果如图1所示。

分析图1得知,本文方法能准确挖掘云存储中心多源文本主题信息关联规则项,从而提高信息融合能力,测试不同方法进行文本主题信息融合处理后的召回率,得到对比结果如图2所示。分析图2得知,采用本文方法进行云存储中心多源文本主题信息融合的特征分类性较好,提高了云存储中心进行数据检索的准确率,数据召回性较好。

图1 云存储中心多源文本主题信息关联规则挖掘结果Fig.1 Mining results of multi-source text topic information association rules in cloud storage center

图2 召回率对比Fig.2 Recall rate comparison

4 结束语

结合多媒体集成学习方法进行资源信息优化调度,提高主题信息资源的检索能力,本文提出一种基于关联规则挖掘的云存储中心多源文本主题融合模型。构建云存储中心多源文本主题分布大数据模型,采用相空间重构方法进行大数据的特征分布式重建和融合聚类处理,提取云存储中心多源文本主题信息的关联规则特征量,采用相关性检测技术进行信息集成滤波,结合模糊聚类方法进行云存储中心多源文本主题特征分类处理,根据分类结果实现信息融合。研究得知,采用本文方法进行云存储中心多源文本主题信息融合的特征分类性较好,提高了云存储中心进行数据检索的准确率,数据召回率较高。

猜你喜欢
聚类关联规则
一种傅里叶域海量数据高速谱聚类方法
撑竿跳规则的制定
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
“一带一路”递进,关联民生更紧
奥斯卡的规则变了!
奇趣搭配
让规则不规则
智趣
TPP反腐败规则对我国的启示