考虑样本数据重复性的通信信息冗余数据检测算法

2021-06-24 07:24高德平
微型电脑应用 2021年6期
关键词:冗余度重复性数值

高德平

(山东理工职业学院 教务实训处, 山东 济宁 272067)

0 引言

通信网络结构不断地扩大,在相同的传感器节点控制下,形成了大量待检验重复的通信样本数据,过量的冗余数据会造成通信承载系统运行缓慢,检测通信信息系统内的冗余数据成了当下研究的热点,为此构建一种考虑样本数据重复性的通信信息冗余数据检测算法[1]。构建冗余数据检测算法不仅可以减少通信系统内储存,还能够降低数据储存的成本,减少通信传输过程中所需的网络带宽。对于不同通信应用类产生的数据集,整理并归纳数据集中的特点,针对多种数据集中产生的特点,构建识别过程并形成检测算法[2]。早期的冗余数据检测出现在数据挖掘领域中,随着现代化技术不断地发展,国外研究人员针对冗余数据中的单属性,形成了成熟的检测方法,并结合凝聚聚类方法找到了冗余数据中的异常数据点。国内研究冗余数据检测算法起步较晚,但如今已经进入到一个高速发展的阶段。综合国内外的研究成果来看,在通信信息冗余数据检测算法的构建上,还需要不断地研究改进[3]。基于此提出考虑样本数据重复性的通信信息冗余数据检测算法,在充分考虑样本数据重复性的前提下,采集通信信息冗余数据作为识别对象,利用固定窗口平滑填补采集得到的数据,识别重复性样本数据,最终通过计算冗余数据密度完成冗余数据检测算法的构建。通过对比实验证明所提方法的有效性。

1 考虑样本数据重复性的通信信息冗余数据检测算法

1.1 采集通信信息冗余数据

以通信信息网络为采集对象,根据不同的通信信道将整个通信信息网络划分为多个传感器节点,划分得到的传感器节点结构如图1所示。

图1 信道对应的传感器节点结构

在图1所示的传感器节点结构中,采用单片机对不同信道进行数据采集[4],定义在上图所示的结构中,传感器采集效率q在给定的采集时间内,静态通信网络中数据全被采集的概率为式(1)。

(1)

式中,Ai表示在时间范围内通信传感器数据被成功采集的函数个数;N表示数据采集次数。将上述采集概率计算转化为采集层具体化模式[5],让采集的通信数据在网络中采集得到的冗余数据产生一定的限制,控制采集时产生的能耗数值,采集能耗可计算得到如式(2)。

(2)

式中,EIC表示通信传感器发送数据所消耗的能量;ECC表示通信数据的单位能量;T表示数据发送的时长。在上述采集能耗的控制下,为了采集通信冗余数据,最小化处理发送能耗,最小化处理过程如式(3)。

(3)

(4)

(5)

式中,ξ表示信道发射信号峰均比;η表示射频功放的漏极效率;其余参数含义不变。信道发射信号峰均比在调制方法的控制下满足如下数量关系,如式(6)。

(6)

式中,M表示通信节点被访问次数。根据上述计算过程得到访问次数集合数值[8],综合通信网络中所有的通信节点,最终得到冗余数据集合an,如式(7)。

(7)

式中,n表示通信网络中的节点数量;θ表示通信发射波束的方向角大小。以上述采集得到的采集通信信息冗余数据为作用目标[9],识别冗余数据集中的重复性数据样本。

1.2 识别重复性样本数据

采用上述采集得到的冗余数据组为识别对象,采用固定窗口平滑填补采集得到的数据,设定多个阅读器周期,以第一个周期读入数据为起点[10],为了防止未被读到数据标签发生漏读,构建一个固定窗口数据平滑处理,形成的填补过程如图2所示。

图2 漏读数据填补过程

在图2所示的数据填补过程下,将填补后的数据整合为信源,使用信息熵作为样本数据的重复性标签,信息熵可表示为式(8)。

(8)

式中,U表示信源;ui表示通信信源数据;其余参数含义不变。根据上述计算结果,定义距离信息熵远的离群点为具有重复性的样本数据[11],在不同的信息熵值的控制下,计算采集得到的冗余数据集中的属性值的初始频率Fr,如式(9)。

(9)

式中,c表示属性值的数量。计算出初始频率后,多次扫描采集得到的信息熵,数值变化如图3所示。

图3 信息熵的数值变化

在图3所示的数值变化下,针对数据重复性较为复杂的冗余数据来讲,与图3所示坐标数值的罕见性相关联[12],形成的关联度计算如式(10)。

(10)

式中,m表示数据维度;i,j分别表示两个重复性数据;f(xij)表示关联性参数。为了处理相同数值属性的重复数据点,构建一个相异度距离衡量距离较远的冗余样本数据的相似性距离,相异度距离计算式如式(11)。

(11)

式中,X,Y表示两个重复性的冗余数据;δ(xj,yj)表示相异函数;其余参数含义不变。综合上述的处理过程,即可形成一个重复性样本冗余数据的识别过程,如图4所示。

图4 重复数据的识别过程

在图4所示的识别过程中,设定一个学习过程,在不断更新数据簇中的数据中心后[13],根据数据簇内的样本数据密度构建冗余数据检测算法。

1.3 完成冗余数据检测算法的构建

整合上述识别出的重复性数据与采集得到的冗余数据为一个数据集,为了保持数据的有序性,计算整合后数据集内的冗余数据密度为式(12)。

(12)

式中,x表示采集得到的冗余数据集;y表示识别得到的重复性数据;a表示密度参数。将数据密度数值相同的冗余数据划分为一组,为了保证算法的有效性[14],在不同冗余数据组中设定一个检测率下限数值,下限数值DR为式(13)。

(13)

式中,α′表示信息通道中最大容许误报率;α表示冗余数据占正常通信传输数据的比值;β表示重复数据占冗余数据的比值,下限数值形成一个数据点筛选区域,形成的筛选区域如图5所示。

图5 形成的数据点筛选区域

在图5所示的数据点筛选区域,在密集区域中选定一个间隙值κ,根据该间隙值计算冗余数据被残存下的概率为式(14)。

(14)

式中,γκ表示间隙参数;γ1表示冗余数据残存参数;其余参数含义保持不变。控制上述各参数的数值,保证残存参数数值最下,控制冗余数据检测算法残存的待检测数据量最少[15]。综合上述处理分析,最终完成对考虑样本数据重复性的通信信息冗余数据检测算法的构建。

2 仿真实验

2.1 实验准备

在MATLAB编程环境中首先产生一个200×200的区域,并在其内部随机生成10组含有不同节点数量的冗余数据块的无线传感器网络作为实验的通信信息网络,选定的无线传感器网络结构如图6所示。

图6 选定的通信网络结构

在图6所示的网络结构中,以传感器的节点数据为采集对象,采集实验样本数据,整合为不同的样本数据组,得到的样本数据如表1所示。

表1 采集的冗余样本数据

由表1所采集的样本数据作为冗余数据实验对象,分别使用文献[10]中的检测算法、传统检测算法以及本研究设计的检测算法进行实验,对比3种算法的性能。

2.2 实验结果及分析

为了对比3种算法的性能,定义实验各个数据组中未被处理的数据作为残存的冗余数据,以3种算法的残存冗余数据作为对比指标,3种数据检测算法最终残存的冗余数据结果,如图7所示。

图7 三种冗余数据检测算法残存冗余数据结果

由图7结果可知,当检测的冗余数据数量为200时,文献[10]中的检测算法与传统检测算法残存的冗余数据较多,数值在25左右,而本研究设计的冗余数据检测算法残存的冗余数据数量最少,残存的冗余数值在10左右。

保持上述实验环境不变,根据上述实验结果得到的剩余冗余数据量,计算得到不同数据组中的冗余度,冗余度计算式为式(15)。

(15)

式中,R表示冗余度;Q表示冗余数据组的数据总量;C表示算法残存的数据量。利用上述计算公式,计算得到3种冗余数据检测算法的冗余度结果,如表2所示。

表2 三种冗余数据检测算法冗余度结果

在表2所示的冗余度结果下,计算3种算法的有效性,如式(16)。

(16)

式中,P1表示冗余数据不可恢复的概率;其余参数含义不变。变换不同算法的数据量,最终,3种检测算法的有效性结果如图8所示。

图8 三种检测算法的有效性结果

由图8可知,3种冗余数据检测算法表现出了不同的有效性结果,在3种算法的冗余度数值控制下,根据图8中的各项数值可知,文献[10]中的检测算法的有效性数值最小,有效性数值在0.6,有效性数值较小,传统冗余数据检测算法的有效性数值在0.8左右,算法的有效性较小,而本研究设计的检测算法有效性数值在1左右,综合上述3种冗余数据检测算法的有效性数值可知,本研究的检测算法在实际运用时,残存的数据量最小、冗余度数值小且有效性数值最大,适合在实际中使用。

3 总结

通信冗余数据有着相同的特性,但在重复性的样本数据影响下,就会产生待冗余数据的残存,构建一种考虑样本数据重复性的通信信息冗余数据检测算法,能够改善传统检测算法待检测冗余数据残存量过多、检测结果有效性数值较小的不足,为今后研究冗余数据的检测提供了一定的理论支持与研究方向。但本研究构建的检测算法对计算精度要求较高,还需要不断地研究改进。

猜你喜欢
冗余度重复性数值
高速公路桥梁设计冗余度应用
体积占比不同的组合式石蜡相变传热数值模拟
数值大小比较“招招鲜”
化学分析方法重复性限和再现性限的确定
铝合金加筋板焊接温度场和残余应力数值模拟
冗余度理念在桥梁结构设计中的应用研究
论重复性供述排除规则
桥梁设计的冗余度分析
桥梁设计的冗余度分析
RESOLUTION ADOPTEDBY THE GENERAL ASSEMBLY