基于改进密度聚类与SVM的非法广播信号识别研究

2020-12-26 08:22王朝卫
微型电脑应用 2020年12期
关键词:频谱聚类广播

王朝卫

(青海省广播电视局 青海中波台管理中心, 青海 西宁 810001)

0 引言

非法广播俗称“黑广播”,不仅形式多样,而且占用频率,在缺少有效的信号识别技术的情况下,非法组织者采取改变发射位置或者频繁切换频率的手段来躲避追索,这给无线电行业的有序发展造成严重危害[1]。这种危害的表征,具体体现在以下几点:其一,非法广播信号具有欺骗性,严重扰乱公共秩序;其二,选用低劣的违法发射机对外发射无线信号,会对正常通信信号造成干扰。针对于此,必须引用先进的信号识别技术对非法广播信号进行识别和追踪,从而遏制非法广播的肆意发展,达到无线电行业拥有正常秩序的目的。虽我国对识别非法广播信号的文献较少,但研究成果颇为丰富,已形成了一套完整的识别体系。。如杜利敏(2014)[2]利用聚类算法与ReliefF算法相结合的方法对无线点信号的特征进行提取;张自豪(2015)[3]为了对地空通信信号进行识别,运用结合了聚类算法与SVM算法的识别方法,这一策略不仅能够达到信号识别的效果,而且可以有效规避外部信号的干扰;杜利敏(2017)[4]、Xuezhi He(2018)[5]、何学智(2018)[6]等学者在模式识别领域引入深度学习算法,实现了对各种无线电信号特征的准确提取;孙洁(2018)[7]构建了以狼群搜索算法为基础的信号特征识别方法,相较于传统算法表现出更高地识别率。同时研究发现在中频测量数据中包含许多的孤立点及噪声,使得对中频信号的分类识别变得复杂,如采用传统的单一SVM进行分类识别,难以达成理想效果。因此本研究尝试在进行SVM分类识别前,结合中频信号数据的多维特征,引入改进密度聚类对数据进行处理,以减少数据的维度。最后利用SVM算法对无线电信号进行识别并分类,为识别非法广播信号提供了新途径。

1 SVM分类原理

假设SVM分类器的训练样本为{(xi,yi)},i=1,2,…,N,xi∈Rd式子中的xi含有d个不相同的特征,yi={-1,+1},将非松弛变量ξi引入公式,i=1,2,…,N。为了实现不同类型样本的分离来达到分类的效果,需要通过寻找最优超平面来实现,具体数学描述[8-12],如式(1)、式(2)。

(1)

s.t.yi=(ωTxi+b)≥1-ξi,i=1,2,…,N

(2)

式中,C指的是惩罚因子,它可以平衡分类边界大小。

(3)

运用K(Xi,Yi)将核函数的样本映射到高维空间,从而实现将两类非线性问题转化为一个线性分类问题的目的。

分类决策函数,如式(4)。

f(x)=sgn(∑yiαi*K(X,Xi)+b*)

(4)

2 密度聚类改进

2.1 密度聚类简介

(5)

式中,dc指的是截断距离,ρi可通过高斯核函数进行求解。根据上式,随着ρi值的增大,与xi的间距在dc以内的数据增多,反之则数据越少。

通过求解点i与其他高密度点的最小距离,从而推算出δi值,如式(6)。

(6)

从上述式子中可以看出,数据点xi为最大局部密度时,δi代表数据集S中xi与距离xi最大点的间距;反之,δi代表在局部密度大于xi的点内,xi与距离xi最小点的间距。

密度聚类算法的实现过程分如下三步。

1、运用样本数据计算欧式距离dij和截断距离dc;

3、确立聚类中心并输出结果。

2.2 密度聚类算法的改进

聚类算法实现分类有三个环节,分别为提取特征、计算相似度和确立聚类中心。在过去,人们通过欧式定理计算相似度,如式(7)。

(7)

能够对任意的数据样本xi与xj的空间距离进行计算,但在测量出的调频信号数据不难发现,在整体样本中不同样本的分布具有差异性,那么其对距离产生的影响也随之发生改变。由此可见,给予不同分布比例的样本权重,对提高计算欧式距离准确性有积极作用。

基于此,对式(7)进行改进,如式(8)。

(8)

3 中频测量信号特征提取

中频测量,又名单频测量,即依据对单一信号点进行监测后得到的监测结果判断信号的频谱信号正常与否。具体操作过程为:第一步,检测人员向监测设备发出数据监测请求;第二步,对指定信号进行监测;第三步,运用频谱图展示中频信号参数的特征(例如频率的宽带和频偏)。87.5-108 MHz频段的光谱测量图,深色区域表示在此频段下的信号强度大,如图1所示。

为了避免采样信号中产生冗余数据,从连续采样的x广播信号中选取N个不同采样点。从这N个采样点中采集到的广播信号十分复杂,选用传统算法(比如去噪)进行信号预处理,需要占用较长时间。对此,本文通过提取关键特征的做法进行信号预处理,极大缩减了计算量。结合裴峥教授的研究成果,选择以下关键特征[5]。

(9)

方差Var,如式(10)。

(10)

(11)

峭度K,如式(12)。

(12)

归一化峰度Peak,如式(13)。

(13)

零中心归一化绝对值标准差De,如式(14)。

(14)

4 结合改进密度聚类的中频信号识别模型构建

根据中频测量数据提取不同频率信号的关键特征,通过加权方式确定不同样本的权重,引用欧氏定律计算距离,据此确定聚类中心,并建立起完成聚类的训练样本。上述处理方法在极大程度上减少了训练样本数量,消除了冗余数据对信号的干扰。运用SVM分类器将聚类后的数据样本分类归纳为非法广播信号和正常广播信号。

中频测量信号识别模型,如图2所示。

图2 非法广播异常信号识别模型

以上模型是由3个部分构成的,分别是信号样本聚类、SVM训练和SVM分类器。在完成信号样本聚类以后,根据计算出的ρi、δi值,建立起正常信号与非法信号的特征集合V1,如式(15)。

(15)

为了方便后续的分类识别,输入样本使用式(15)中的特殊参数。

5 仿真实验

5.1 数据准备

选定某省广播电视局中波台管理中心的中频数据监测项目作为案例,对前文阐述的思路方法进行验证。在实际操作过程中,为了保证某省广播电视台正常的参数监测环境,包含信号的强度、带宽以及频率等等,需要运用相应的监测软件对发出的中频信号进行整点扫描,并将其结果保存于系统数据库内,从中筛选数据并建立训练样本。选用密度聚类效果、非法广播信号识别准确率和分类训练效率等指标对上述模型的优劣进行评价。在稳定的信噪比(S/N)下对该试验进行验证,并选择200 kHz带宽的R&S. EM100设备,并返回电平值。另外,出于保密要求,本次实验对部分广播信号数据进行了适当处理。

5.2 参数设置

所选择的300帧信号数据中包含了正常广播信号和非法广播信号,从中提取出六个关键性特征,并构建300*6的六维特征空间。假设聚类密度阈值为ρ=0.5;SVM核函数采用径向函数,并运用交叉验证和网格搜索的方法训练各项参数,确定C=10 000,σ=0.05。

5.3 实验结果

5.3.1 正常广播信号聚类结果与频谱图

由R&S. EM100设备监测获得连续300帧信号数据,采用密度聚类算法,所得静音信号聚类结果,如图3所示。

图3 密度聚类结果

上图中的绿点和红点均为聚类中心,据此对信号数据进行重新分配,如图4所示。

图4 静音信号频谱图

5.3.2 非法广播信号的聚类结果以及频谱图

在特定时间段采集300帧非法广播信号,并利用密度聚类算法进行处理,所得该非法广播信号的聚类结果,如图5所示。

图5 非法广播信号聚类图

在正常广播信号中加入非法广播信号,所得频谱图展示,如图6所示。

图6 加入非法广播信号后的频谱图

分析可知,在正常广播信号中加入非法广播信号,频谱图中的静音信号大为减少。基于这一规律,可以根据频谱图中的静音信号对非法广播信号进行识别。

5.3.3 分类结果

针对聚类后的样本,对比分析SVM、K-均值聚类+SVM、密度聚类+SVM的分类结果,从而证实本文算法的优越性。在本次实验中保持相关参量不变,实验结果,如表1所示。

表1 分类结果对比

可见,与SVM、K-均值聚类+SVM等算法作对比,本文提出的改进密度聚类+SVM算法在信号识别的正确率和训练时间等方面都具有显著优势。

6 总结

经过对传统DBSCAN聚类样本缩减的了解和分析,本文为了减小采集样本的数量,运用了引入聚类算法,因而提升SVM的分类训练效率和准确率。正常广播段会受到中频非法广播段影响,致使正常广播频率中的静音信号变少,为了彻底根除“黑广播”这一顽疾,本文提出的改进密度聚类+SVM算法,能够准确、高效地识别非法广播信号,从而维持无线电行业的正常秩序。

猜你喜欢
频谱聚类广播
一种用于深空探测的Chirp变换频谱分析仪设计与实现
数种基于SPSS统计工具的聚类算法效率对比
面向WSN的聚类头选举与维护协议的研究综述
广播发射设备中平衡输入与不平衡输入的转换
周三广播电视
周二广播电视
FCC启动 首次高频段5G频谱拍卖
改进K均值聚类算法
动态频谱共享简述
基于Spark平台的K-means聚类算法改进及并行化实现