基于HLS的雷达信号处理FPGA设计

2016-12-26 16:04凌元陈原
电子技术与软件工程 2016年22期

凌元++陈原

摘 要

现场可编程门阵列(Field Programmable Gate Array,FPGA)由于其强大的并行信号处理能力,在雷达实时信号处理方面得到广泛应用。本文介绍了高层次综合(High Level Synthesis,HLS)方法在雷达信号处理FPGA设计领域的开发流程及应用优势,相对于传统的设计方法,其具有开发效率高、测试验证简单、可重构等优点。以雷达信号处理中的矩阵自相关算法为例对比了HLS设计与传统开发方式,获得了几乎相同的性能,而开发时间缩短了75%以上。

【关键词】HLS FPGA 矩阵自相关

1 引言

随着计算机技术的不断发展,雷达数字信号处理的实现也从传统的使用计算机,向使用高性能数字信号处理器发展,但本质上,在这些平台上实现数字信号处理还是纯粹的软件方法。近些年来,相控阵雷达的发展带来了雷达信号处理数据量的指数级增长,传统的软件处理方法已不能满足实时的信号处理需求。FPGA由于其强大的并行信号处理能力、卓越的灵活性以及高性价比,引起了雷达信号处理者的兴趣和高度关注。

传统的FPGA设计采用原理图或硬件描述语言(Hardware Description Language,HDL)进行输入,其开发难度大、效率低、周期长,制约了其在雷达信号处理方面的应用。HLS通过综合器直接将C/C++描述的函数综合成RTL代码,大大简化了设计和调试的过程,降低了开发难度。文献[3]中介绍了Vivado HLS的简易开发流程及在视频处理上的应用,其未详细介绍HLS的开发优势和开发效率的比对。文献[4]介绍了基于HLS的合成孔径成像算法的设计和实现,整个开发时间在6周左右。本文以Xilinx公司的Vivado HLS设计套件为例详细介绍了基于HLS的雷达信号处理FPGA开发流程极其应用优势,并以雷达信号处理中的矩阵自相关算法作为实例进行了设计对比,结果表明,基于HLS的设计获得了几乎相同的性能,但节约开发时间75%以上,同时设计的模块具备可重构性,适合雷达信号处理不同应用场景需求。

2 HLS设计流程及优势

2.1 HLS设计流程

HLS是从高层次描述,之后综合成可用的网表文件的技术。这里的“高”指采用C/C++等编写程序,而不是传统的HDL语言。Vivado HLS软件将C/C++程序综合转换成为Verilog HDL或者VHDL代码,之后进行下一步工作。其实际工作流程如图1所示。

HLS采用约束脚本对代码的综合过程进行控制,以实现不同架构,使设计具有不同的通过率和资源消耗。采用HLS进行雷达信号处理FPGA设计可分为以下几个步骤:

(1)根据信号处理功能需求,确定功能模块设计架构;

(2)编写功能模块的C/C++程序,并编写测试激励,对程序进行测试仿真;

(3)在通过C/C++仿真的前提下,根据用户需求修改代码和添加优化指令,获取用户所需要的性能参数、资源时序、接口配置等;

(4)进行C/C++综合,并根据综合报告进一步通过代码风格和优化指令进行优化设计,直到得到的综合结果满足设计需求;

(5)进行C/C++综合,将C/C++代码转换为寄存器传输级(Register Transfer Level,RTL)代码;

(6)进行C/RTL协仿真,即HLS将优化后的C/C++代码和原测试激励进行RTL转化,并完成RTL仿真;

(7)实例化HLS封装IP,进行系统集成。

2.2 HLS设计优势

基于HLS的雷达信号处理FPGA设计,相对于传统的开发方式在功能设计、测试验证、更新与维护方面均具备优势:

功能设计:采用C/C++进行源代码设计,快速实现函数功能,编译器自动将C/C++代码转换为RTL实现代码,设计时间缩短80%以上,提升雷达信号处理系统开发效率。

测试验证:通过C/C++的仿真进行算法的功能验证,通过C/C++与Modelsim的协仿真可快速实现RTL代码的功能验证,而无需重新编写测试激励,相对于传统的验证方法,测试更加全面,测试速度加快。

更新与维护:由于采用C/C++语言设计,更新和维护更加容易,通过修改C/C++代码,可实现函数功能的更新,优化。根据信号处理不同通过率、不同平台不同的资源和性能需求,修改相关约束脚本或参数,可快速实现功能模块的重构,重新生成满足系统需求的RTL代码。

3 基于HLS的矩阵自相关算法设计实例

3.1 设计方案

设矩阵A为一个M行N列的复数矩阵,则对A求自相关得到:

R=A*A (1)

求得的矩阵R为一个M*M的方阵,且为厄米特(Hermitian)矩阵,根据厄米特矩阵的共轭对称性质,只需求取其下三角元素(包含对角线)的结果。其计算量约为(M*(M+1)/2)*N次复数乘累加运算。当M,N较大时,其运算量巨大,例如M=48,N=128时,其需要进行150528次复数乘累加运算。

3.1.1 可定义的运算单元满足不同资源和性能需求

假设系统时钟200MHz,一次复数乘累加运算需要消耗20个时钟周期,则需要15.0528ms的时间才能完成计算,这在很多情况下往往不能满足雷达的实时信号处理需求。

为降低处理时间,在HLS设计中采用多个运算单元并行计算,每个运算单元计算一部分元素。由于各元素的计算结果互不依赖,因此可将所需要计算的(M*(M+1)/2)个元素均分至各运算单元中,如图2所示。

考虑不同信号处理的应用场景的需求,在设计中最大矩阵维数M、N为参数,向下兼容,计算单元数也可通过参数定义,以满足不同的资源和性能需求。

3.1.2 流水线设计(Pipeline)

流水线是影响FPGA处理通过率的重要因素,其通过将一个复杂的操作步骤分解为多个子步骤,每个子步骤在一定的时间内完成,则其通过率取决于最慢的一个步骤的处理时间,而不是所有步骤的总时间,因此提高了设计通过率。

HLS采用Pipeline约束设置流水线,其设置的为流水线子步骤的处理延迟,当设置该参数后,HLS会自动将复杂的计算分解为多个简单的步骤以提高通过率。当不能满足设置的需求时,其也会自动地优化成最优的流水线处理架构。在本设计中,为提升复数乘累加的通过率,对其进行Pipeline设置,如图3所示。

3.1.3 数据流模式(Dataflow)

由于HLS是采用C/C++等语言进行编程,C/C++语言是针对于CPU进行设计,其必须执行完一个函数或一句指令,才会执行下一个函数或语句。对于本设计来说,则意味着必须等待数据输入完毕后才能进行计算,显然这增加了处理的延迟。采用Dataflow指令进行约束时,其将对代码进行优化,但前一个函数或语句执行得到可用的输出时,下一个函数或语句能够立即进行计算,而无需等待前一个函数或数据完全计算完毕,降低了处理的延迟。

3.2 设计结果及对比分析

对不同的参数进行了HLS的设计,在Xilinx FPGA芯片 xc7vx690tffg1158-2中进行了综合,将其与Verilog设计的结果进行了对比,得到设计的结果如表1所示。

从表1的对比结果可以看出,在相同的参数和计算单元下,HLS消耗的BRAM和DSP资源略高于Verilog的设计结果,计算时间也略多10%,其设计达到的最高运行时钟频率(Fmax)高于Verilog的设计综合结果。采用Verilog进行设计及测试验证总耗费了约1个月的时间,而采用HLS仅仅约一周的时间就完成了设计和测试验证,节省时间约75%,且HLS设计的模块具备可重构性,能够满足不同的应用场景需求。

4 结语

本文详细论述了HLS在雷达信号处理FPGA方面的设计流程和应用优势,其具有开发效率高、测试验证简单、可重构等优点。在Xilinx公司的Vivado HLS设计套件中以雷达信号处理中的自相关算法作为实例与传统设计方法进行了对比,结果表明,采用HLS设计可达到与采用硬件描述语言进行设计可达到几乎相同的性能和资源消耗,但其开发时间相对于传统设计方法提示75%左右,同时可通过不同的参数及约束指令生成具备不同资源和性能的功能模块,以满足不同的应用场景需求,适宜在雷达信号处理领域推广应用。

参考文献

[1]何宾,张艳辉.Xilinx FPGA数字信号处理权威指南-从HDL到模型和C的描述[M].北京:清华大学出版社,2014.

[2]吴顺君,梅晓春.雷达信号处理与数据处理技术[M].北京:电子工业出版社,2008.

[3]党宏社,王黎,王晓倩.基于Vivado HLS的FPGA开发与应用研究[J].陕西科技大学学报,2015(02):155-159.

[4]Raymond R.Hoare II,Denis Smetana,Accelerating SAR Processing on COTS FPGA Hardware Using C-to-Gates Design Tools[J].High Performance Extreme Computing Conference (HPEC),2014.

[5]Xilinx,Vivado Design Suite User Guide:High-Level Synthesis(UG90,v2016.2),2016.8.

作者单位

南京电子技术研究所 江苏省南京市 210039