《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于多核DSP的MIMO雷达信号处理的实现
基于多核DSP的MIMO雷达信号处理的实现
2014年电子技术应用第9期
庞 娜1,2,徐平江3
1.北京理工大学 信息与电子学院,北京100081;2.北京无线电测量研究所,北京100854;3.南瑞集团通信与用电技术分公司,北京100192
摘要: 针对MIMO雷达多通道回波信号处理的同步性和实时性需求,在分析MIMO雷达信号处理的特点及多核DSP硬件结构的基础上,提出了一种基于多核处理器TMS320C6678的并行实现方法,并解决了使用过程中的诸多关键技术。该方法实现了多任务并行处理和高效通信。实验结果表明,该方法在较小规模的硬件平台上实现了较低功耗且高实时性的应用。
中图分类号: TN492
文献标识码: A
文章编号: 0258-7998(2014)09-0004-03
Implementation of MIMO radar signal processing based on multi-core DSP
Pang Na1,2,Xu Pingjiang3
1.School of Information and Electronic, Beijing Institute of Technology,Beijing 100081,China;2.Beijing Institute of Radio Measurement,Beijing 100854,China;3.Communications & Power Utilization Technology Subcompany,NARI Group Corporation,Beijing 100192,China
Abstract: In the view of the synchronization and real-time requirements of multi-channel echo in MIMO radar system, this paper proposes a method of parallel implementation based on multi-core DSP TMS320C6678 after analyzing characters of the MIMO radar signal processing and hardware structure of multi-core DSP. Many key techniques are solved in the process of design. This method implements task-level parallel processing and efficient communication. The experimental results show that the method realizes the application of low power consumption and high real-time in the use of smaller hardware platform.
Key words : multi-core DSP;MIMO radar;parallel processing

  MIMO雷达是近十年来发展起来的新体制雷达,与普通相控阵雷达相比,MIMO雷达具有低截获概率、高速度分辨能力、高角分辨力、可同时识别多个目标等优点[1]。国内外学者们在MIMO雷达技术的诸多方面进行了深入而全面的理论研究,其中以美国麻省理工学院林肯实验室和贝尔实验室的研究尤为深入[1],但涉及工程实现方面的文献很少。

  由于软硬件发展水平的限制,MIMO雷达理论的研究领先于雷达系统的应用[2],而普通的雷达信号处理机的设计相对比较成熟,这方面的文献中实现的具体途径主要有两种方式,一种是基于FPGA+DSP的架构[3-4],另一种是基于FPGA+PowerPC的架构[5],以第一种的应用为主流。MIMO雷达信号处理需要接收多个通道的数据,在多波束采集后的雷达回波数据量非常大,实现多波束雷达回波数据信号处理的关键是并行同步和实时处理。近几年来,DSP生产商纷纷采用多核架构来满足日益增长的系统实时处理性能要求,实现更快速的数据信号处理。TI公司于2010年推出了基于KeyStone架构的、集成了RISC和8核DSP的高性能信号处理器TMS-

  320C6678(简称C6678),初始设计背景为图像领域的应用,现在已经推广到视频处理、语音识别等领域[6-7]。

  本文以C6678为平台,研究了MIMO雷达信号处理的实现方法。首先,介绍了MIMO雷达信号处理的基本原理以及基于C6678多核芯片的系统架构和编程开发特点,并基于算法给出了并行实现中的关键技术及解决方法,然后给出实验评估并进行了测试性能等方面的对比分析,最后得出基于多核DSP的MIMO雷达信号处理方法,实现了在降低成本和提高性能等方面的有效性。

1 MIMO雷达信号处理的原理

  本设计的MIMO雷达是基于正交波形双基地集中式MIMO而构建,发射端各子通道发射相互正交的信号,形成低增益宽波束;对于接收端,为恢复出各个发射端子通道内由单个发射信号形成的回波,需对每个发射波形进行匹配滤波,再根据发射阵列的阵元布置,进行接收端等效发射波束形成,最后进行动目标检测、点迹提取[8]。根据参考文献[8]的分析,先DBF再匹配滤波处理的方式较先匹配滤波再DBF的方式更节约计算资源,因此本文采用了先进行DBF再匹配滤波的处理方式,如图1所示。

001.jpg

2 MIMO雷达信号处理的硬件架构

  2.1 核心平台介绍

  C6678是基于KeyStone构架的高性能多核DSP,片内集成了8个C66x处理器核,每个核都支持定点和浮点处理功能。其主要性能指标是单核最高工作频率1.25 GHz,基于C66x 定点/浮点处理器核,累计处理速率高达10 GHz,单核最高可达40 GMAC的定点计算能力和20 GFLOPS的浮点运算能力;存储器空间为每个核32 KB L1P、32 KB L1D、512 KB L2、4 096 KB多核共享存储区MCSM、8 GB可寻址的DDR3存储地址空间;在处理器内部支持高效EDMA3传输方式,可在处理器内部存储空间L2、共享MCSM、外部DDR3之间进行高效的数据传输;集成了x4 Serial RapidIO、x2 PCIe、x4 Hyperlink、x2 ethernet等众多高速通信接口,允许与其他处理器节点进行高效的数据交换;支持多种基于信号量的通信机制进行核间通信[9]。C6678的多核结构不仅缩小了硬件规模,而且还降低了整体功耗,其核间任务调度及高性能程序优化器、8级并行流水指令集[10]等条件为实现并行信号处理算法提供了有效支撑。

  2.2 硬件架构设计

  本文设计了基于VPX总线的数据采集板和信号处理板组成的信号处理系统平台,核心芯片均为C6678芯片。数据采集板集成了Xilinx Virtex-7系列的高性能FPGA和1片C6678,接口设计为光纤、网络等多种方式,用于数据的接收和预处理。信号处理板采用8片C6678构成计算密集型结构,用于完成MIMO多通道并行的信号处理算法。系统结构示意图如图2所示。

002.jpg

3 算法的并行实现

  3.1 算法映射模型

  3.1.1 基本模型介绍

  应用多核处理器的第一个步骤就是确定任务并行性,并选择一种最合适的处理模型。两个最主要的模型分别是主/从模型和数据流模型。主/从模型是集中控制,分布式执行,主核负责把任务分配到其他核,从核之间没有通信;数据流模型就是分布式控制和执行,任务分级流水执行,核之间有相互通信[10]。本系统采用了两种方式结合的方式,其中各个板卡内部采用了主/从处理模型,板卡之间采用了数据流模型。

  3.1.2 算法分割及映射

  本实验系统采用8个发射天线和8个接收天线分置的结构,接收波束为7个方位,发射波束为7个方位。数据量为4K点,相干处理周期为8,动目标处理时的FFT点数为16,脉冲重复周期为2 ms。功能模块实现接收波束形成、匹配滤波、等效发射波束形成、动目标处理、目标搜索和目标跟踪的处理功能,进而获得目标的距离、角度和速度信息。图3为处理流程框图。

003.jpg

  任务的分解是:Task A为公共数据收发和准备及同步控制触发;Task B为数据格式的预处理及接收DBF;Task C为公共数据收发和准备及同步控制触发;Task D为匹配滤波、发射DBF杂波抑制、相参积累、目标搜索或者目标跟踪。

004.jpg

  具体的算法映射如图4所示,数据采集板上DSP的所有核加载同样的一个工程 ,完成Task A和Task B;信号处理板所有的核加载同样的一个工程,完成Task C和Task D。数据流向是数据采集板的DSP0-Core0完成Task A,Core1~Core7 分别完成Task B,然后通过板间IPC把数据传送到信号处理板的DSP0~DSP6,通过Task C之后进行Task D,然后再把数据送回数据采集板的Core0。

  3.2 关键技术及方法

  3.2.1 通信与同步

  在进行接收DBF和发射DBF之前需要进行多核同步。TI提供了多种成熟的IPC接口,本设计中采用了效率比较高的Notify Module 进行同步。Core0循环接收外部传输过来的原始数据存储到DDR3之中,每次接收到的数据分别向Core1~Core7发送一个Notify消息,Notify消息并不在多核之间进行数据的拷贝,仅进行共享内存数据的所有权转移,极大地节省了多核间通信的时间。每个Core的TaskB任务收到Notify消息后,直接从对应的DDR3共享内存地址中读取数据即可。

  在板间传输数据需要进行板间的通信和同步,TI没有提供DSP节点之间的IPC,因此在本系统中自行开发了DSP间IPC。首先开发了RapidIO底层驱动,然后通过RapidIO接口进行系统路由配置,之后完成IPC驱动的搭建,它完成的功能是进行DSP的DDR3之间的数据拷贝。

  3.2.2 核内数据传输

  每个核内部采用了DMA方式实现MCSM存储区和DDR3之间的通信,这种方式传输速率比较稳定。C6678处理器内部集成了3个高速的EDMA控制器,允许在处理器内部的存储区之间进行不需要处理器参与的高速数据传递。本信号处理算法中,每个核启动独立的EDMA3传输通道分次将DDR3中的数据传输到MCSM/L2中进行计算,之后再将计算结果通过EDMA3传输通道从MCSM/L2传输给DDR3。

005.jpg

  L2、MCSM和DDR3之间的EDMA3通信性能在采用查询方式下的测试结果如表1所示,测试结果为100个周期的平均值。

006.jpg

  3.2.3 高速缓存一致性考虑

  C6678处理器核设计了二级Cache。当处理器核访问内存中的一段地址时,存在两种可能,即Cache命中或Cache缺失。Cache命中时处理器核可以快速直接从Cache中获取内存数据进行处理。Cache缺失时,处理器核就需要花费较长的时间先将数据从内存调入到Cache中,再从Cache中获取数据进行处理。处理器的这种内存访问机制就带来了Cache和内存的数据一致性问题。在本信号处理算法中,Cache一致性问题发生在以下情况:(1)多处理器核对MCSM或DDR3中一段数据进行共享访问;(2)有EDMA3参与的对MCSM或DDR3中一段数据的访问。当发生此两种情况时,需要执行Cache一致性操作,以确保数据访问的正确性。

  3.2.4 基于平台的算法优化

  设计中除了采用了通常的代码优化准则外,基于平台的优化主要包括以下几个方面:数据存储区采用兵乓结构,使得数据传输和算法计算可以同时进行;算法模块采用细粒度设计,通过CCSV5提供的高性能编译优化参数,并告诉编译器更多关于数据的信息;使用内联指令做SIMD的处理;存储区和Cache 优化设计。这些优化方法的综合利用比不进行优化的效率提高达约50倍。

4 实验评估及分析

  ADSP-TS201S几乎是ADI公司的最高性能信号处理器,也是当前雷达信号处理领域主流的硬件平台的核心,采用其搭建的平台(1块带有4个DSP的预处理板,8块带有8个DSP的信号处理板)与TMS320C6678的搜索处理关键算法的测试性能对比如表2所示,测试结果为100个周期的平均值。首先是TMS320C6678降低了硬件规模从而降低了成本,其次提高了效率,还有就是共享存储区的运用减少了传输延迟。整体时间比为4.5:1。

  由实测结果可见,TMS320C6678平台由于其高性能的多核处理方式,适合MIMO雷达信号处理这类需要同步进行并且实时处理的场合应用,但也应注意到C6678的存储区较小,对于大数量的使用(大于4K点)可能达不到预期的加速比,还有待于进一步验证。该MIMO雷达信号处理系统在工程样机中运行良好,通过小规模硬件系统和较低的功耗达到了信号实时处理和运算快速准确的要求。

  参考文献

  [1] Li Jian.STOICA P.MIMO radar signal processing[M].John Wiley & Sons,Inc.,2009.

  [2] 陈浩文,黎湘,庄钊文.一种新兴的雷达体制—MIMO雷达[J].电子学报,2012,40(6):1190-1198.

  [3] 高广坦.基于TS201平台的雷达信号处理机设计[J].信息化研究,2010,36(11):17-19.

  [4] 周滨,谢晓霞,傅其祥,等.基于多DSP的高速通用并行处理系统研究与设计[J].电子设计工程,2012(17):175-178.

  [5] 史鸿声.基于PowerPC的雷达通用处理机设计[J].雷达科学与技术,2011,9(2):140-149.

  [6] 彭益智,霍家道,徐伟.一种基于TMS320C6678的JPEG编码算法并行实现方法[J].指挥控制与仿真,2012,34(1):119-122.

  [7] 吉立新,刘伟伟,李邵梅.基于TMS320C6678的语种识别并行算法设计与实现[J].电子技术应用,2012,38(10):37-40.

  [8] 叶胜辉.正交波形MIMO雷达技术及其在双基地雷达中的应用[D].成都:电子科技大学,2006.

  [9] Texas Instrument.TMS320C6678 multicore fixed and floating-point digital signal processor[Z].2011.[10] Texas Instrument.Multicore programming guide[Z].2009.

此内容为AET网站原创,未经授权禁止转载。