《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > TD-LTE系统中Turbo译码算法及DSP实现
TD-LTE系统中Turbo译码算法及DSP实现
来源:电子技术应用2012年第10期
彭德义, 李小文
重庆邮电大学 移动通信技术重点实验室,重庆 400065
摘要: 在TD-LTE系统中,Turbo码以其优异的纠错性能而备受关注。针对传统Log-Map算法译码复杂度大且时延长的缺点,提出一种简化的Log-Map算法。在高斯白噪声信道(AWGN)环境下,对各种Turbo译码算法性能进行了仿真比较,并对提出的简化译码算法在TMS320C64xDSP中进行实现。译码程序在CCS3.3的运行结果表明了该方案的实时性和有效性。
中图分类号: TN929.5
文献标识码: A
文章编号: 0258-7998(2012)10-0106-03
Turbo decode algorithm and DSP realization in TD-LTE system
Peng Deyi, Li Xiaowen
School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications, Chongqing 400065,China
Abstract: Turbo code is highly accepted for its excellent rectifying performance in TD-LTE (Time Division-Long Term Evolution) system, concerning to the high decoding complexity and the long time delaying of traditional Log-Map algorithm, a simplified Log-Map algorithm was proposed. this paper compared a variety of Turbo decode algorithms through simulation in the atmosphere of AWGN, and realized the proposed simplified algorithm in the TMS320C64x DSP. The running results of the decoding program in CCS3.3 verify that the scheme is feasible and effective.
Key words : LTE(Long Term Evolution); Turbo decode; log-map algorithm; DSP realization

    PCCCTurbo码又称为并行级联码(Parallel Concatenated Convolutional Code),在TD-LTE系统发送端编码过程中引入随机交织器,充分考虑Shannon编码定理而获得接近理论极限的性能[1]。故在接收端可以采用一种软输入软输出迭代译码算法,充分利用译码输出的软信息来逼近最大似然译码性能[2]。TD-LTE系统要求高速数据业务,传输数据业务量大,而软迭代译码的计算复杂度随着数据量的增加而快速增大。目前Turbo译码器中的分量译码器的实现算法有Log-Map算法和Max-Log-Map算法。前者能获得最好的译码性能,但是其实现复杂度过高;后者对其进行改进,但是实现复杂度仍然很高。本文在Max-Log-Map算法的基础上进行改进,提出一种简化的Log-Map算法,该算法在满足系统性能要求的前提下,大大降低了实现复杂度。

    TMS320C64x最初主要是为移动通信基站的信号处理而推出的超级处理芯片,该芯片属于高速定点DSP,最高时钟频率为1 GHz,处理性能达8 000 MIPS,比传统DSPs要快一个数量级,因此在测试仪表的开发领域有广阔的应用前景[3]。该系列DSP最主要的特点是在体系结构上采用了甚长指令集VLIW(Very Long Instruction Word),由一个超长的机器指令字来驱动内部的多个功能单元。由于每条指令的字段之间相互独立,故可单周期发射多条指令,从而实现更高的指令级并行效率。该系列DSP芯片的大容量、高运算能力等优点使其在无线基站、终端等场合广泛应用,特别是运算精度能满足测试仪表的开发条件。所以本文重点研究Turbo译码算法在TMS320C64x上的软件实现。
1 传统的Turbo译码算法
    针对Turbo译码,目前的软输入软输出迭代译码算法都是基于BCJR算法的推导过程,用于Turbo译码的MAP译码器就是求解下面的似然信息[4]。


 

导过程可以看出,本文所提的简化算法的计算复杂度性能明显优于Max-Log-Map算法。
3 DSP实现及测试性能分析
3.1本文简化算法的DSP实现

    输入到Turbo译码模块的是解子块交织后的三路数据,且以软信息的形式存放在内存当中(每个软信息占据8 bit的内存空间)。具体函数调用如表1所示。


    (2)迭代译码:将组装得到的rec_s1和初始化为全零的L_a1调用Log-Map子函数计算得到该译码器的输出对数似然比L_ma1,并对其进行交织处理得到L_a2,然后将rec_s2和L_a2调用Log-Map子函数计算得到第二个译码器的输出对数似然比L_ma2,再将其进行解交织处理得到L_a1。判断是否达到总的迭代次数,若未达到预设的迭代次数,则继续进行该步骤;否则转至(3)。
    (3)译码判决:将迭代之后的对数似然信息进行判决,大于0则判为1;小于0则判为0。
3.2 CCS3.3环境下性能分析
  在进行DSP软件设计时,需要对程序进行优化,尽量减少或者消除程序中的“NOP”指令,特别是循环体内的“NOP”指令。通过在CCS3.3上进行程序的仿真运行,从中频接收数据,统计得到各种情况下译码过程的执行结果,如表2所示。

 

 

    表2仅列举了几种典型的数据长度,且不失一般性,总体性能基本不会受输入数据长度的约束。通过分析可以看出,在相同的译码输出长度的情况下,处理时间的耗费量与迭代次数是正相关的,迭代次数越大,译码性能越好,但处理时延越长;在相同的译码迭代次数的情况下,根据标准规定的传输块大小与调制阶数有关(本文仅以两种不同调制方式下的传输块大小为例),16 QAM调制方式下的处理时间耗费明显高于QPSK调制方式,这是由于16 QAM用于处理大传输块,占用的内存空间也相应地增加。TMS320C64x芯片的主频为1 GHz,一个指令周期耗时1 ns,故本文提出的译码算法DSP实现可以达到一定的译码速率,且误比特率相当低,满足TD-LTE综合测试系统的性能要求。
    本文从Turbo译码理论出发,为适合TD-LTE综合测试系统的传输数据业务量大且译码时延特性要求高的特点,针对传统Turbo译码算法实现复杂度高的缺陷,提出一种简化的Turbo译码算法。通过Matlab链路级仿真比较,所提简化Turbo译码算法保证了良好的译码性能,同时对所提简化算法在TMS320C64xDSP中进行实现。从译码程序运行的结果来看,该算法具有较低的误码率和较高的译码运行速率,能够满足TD-LTE系统的性能需求。由于其实现具有可行性和高效性,该实现方案已应用于TD-LTE无线综合测试仪器的开发当中,效果良好。
参考文献
[1] (美)林舒,科斯特洛.差错控制编码(原书第二版)[M].晏坚,何元智等,译.北京:机械工业出版社,2004:515- 543.
[2] BERROU C, GLAVIEUX A, THITIMAJSHIMA P. Near  shannon limit error-correcting coding and decoding: Turbo code[C]. in Proc. IEEE International Conference Communications, 1993:1064-1070.
[3] Texas Instruments Incorporated.TMS320C6000系列DSP编程工具与指南[M].田黎育,何佩琨,朱梦宇,译.北京:清华大学出版社,2006:32-50
[4] 陈发堂,李小文,王丹,等.移动通信接收机设计理论与实现[M].北京:科学出版社,2011:121-135.
[5] LEE S J, SHANBHAG N R. Area-efficient high-thrughput  MAP Decoder Architectures[J]. IEEE Transaction on Very Large Scale Integration(VLSI) Systems,2005,13(8):921-931.
[6] 冉静, 廖艳, 郑建宏. Turbo译码算法研究及其性能分析[J].重庆邮电学院学报,2001,13(3):17-21.
[7] 3GPP TS 36.212 v9.0.0 Evolved Universal Terrestrial Radio Access (E-UTRA) Multiplexing and channel coding (Release 9)[S]. 2009-12:9-18.

此内容为AET网站原创,未经授权禁止转载。