《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 解决方案 > ECC 为移动设备提升可靠性和能效

ECC 为移动设备提升可靠性和能效

2017-06-28

       图片1.png纠错代码 (ECC) 不仅可以增加存储密度和带宽,还能保持功耗中性和可靠性。本白皮书将详细介绍个中原因以及美光 LPDDR4/LPDDR4x 如何实现 ECC 的承诺。

LPDDR 存储的发展历程
       随着新的移动设备应用不断增多,手机和平板电脑设计师始终面临这样一种挑战,那就是如何在不影响电池续航时间的情况下增加存储吞吐量。
2014 年推出的 LPDDR4 标准与 LPDDR3 相比,数据传输速率高出一倍,工作电压有所降低,既能提高性能又能延长电池续航时间,使移动用户的体验得到显著改善。2016 年推出的
LPDDR4x 可提供比标准LPDDR4 存储高出多达 20% 的能效,进一步延长了电池续航时间。

图片2.png

图 1:移动平台的峰值吞吐量

       LPDDR4    存储对于可穿戴电子设备之类的物联网应用非常重要,因为功耗是这些应用的关键设计约束因素之一。对于汽车应用,LPDDR4  的高带宽和功耗优势使之成为车载子系统(如中央控制台和高级驾驶员辅助系统(ADAS))的理想选择。

DRAM 发展面临的挑战

LPDDR4  规范旨在适应DRAM   加工技术的不断发展,其中包括缩小存储单元的尺寸。为了在更小的空间内保持相同的单元电容,需要运用更复杂的制造工艺。随着单元尺寸的缩小,单元接入设备的功能弱化,位线和列线的电阻逐渐增加,而这两点都会导致每个存储单元达到最高蓄能的用时增加。由于这些因素的影响,制造商要在过渡到新工艺的同时保持良率和可靠性会越来越困难。
单比特错误

限制 DRAM 良率的主要因素是单比特错误。在这些错误中,有一小部分可能是“硬”故障位,即比特位卡在 1 或 0。此类故障都需要使用冗余元素进行修复。当然,大多数情况下发生故障的单比特位都很微不足道;只要它们的刷新频率足够高或写入时间较长即可正常工作。
修复这些位(在阵列中仅占很小比例)需要增加冗余元素的数量,而这会导致芯片的尺寸增大、复杂性提高。需要注意的是,DRAM 写入恢复时间 (tWR) 以及 64ms 或 32ms 刷新规范的设定非常保守,旨在使大部分弱位都能通过。若没有这些弱位,刷新和 tWR 规范就可以大幅放宽,从而带来性能和功耗方面的优势。
可变刷新时间位

随着各项工艺的缩减,另一个日益普遍的现象是可变刷新时间位(即  VRT   位)故障。这是一种偶然发生的随机单比特故障,发生的原因在于 DRAM 加热(即执行焊接回流以装配插件)后,它们的刷新时间会发生变化。尽管这些VRT 位较为罕见,但若在 DRAM 通过制造商的最终测试之后发生此类故障,将会非常麻烦,因为此时修复已经非常困难甚至无法进行。
为了降低封装后维修或报废零件的成本,保持可接受的现场故障率,DRAM 制造商目前会在比规范要求严格得多的条件下测试存储位。这样做的目的是预先找到可能发生故障的VRT      位。

虽然这种测试在很大程度上是有效的,但却会降低良率。更加严格的测试可能导致严重的“过度杀伤”,因为在识别真正的 VRT 芯片的过程中,将有大量实际上并不会产生 VRT 故障的芯片被丢弃。此外,任何测试都不是完美的,有些 VRT 可能逃脱,最后仍会到达 OEM 那里。鉴于 VRT 位一直以来造成的这些问题,存储制造商需要实施新技术来提高未来设备的可靠性并控制其成本。

图片3.png缩小存储单元导致存储制造商面临的挑战加剧。存储制造商需要实施新技术来提高未来设备的可靠性并控制其成本。ECC 就是这样一种技术,美光科技将ECC 应用到了移动LPDRAM 中。

ECC 技术提供了一种有效的方法来消除随机单比特错误, 从而提高系统可靠性。

纠错代码的优势

纠错代码  (ECC)  是一项成熟的存储技术,被广泛用于各种应用以提高可靠性。ECC  利用汉明码为存储

IC 提供更高水平的冗余。汉明码会生成少量奇偶校验位,与用户数据一起存储在存储阵列中。借助汉明码,可以用少量比特位来保护更长的数据字。例如,美光科技的 LPDDR4 设备使用 8 个奇偶校验位为 128 位数据字提供纠错。这些奇偶校验位可用于检测和纠正 128 位数据字中的单比特错误。
纠正单比特错误

每次数据写入存储时,相关的奇偶校验位便会随之更新。读取数据时,DRAM 会验证整个 136 位
(128 个数据位+ 8 个奇偶校验位)代码字的完整性。如果检测到单比特故障(例如,装配后出现一个 VRT 位),ECC 将自动纠正该错误。鉴于同一代码字中出现两个单比特错误的可能性极小,可以说ECC   技术提供了一种有效的方法来消除随机单比特错误。

由于 ECC 是一项被动技术,因此它会自动检测并纠正错误,无需开发人员干预。此外,纠正过程对系统的其余部分完全透明。
降低总体拥有成本

在 LPDDR4 中加入  ECC  的另一个优势在于,从功耗、性能和成本角度考虑,它可以降低总体拥有成本 (TCO)。例如,在 LPDDR4 中加入 ECC 会使有功功率略有提高(约 5-7%)。这是因为存储和处理

ECC  校验位奇偶所需的存储位和逻辑电路增加了。同时,ECC  可以大幅降低待机和刷新功耗。设备处于睡眠模式时,基于 DRAM 的存储需要定期刷新,以替换各个存储单元中的泄漏电流。ECC  的使用可以增加可靠性,从而使 DRAM 能够降低自刷新率。对大多数低功耗应用而言,面对 ECC  带来的可靠性提升及出色的待机效率,有功电流的小幅增加已经无关紧要了(参见图 2 和图 3)。

图片4.png

图 2:LPDDR4 功耗对比(低功耗使用案例)

图片5.png

图 3:LPDDR4 功耗对比(中高功耗使用案例)

高效节能
       采用ECC 的LPDDR4 的出色能效还有助于 OEM 在迁移或过渡到新一代移动设备时实现功耗中性;换言之,他们可以提供更强大的功能,而不需要更大的电池,也不会对工作寿命产生负面影响。

图片6.png

DRAM 的故障率取决于多种因素,包括 SOC、散热设计、DRAM 密度、DRAM 工厂工艺和测试。单比特错误是最常见的已确认故障根源。ECC  能够有效处理单比特故障模式,显著增强系统可靠性和早期使用期限故障率  (ELFR)  性能。

       在性能方面,采用ECC   技术会使读取延迟略有增加,但仍在指定读取延迟值的范围之内。此外,为了使   DRAM   时间能够计算奇偶校验位,还需要增加写入延迟。此时间已体现在18ns 的tWR 规范中(与适用于LPDDR3 的 15ns 规范相比)。
       有些业内人士已考虑迁移至 45ns 的 tWR 规范以解决扩展问题。纳入 ECC 技术可以减少在 LPDDR4  规范中增加此时间的必要性。除了可以弥补读取延迟少量增加造成的性能损失,免于增加tWR   还会带来其他好处。
       ECC 还需要小幅增加芯片大小,来容纳奇偶校验位和 ECC 逻辑。不过,它为 OEM 带来的高可靠性以及为   DRAM   制造商带来的高良率和低测试成本足以弥补这部分成本。
另外,ECC 还可以改善 LPDDR4 在高温下的性能。温度每升高 10 ℃,DRAM 的刷新要求会增长约一倍,DRAM 的标准最高温度是 85 ℃。移动 DRAM 也不例外;尽管通常支持高达105 ℃ 的工作温度,但指定刷新率针对的温度是 85 ℃。当工作温度为 85-95 ℃ 时,存储控制器提供的刷新率(tREFI) 必须增加一倍;当工作温度为 95-105 ℃ 时,则必须增加三倍。这意味着,在 95-105 ℃ 下工作的 8Gb LPDDR4 存储需要用 18% 的时间运行全存储体刷新命令(这部分时间不能用来执行实用功能),而且还会消耗大量电源。或许可以在后台执行单存储体刷新,但刷新过程几乎不能间断。当然,随着未来的设备密度越来越高,这种情况会变得更糟。
       由于设定的刷新率非常保守,采用ECC 的 DRAM 大约可按规范中所规定刷新率的四分之一进行刷新。这样可以节约大量能耗,尤其是在高温条件下。除此之外,它还能减少上述性能影响,尽管这会导致目前的JEDEC  规范发生变化。
对于工作温度需要达到 105 ℃ 以上的汽车或其他应用,采用ECC 的DRAM 可能是唯一可行的选择。采用 ECC 的 LPDDR4 设备可以在 115-125 ℃ 的温度范围内正常工作,并能提供非 ECC 设备在 95-105 ℃ 温度范围内提供的刷新性能。此温度范围正是使用了边缘存储解决方案(microSD    卡)的企业级部署所具备的典型系统特征。

总结
       为了跟上当今移动、汽车和物联网应用的发展步伐,开发者和存储制造商持续面临着如何在增强存储性能的同时兼顾功耗和可靠性的挑战。缩小芯片尺寸给制造工艺带来的难题往往会影响存储可靠性,使得满足上述要求变得更具挑战性。
美光科技采用 ECC 技术的 LPDDR4 和 LPDDR4x 存储提供了一种有效的方法来消除其中一些挑战,同时为当今的新一代设备提供了高带宽和功耗优势。通过采用 ECC,可以自动检测和纠正单比特错误, 从而提高可靠性。待机和刷新功耗有所降低,因而可实现新一代设备所需的低功耗功能。高温条件  下的性能得到提升,使工作温度较高的汽车及其他应用可以实现所需的功耗中性。
       欢迎联系您的美光销售代表,或访问 micron.com/lpdram,探索采用 ECC 的美光 LPDDR4/LPDDR4x 存储如何为您带来实现高性能、低功耗的机会。