《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > AET原创 > eFPGA又有大更新,Achronix 专为AI / ML应用推出Speedcore Gen4 eFPGA IP

eFPGA又有大更新,Achronix 专为AI / ML应用推出Speedcore Gen4 eFPGA IP

2018-12-09
王洁
电子技术应用

随着人工智能AI)、机器学习(ML)等对数据处理能力要求的提升,处理器核心数量的倍数增加并不能带来计算能力的倍数增加,嵌入FPGA的SoC则可以带来更快数据处理能力,同时功耗也更低。

近日,基于现场可编程门阵列(FPGA)的硬件加速器器件和高性能嵌入式FPGA半导体知识产权(eFPGA IP)领导性企业Achronix半导体公司发布了专为AI/ML应用设计的第四代Speedcore eFPGA IP,Achronix 公司市场营销副总裁Steve Mensor在媒体发布会上为大家解读了Speedcore Gen4 eFPGA IP的全新优势。

Steve.jpg

Achronix 公司市场营销副总裁Steve Mensor

对于AI、ML应用来说,摩尔定律在减速,而同时固定和无线网络带宽在急剧增加,处理能力走向边缘,以及数十亿物联网设备的出现,意味着将带来每秒数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能。

算力变化.jpg

Steve认为:“算力的提升来自针对特定应用和数据集的体系结构。未来的微处理器将包括几个仅能很好地执行某一类计算的特定域的核,它们的性能会优于通用核。”

Steve认为,不同应用对于计算的要求不同,如计算加速要求高能耗比,边缘计算要求最低功耗,计算存储需要低功耗低成本,5G要求低功耗高性能的可编程芯片,网络加速和智能卡需要用于CPU卸载的高速率加速器,汽车驾驶需要低成本和低功耗的硬件加速。这些应用提出了一些共同的要求:高性能、低功耗、可编程的硬件加速器。

“FPGA是最适合AI/ML应用的硬件加速方式。” Steve说道,“CPU在通用灵活性方面最佳,ASIC在专用领域最强,但应用上不够灵活。GPU和FPGA是最适合AI/ML应用的,相比较,GPU更适合云端计算,FPGA更适合边缘计算。”

FPGA优势.jpg

Speedcore Gen4 eFPGA IP在增强的逻辑单元、Speedcore下一代的路由结构、AI/ML专用的DSP单元MLP三方面的进行了优化,性能得到了跨越式提高,且更适合AI/ML应用。

加强逻辑单元.jpg

Speedcore Gen4针对硬件加速做了很多架构上的改变,用于加减、比较的ALU从4-bit提高到8-bit;机器学习算法通常用到的MAX()Bus maximum function 有8-bit,可以快速进行比较;LUT从4输入扩展到6输入,一些7输入和8输入函数在一层的逻辑就可以实现。

下一代路由架构.jpg

路由架构借由一种独立的专用总线路由结构得到了增强。此外,在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。

MLP.jpg

在Speedcore Gen4架构中,Achronix将机器学习处理器(MLP)添加到Speedcore可提供的资源逻辑库单元模块中。MLP模块是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件(Cyclical Register File),它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。

MLP模块与存储器紧密耦合,可以为人工智能和机器学习(AI / ML)应用提供了性能/功耗比最高和成本最低的解决方案。

倍频.jpg

为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。

通过这些改变和加强,与上一代相比,Speedcore Gen4将性能提高了60%、功耗降低了50%、芯片面积减少65%,同时保留了原有的Speedcore eFPGA IP的功能,即可将可编程硬件加速功能引入广泛的计算、网络和存储应用,实现接口协议桥接/转换、算法加速和数据包处理。

据Steve介绍,第四代Speedcore eFPGA 7nm IP 目前已可提供,Achronix可在6周内为客户配置并提供Speedcore eFPGA IP和支持文件。采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,现在已经可以提供软件和支持其特定需求的Speedcore Gen4实例。此外,Achronix还将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。