《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > 更快地提供“AI”:AIML 处理器设计的设计方法

更快地提供“AI”:AIML 处理器设计的设计方法

2022-05-23
来源:网络
关键词: AI AIML 处理器

我们正处于人工智能 (AI) 处理将迅速发展并变得无处不在的时代的开端。虽然人工智能的概念——赋予机器模仿认知功能以学习和解决问题然后采取行动的能力——自 1950 年代中期以来一直是一门学科,但直到最近五年,人工智能处理,主要是以机器学习 (ML) 的形式,可以走出昏暗的研究大厅和一次性的超级计算机,转向实际的日常使用。为什么?

仅从互联网和数十亿智能设备产生的数据量就为我们提供了足够的数据来收集大量数据集,我们可以使用这些数据集进行 ML 过滤和训练基于 ML 的系统以供使用。此外,今天我们在智能设备和高带宽通信基础设施中拥有足够的无处不在的高性能计算能力,可以快速处理和传输海量数据集。这种计算能力还为我们提供了为特定任务开发更复杂、更专业的算法的画布,进一步扩展了 AI/ML 的应用。

更重要的是,今天有许多杀手级应用程序,从加速的信息基础设施和数据中心到数十亿的边缘设备,AI/ML 处理可以使智能产品变得更智能——甚至是自主的。AI/ML 已经被用于数据中心、数据挖掘、医学成像分析设备、汽车 ADAS 和自主系统、计算机视觉系统、机器人和移动设备,例如最新的智能手机。AI/ML 技术的商业和创新机会似乎是无限的。

这种指数级 AI/ML 演进的核心将是为更智能的片上系统 (SoC) 和更智能的 AI 驱动的独立处理器开发专门的 AI/ML 处理器 IP。对 ML 半导体初创公司的投资远远超过对任何其他半导体领域的投资,包括 5G 和加密货币。 

提供创新的 AI/ML 处理器 IP 和 IC 需要工程团队使用更新、更快的工具来增强他们的设计方法。幸运的是,EDA 行业也在拥抱 AI/ML,并开始将其整合到其工具中,以使它们更准确、更快。让我们看看 AI/ML 处理器设计的方法论挑战,然后看看 Mentor 等 EDA 公司正在做些什么来帮助工程师更快地交付更智能的创新。

AI/ML 处理器设计挑战
AI/ML 在很大程度上是一门数学和软件工程学科——数学家使用数学工具开发算法并将算法转换为 C++ 代码以在处理器上执行。在标准单线程微处理器上运行算法一直是一个挑战,因为算法的某些部分可能无法以最佳方式运行。

为了克服这一瓶颈,公司在过去五年中转向了加速器架构。其中最早将多用途/现成的 MPU 设备与多用途/现成的 GPU 或现场可编程门阵列 (FPGA) 配对,以更有效地执行并行处理。随着加速器架构的进步,公司已经开始将 GPU 和 FPGA IP 块集成到他们的 SoC 中。其中最早使用 2.5D 硅中介层或系统级封装 (SiP) 配置。

在任何这些配置中使用通用 GPU 和 FPGA 都会在功率、热量和性能方面进行一些重大权衡。为了减轻这些权衡,许多公司,尤其是初创公司,已经开始开发专门的 AI/ML 处理器架构,以将 IP 集成到边缘设备的 SoC 中——作为物联网 (IoT) 的一部分——以及开发用于数据基础设施(服务器、数据中心等)的庞然大物专用独立 AI/ML 处理器,以使它们更高效地执行特定任务。甚至提供 GPU 和 FPGA 等标准产品的公司也在开发更专业用于 AI/ML 处理的衍生产品。

架构
AI/ML 处理器 IP 和 IC 设计具有某些对传统工具流程征税的特征。传统上,IC 设计流程从寄存器传输级别 (RTL) 开始,其中硬件设计团队使用 SystemVerilog 或 VHDL(VHSIC 硬件描述语言)等硬件描述语言开发其 IP 或 IC 设计的逻辑。

然而,许多 AI/ML 架构一开始是一个复杂的算法,需要工程团队从开发算法的 C++ 表示开始。然后,他们必须发现他们算法的哪些部分在通用处理器上的软件中运行得最好,哪些部分运行缓慢,这样他们就可以让硬件工程师开发独特的逻辑块来加速算法中较慢的部分,从而提出优化的系统架构。以 RTL 优先的方法开发独特的硬件(手动开发 RTL)是一个漫长的过程,并且可能会限制设计团队集中在最佳 SoC 架构上以运行其目标算法的可能性。

幸运的是,现在有高级综合工具使公司能够直接从他们的 C++ 代码快速开发硬件逻辑。例如,使用 Xilinx Zynq SoC 开发板(在同一芯片上具有 Arm 处理器和 FPGA 逻辑),设计团队可以在 Xilinx Zynq SoC 的嵌入式 Arm 处理器上运行算法,并分析算法的哪些部分运行缓慢仅在处理器上运行。然后,他们可以将这些慢速部分实现到硬件逻辑中,以查看性能是否有所提高。他们可以调整算法或调整硬件/软件逻辑组合,并使用 C++ 综合来生成软件和硬件的多个实例,这比使用 RTL 流程要快得多。 

容量
AI/ML 处理器 IP 和 IC 包括许多独特的切片层来存储训练数据。然后,他们利用推理得出结论(正确识别对象、识别模式和数据序列等)并进行处理以触发动作。瓦片和处理功能还需要大量的本地化片上存储器。所有这一切都意味着 AI/ML 处理器 IP 和 IC 往往具有大量门数。SoC 可以达到数十亿个门的范围。这对工具容量和性能提出了更高的要求,因为团队仍然需要在合理的时间内执行 IC 设计流程中的各个步骤(最长的最好是一夜之间,大约八小时)。

必须处理这种能力的设计团队越来越多地转向仿真,以对 AI 驱动的 IP 和 IC 执行功能验证。仿真系统可以仿真超过 150 亿个门设计——比软件模拟器多几个数量级的门。此外,仿真使设计团队能够运行 ML 基准套件/框架,以确保他们的设计满足性能预期。由于仿真执行逻辑验证的速度比仿真快一个数量级,它还使公司能够以合理的运行速度开发和测试软件,以确保他们的算法在将设计发送到布局并最终进入制造之前按预期运行。

功率预算
无论 AI/ML 设备是在数据中心内的卡中运行的独立处理器,还是在边缘设备和车辆中运行电池供电的 SoC,功耗都是 AI/ML 开发的主要设计考虑因素。数据中心 AI/ML 应用的关键是每瓦性能 (PPW) — 以最小的能源足迹获得最高性能。数据中心运行和冷却消耗大量能源。

在提高性能的同时减少设备的能源足迹可以为数据中心节省数百万美元的 OPEX,因此具有最佳 PPW 的设备通常会在每一代数据中心中获胜。同样,AI/ML 边缘设备将执行高速计算并需要快速传输数据。这两种操作都对电力征税,如果边缘设备由电池供电,这将成为一个更大的问题。

为了解决这个问题,设计团队需要能够帮助他们在整个设计流程中构建和监控电源效率的工具。在 AI/ML 流程中,这应该从 C++ 架构甚至 RT 层面开始,从逻辑验证综合、布局布线、物理验证和测试的每一步开始。

高速 I/O
无论是数据中心数百万卡的核心,还是物联网边缘的手机或摄像头,支持 AI/ML 的设备都需要快速高效地接收和传输数据。这意味着 AI/ML 设备将需要高速 I/O,甚至可能在数据中心发展为硅光子互连。这意味着绝大多数 AI/ML 处理器实际上也将是混合信号处理器。这将要求公司在 AMS 设计和验证流程的每个步骤中越来越多地使用一流的工具。

为了实现最大性能,这还需要 EDA 供应商和半导体制造商加快硅光子工具的开发,以帮助将硅光子从实验室研究转变为商业现实。为了使硅光子学成为商业现实——同时还要处理摩尔定律对许多应用具有挑战性的事实——设计团队需要更加熟悉替代方案,例如 2.5D、封装设计中的 CoWoS/系统,甚至 3D,以实现越冒险。

AI/ML 现在正在发生,通过一些独创性和协作,我们可以利用 AI/ML 让一切“更智能”更快——甚至是我们的 EDA 工具。我期待看到您在未来几年将提供哪些更智能的创新。

Joseph Sawicki 是 IC 纳米设计和制造挑战方面的专家。Sawicki 以前负责 Mentor 的芯片设计产品,包括 Calibre 物理验证和 DFM 平台以及 Mentor 的 Tessent 设计测试产品线,现在负责管理 Mentor IC 部门的所有业务部门。




1最后文章空三行图片11.jpg


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。