DPU芯片数据中心奇袭Intel，不止英伟达一个-AET-电子技术应用

DPU芯片数据中心奇袭Intel，不止英伟达一个

日期： 2021-04-13

来源：与非网

关键词： 英伟达 DPU

　　去年秋天，英伟达宣布推出一款新型处理器DPU，黄仁勋的带货原话是：“数据中心已成为新型计算单元。在现代化、安全的加速数据中心中，DPU 已成为其重要的组成部分。CPU、GPU 和 DPU 的结合，可构成完全可编程的单一AI计算单元，提供前所未有的安全性和算力。”

　　DPU作为面向数据中心的专用处理器，是否真的有望成为继CPU和GPU之后的第三颗算力芯片？

　　为什么需要DPU？

　　微信图片_20210413103612.jpg

　　图源 | PC Magazine

　　CPU负责通用计算、GPU负责加速计算已经成为绝大部分数据中心的常态。用于加速计算的GPU，将计算密集型任务从CPU中分离出来，CPU继续发挥通用计算和逻辑运算的能力，将并行计算、机器学习和AI计算等任务交给GPU处理。

　　随着数据中心向软件定义的趋势发展，它在变得更加灵活的同时也将承受更大的负担，基础架构的运行将消耗20%-30%的CPU核心。这也意味着，新的分工体系需要更加细分的“工种”，为CPU“减负”。

　　正如GPU受图形图像需求的驱动发展，DPU（Data Processing Unit，数据处理器）的产生背景是端边云一体化趋势下，对计算延迟、数据安全、资源虚拟化的需求，而这些功能对于实现对于下一代云上大规模计算至关重要。

　　国内外玩家都有谁？

　　事实上，想在基础网络架构变革中分一杯羹的不止DPU，还有智能网卡（SmartNIC）。我们都知道数据中心服务器之间的网络互联有一套底层软件系统，这套软件需要能完成网络互联协议，除此之外，还需要能跑一套数据中心必备的网络安全系统。传统上，这些处理也跑在CPU上，而随着SmartNIC的逐渐普及，它正在网络安全和网络协议处理方面缓慢地取代CPU。

　　Xilinx去年推出的Alveo U25 就是一款一体化内置可编程FPGA的 SmartNIC ，在单颗器件上实现了网络、存储和计算加速功能的融合。

　　DPU可以看做是SmartNIC的增强版本，一方面加强了SmartNIC对于网络协议和网络安全的处理能力，另一方面整合并加强了分布式存储的处理能力，从而让DPU能在这两个领域更多地替代CPU。

　　这将是一个即将掀起大风浪的领域，挤满了摩拳擦掌的选手们。据不完全统计，国内外布局这一市场的玩家，既有Intel、英伟达、Broadcom、Marvell这样的大厂，也包括Fungible、Pensando等初创企业，其中几家大厂近些年的几宗收购，也在围绕这一领域展开。

　　从技术路线来看，各家方案有所不同。Intel、Broadcom都是面向交换机、路由器芯片，Intel基于FPGA，Broadcom基于Arm架构；英伟达侧重于数据安全、网络、存储卸载，主要基于所收购的Mellanox网络方案及Arm架构实现；Marvell主要面向5G带宽，通过收购Cavium获得的可编程芯片技术和Arm架构形成方案；Pensando和Fungible两家创企，前者面向支持P4的SDN，方案主要通过软件定义网络处理器实现，后者面向网络、存储、虚拟化，方案基于MIPS架构。

　　国内厂商在这一领域目前有披露的并不多，华为的智能网卡属于DPU的细分，不过智能网卡芯片还未正式宣布；阿里方面，据了解有DPU较为原始形态的产品；还有中科驭数，最近刚刚宣布了下一代DPU芯片计划。

　　冲击千亿量级DPU市场

　　国产芯片加速成长

　　根据Fungible和Nvidia的预测，用于数据中心的DPU量级将达到和数据中心服务器等量的级别。服务器每年新增大约千万量级，一台服务器可能没有GPU，但一定会有一颗或者多颗DPU，好比每台服务器都必须配网卡一样。服务器每年新增大约1500万台，每颗DPU如果以1万元计算，将是千亿量级的市场规模。

　　追溯起来的话，中科驭数的创始团队算是在国内较早进行DPU芯片研发的。该公司创始人兼CEO鄢贵海博士、联合创始人兼CTO卢文岩博士、首席科学家李晓维博士，均来自中科院计算所计算机体系结构国家重点实验室。他们提出了软件定义加速器技术（Software Defined Accelerator），自主研发了KPU（Kernel Processing Unit）芯片架构，并于2019年设计出业界首颗数据库与时序数据处理融合加速芯片，已经成功流片。中科驭数的DPU芯片，正是基于自研的KPU芯片架构，具有网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能。

　　从KPU架构到DPU芯片，中科驭数的关键优势是什么？

　　鄢贵海博士介绍，相较于传统的ASIC或SoC DPU芯片架构，KPU有较高的灵活性，可以通过即时的软件配置来定义芯片内部数据运算逻辑，在保障充沛算力的同时，以最低功耗支撑更多运算负载类型。其KPU定位为“敏捷异构”的专用计算架构，与CPU、GPU、FPGA、ASIC相比，KPU-Drive方案在算力、能效比（TCO）、算法灵活性、边际成本、开发周期等方面优势明显。

　　目前，中科驭数已经积累了8个大类的KPU内核资源，涵盖了时间序列分析、数据查询、加密解密、数据压缩、协议解析等，并在过去两年完成了两代KPU的迭代。KPU也从最初的单个应用算法加速，进化到了集网络、数据库与应用算法的全方位立体化加速体系。

　　再与同类方案做横向对比，中科驭数是否有独特优势？

　　据了解，同类DPU方案类型大致可以概括为三种：一是以通用众核为基础的同构众核DPU，例如Broadcom的Stingray架构，以多核Arm为核心，以众取胜，可编程灵活性较好，但是应用针对性不够，对于特殊算法和应用的支持，与通用CPU相比并无太显著优势；二是以专用核为基础的异构核阵列，这种架构的特点是针对性较强、性能较好，但是牺牲了部分灵活性；第三种路线是以上二者的折中，且专用核的比重越来越大，正在成为最新的产品趋势，以英伟达的BlueField2系列DPU来看，就包括4个Arm核及多个专用加速核区域，Fungible的DPU则包含6大类的专用核，和52个MIPS小型通用核。

　　“不同于Broadcom、Fungible等国外芯片厂商，中科驭数的DPU没有采用原来众核为主的架构，而是将重点放在异构核上，以针对性算法加速为核心，通过KPU架构来组织异构核。在KPU架构下，中科驭数研发了芯片级完善的L2/L3/L4层全网络协议处理核，推出了直接面向OLAP、OLTP及类SQL处理的数据查询处理核”，鄢贵海介绍。

　　这样带来的好处是，更高效的数据处理效率、获得更直接的使用接口，以及更佳的虚拟化支持，这些特性对于金融科技、数据中心、混合云及边缘计算等高带宽、低延迟、数据密集型的计算场景都尤为重要。

　　以KPU架构为核心，在2019年流片第一颗芯片K1的基础上，中科驭数下一颗芯片K2预计今年年底流片。从目前曝光的芯片架构来看，功能层面包括L2/L3/L4层的网络协议处理，可处理200G网络带宽数据；融合了数据库、大数据处理能力，直接面向OLAP、OLTP及大数据处理平台，如Spark等；此外，还囊括机器学习计算核以及安全加密运算核。

　　微信图片_20210413103714.jpg

中科驭数K2芯片架构

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

DPU芯片数据中心奇袭Intel，不止英伟达一个

日期： 2021-04-13

来源：与非网

相关内容