《电子技术应用》
您所在的位置:首页 > 电子元件 > 业界动态 > DPU芯片数据中心奇袭Intel,不止英伟达一个

DPU芯片数据中心奇袭Intel,不止英伟达一个

2021-04-13
来源:与非网
关键词: 英伟达 DPU

  去年秋天,英伟达宣布推出一款新型处理器DPU,黄仁勋的带货原话是:“数据中心已成为新型计算单元。在现代化、安全的加速数据中心中,DPU 已成为其重要的组成部分。CPU、GPU 和 DPU 的结合,可构成完全可编程的单一AI计算单元,提供前所未有的安全性和算力。”

  DPU作为面向数据中心的专用处理器,是否真的有望成为继CPU和GPU之后的第三颗算力芯片?

 

  为什么需要DPU?

  微信图片_20210413103612.jpg

  图源 | PC Magazine

  CPU负责通用计算、GPU负责加速计算已经成为绝大部分数据中心的常态。用于加速计算的GPU,将计算密集型任务从CPU中分离出来,CPU继续发挥通用计算和逻辑运算的能力,将并行计算、机器学习和AI计算等任务交给GPU处理。

  随着数据中心向软件定义的趋势发展,它在变得更加灵活的同时也将承受更大的负担,基础架构的运行将消耗20%-30%的CPU核心。这也意味着,新的分工体系需要更加细分的“工种”,为CPU“减负”。

  正如GPU受图形图像需求的驱动发展,DPU(Data Processing Unit,数据处理器)的产生背景是端边云一体化趋势下,对计算延迟、数据安全、资源虚拟化的需求,而这些功能对于实现对于下一代云上大规模计算至关重要。

  

  国内外玩家都有谁?

  事实上,想在基础网络架构变革中分一杯羹的不止DPU,还有智能网卡(SmartNIC)。我们都知道数据中心服务器之间的网络互联有一套底层软件系统,这套软件需要能完成网络互联协议,除此之外,还需要能跑一套数据中心必备的网络安全系统。传统上,这些处理也跑在CPU上,而随着SmartNIC的逐渐普及,它正在网络安全和网络协议处理方面缓慢地取代CPU。

  Xilinx去年推出的Alveo U25 就是一款一体化内置可编程FPGA的 SmartNIC ,在单颗器件上实现了网络、存储和计算加速功能的融合。

  DPU可以看做是SmartNIC的增强版本,一方面加强了SmartNIC对于网络协议和网络安全的处理能力,另一方面整合并加强了分布式存储的处理能力,从而让DPU能在这两个领域更多地替代CPU。

  这将是一个即将掀起大风浪的领域,挤满了摩拳擦掌的选手们。据不完全统计,国内外布局这一市场的玩家,既有Intel、英伟达、Broadcom、Marvell这样的大厂,也包括Fungible、Pensando等初创企业,其中几家大厂近些年的几宗收购,也在围绕这一领域展开。

  从技术路线来看,各家方案有所不同。Intel、Broadcom都是面向交换机、路由器芯片,Intel基于FPGA,Broadcom基于Arm架构;英伟达侧重于数据安全、网络、存储卸载,主要基于所收购的Mellanox网络方案及Arm架构实现;Marvell主要面向5G带宽,通过收购Cavium获得的可编程芯片技术和Arm架构形成方案;Pensando和Fungible两家创企,前者面向支持P4的SDN,方案主要通过软件定义网络处理器实现,后者面向网络、存储、虚拟化,方案基于MIPS架构。

  国内厂商在这一领域目前有披露的并不多,华为的智能网卡属于DPU的细分,不过智能网卡芯片还未正式宣布;阿里方面,据了解有DPU较为原始形态的产品;还有中科驭数,最近刚刚宣布了下一代DPU芯片计划。

 

  冲击千亿量级DPU市场

  国产芯片加速成长

  根据Fungible和Nvidia的预测,用于数据中心的DPU量级将达到和数据中心服务器等量的级别。服务器每年新增大约千万量级,一台服务器可能没有GPU,但一定会有一颗或者多颗DPU,好比每台服务器都必须配网卡一样。服务器每年新增大约1500万台,每颗DPU如果以1万元计算,将是千亿量级的市场规模。

  追溯起来的话,中科驭数的创始团队算是在国内较早进行DPU芯片研发的。该公司创始人兼CEO鄢贵海博士、联合创始人兼CTO卢文岩博士、首席科学家李晓维博士,均来自中科院计算所计算机体系结构国家重点实验室。他们提出了软件定义加速器技术(Software Defined Accelerator),自主研发了KPU(Kernel Processing Unit)芯片架构,并于2019年设计出业界首颗数据库与时序数据处理融合加速芯片,已经成功流片。中科驭数的DPU芯片,正是基于自研的KPU芯片架构,具有网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能。

  从KPU架构到DPU芯片,中科驭数的关键优势是什么?

  鄢贵海博士介绍,相较于传统的ASIC或SoC DPU芯片架构,KPU有较高的灵活性,可以通过即时的软件配置来定义芯片内部数据运算逻辑,在保障充沛算力的同时,以最低功耗支撑更多运算负载类型。其KPU定位为“敏捷异构”的专用计算架构,与CPU、GPU、FPGA、ASIC相比,KPU-Drive方案在算力、能效比(TCO)、算法灵活性、边际成本、开发周期等方面优势明显。

  目前,中科驭数已经积累了8个大类的KPU内核资源, 涵盖了时间序列分析、数据查询、加密解密、数据压缩、协议解析等,并在过去两年完成了两代KPU的迭代。KPU也从最初的单个应用算法加速,进化到了集网络、数据库与应用算法的全方位立体化加速体系。

  再与同类方案做横向对比,中科驭数是否有独特优势?

  据了解,同类DPU方案类型大致可以概括为三种:一是以通用众核为基础的同构众核DPU,例如Broadcom的Stingray架构,以多核Arm为核心,以众取胜,可编程灵活性较好,但是应用针对性不够,对于特殊算法和应用的支持,与通用CPU相比并无太显著优势;二是以专用核为基础的异构核阵列,这种架构的特点是针对性较强、性能较好,但是牺牲了部分灵活性;第三种路线是以上二者的折中,且专用核的比重越来越大,正在成为最新的产品趋势,以英伟达的BlueField2系列DPU来看,就包括4个Arm核及多个专用加速核区域,Fungible的DPU则包含6大类的专用核,和52个MIPS小型通用核。

  “不同于Broadcom、Fungible等国外芯片厂商,中科驭数的DPU没有采用原来众核为主的架构,而是将重点放在异构核上,以针对性算法加速为核心,通过KPU架构来组织异构核。在KPU架构下,中科驭数研发了芯片级完善的L2/L3/L4层全网络协议处理核,推出了直接面向OLAP、OLTP及类SQL处理的数据查询处理核”,鄢贵海介绍。

  这样带来的好处是,更高效的数据处理效率、获得更直接的使用接口,以及更佳的虚拟化支持,这些特性对于金融科技、数据中心、混合云及边缘计算等高带宽、低延迟、数据密集型的计算场景都尤为重要。

  以KPU架构为核心,在2019年流片第一颗芯片K1的基础上,中科驭数下一颗芯片K2预计今年年底流片。从目前曝光的芯片架构来看,功能层面包括L2/L3/L4层的网络协议处理,可处理200G网络带宽数据;融合了数据库、大数据处理能力,直接面向OLAP、OLTP及大数据处理平台,如Spark等;此外,还囊括机器学习计算核以及安全加密运算核。

  微信图片_20210413103714.jpg

中科驭数K2芯片架构

 


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。