《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > AET原创 > AI “芯”势力,Habana Labs重塑推理和训练新高度

AI “芯”势力,Habana Labs重塑推理和训练新高度

2019-07-01
王洁
电子技术应用

近年来AI技术飞速发展,被看作是改变人类未来生活方式的主要技术之一。与此同时,AI热潮正在推动AI芯片市场快速增长。根据Gartner估计,AI芯片在2020年预计达到146亿的市场规模。超过百亿美元的AI芯片市场一方面驱动着传统芯片公司的技术转型,一方面又催生出一大批初创公司加入。

这一波AI潮有多猛,仅看国内市场就可初见端倪。根据6月28日发布的《北京人工智能产业发展白皮书(2019年)》数据显示,截至2019年4月,我国人工智能企业4084家,仅北京市人工智能相关企业数量就达1084家。

纵观全球市场, AI芯片公司中如今英伟达的位居榜首,英特尔、IBM等公司实力也相当雄厚,而成立于2016年的一家以色列AI芯片公司Habana Labs声称要做未来AI芯片领域的领导者,究竟有何“底牌”?

“Habana的团队成员主要是来自于处理器、DSP、系统设计以及网络设计等领域的知名公司,拥有丰富的软硬件设计研发经验。Habana在AI领域已经发布了若干款产品,主要分推理和训练两个不同的产品线。去年我们率先发布了Goya,主要是用于推理和预测;最近发布的Gaudi主要用于训练。”Habana Labs首席商务官Eitan Medina介绍。

IMG_20190619_140645.jpg

Habana Labs首席商务官Eitan Medina

AI推理处理器Goya,发布九个月性能依旧领先

2018年9月,Habana推出首个AI处理器Goya,是一款基于PCIE的双槽位处理器,用于传统服务器,提供推理和预测。

Goya相对于CPU和GPU有绝对的性能优势。根据当时在ResNet-50模型上的测试显示,Goya的图片处理性能比英伟达的GPU Tesla T4高3倍,比普通CPU高10倍之多。能耗比上,Goya比GPU有两倍的优势。在实时处理上,Goya延迟也比GPU要低很多,几乎可以做到实时处理图片。

图1.jpg

ResNet-50上的推理性能测试

美国著名的处理器评论杂志Microprocessor Report给出了Goya和目前市场上已有的最主要的推理和训练产品的比较,图上显示Goya在性能上比其他产品有3倍的优势。

图2.jpg

Microprocessor Report报道Goya性能优势

Eitan Medina介绍,到目前为止经过了9个月时间,Goya这款产品仍然是在市场上性能最领先的产品。

从数据中心的角度看,Goya可以提供更高的性能、更低的延迟以及更好的能耗比。英伟达的GPU 8片V100卡性能上等同于169片传统的CPU,而Habana 3片Goya卡就可以达到8片V100的效果。

图3.jpg

数据中心角度的性能对比

为什么Goya能够实现这么高的性能呢?“主要是在于架构上,Habana的工程师从最早、最基础的层面就开始对芯片的架构进行了设计。” Eitan Medina介绍道,“GPU和CPU是面对通用的计算,或者是常用的图形处理,从架构上来讲并不适合于做人工智能这方面的计算工作。但是Goya是完全针对于人工智能的需求来设计的。”

Goya拥有独特的架构Tensor Processor Core,也就是张量处理核心,里面有一个矩阵单元GEMM,通过这种方式可以提供更好的性价比。因为这种架构可以让Goya支持不同神经网络的结构,因此也可以处理不同类型的数据。

Goya可以实现Batch Size等于1,这意味着一次可以处理一张单一图片,在一张图片之下,都可以实现到一秒钟处理7000多张的性能,因此在一些高性能的领域,包括自动驾驶领域,Goya具有很大的优势。

此外,Habana 还提供了一套Synapse AI软件开发环境,这款软件包括一个丰富的内核库,其工具链是开放的,供客户添加专有内核。这款软件可与 TensorFlow 和 ONNX 等颇受欢迎的深度学习神经网络框架无缝交互。以往在CPU或GPU上完成的工作可以快速地、准确地部署到新的平台当中。Synapse AI直接支持各种各样的框架结构,客户在框架上实现的工作可以直接简单地部署在Goya处理器中。

为方便客户做一些定制化的工作,Habana还提供很多工具,支持客户去做定制化的函数库。

Eitan Medina表示,Habana通常不会公开客户信息,不过Facebook已经通过其官网公开了与Habana的合作。Facebook开发了一套机器学习编译环境Glow,Facebook在其官网明确表示 ,Goya是他们现在第一款支持Glow这个编译环境的产品。Habana和Facebook配合开源了Goya的产品。

AI训练处理器Gaudi,提供无线扩展可能

欲做AI芯片领域的领导者,除了推理的产品之外,训练的产品当然也不能少。近期,Habana推出了第一款人工智能训练平台Gaudi,也是目前业界性能最高的一款训练产品。Gaudi是一款完全可编程且可定制的处理器,搭载第二代Tensor处理核并集成开发工具、库和编译器,共同提供全面而灵活的解决方案。

Gaudi在ResNet-50上可以提供每秒1650张图片的处理能力,同时他还能在很小的Batch Size情况下实现很好的性能。下面是Gaudi和英伟达最主要的训练产品V100的性能对比,可见相同数量的Gaudi计算能力大概是V100的4倍。

图4.jpg

ResNet-50上训练性能对比

Eitan Medina介绍,Gaudi单卡可以处理1600多张图片且功耗更低,V100处理600多张图片的功耗达到了300瓦,而Gaudi处理1600多张图片的功耗只有150瓦左右。

Gaudi芯片中集成了RDMA over Converged Ethernet (RoCE v2) 功能,拥有10个100 GbE以太网端口,每个以太网端口都支持RoCE v2,因此可以用标准的以太网环境进行扩展。相比目前市场上其他的训练和扩展环境都是用一些专有的网络协议,Gaudi用的是通用的以太网协议,在速度和端口数方面可提供几乎无限的可扩展性。

Gaudi处理器配备32GB HBM-2内存,目前提供两种规格:(1)HL-200 - PCIe卡,设有8个100 Gb以太网端口;(2)HL-205 - 基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50 Gb以太网端口。

在AI训练环境中,客户可能要选择不同种类的CPU来实现不同AI训练的效果。对此,Habana推出了一款名为HLS-1的8-Gaudi系统,配备了8个HL-205子卡、PCIe外部主机连接器和24个用于连接现有以太网交换机的100Gbps以太网端口,让客户能够通过在19英寸标准机柜中部署多个HLS-1系统实现性能扩展。HLS-1中没有服务器,客户可以灵活地选择自己所希望的CPU服务器,只要通过PCIE线即可与HLS-1系统实现对接。

这里,每个芯片上有10个100Gbps的以太网口,其中7个网口用于与其他的7颗芯片相互的通讯,3个网口对外连接。这样可以保证在系统内部所有的8个芯片之间无堵塞的数据传输。对外可以通过不同的形式,在机架内可以一层层叠加,通过一个简单的以太网的交换机就可以把所有的设备连接到一起;机架与机架之间也通过彼此之间的以太网交换机的互联构成一个更大的规模。

据介绍,Gaudi系统相比英伟达DGX-1的优势在于:(1)DGX-1采用专有的协议NVLink来实现芯片之间的互联,只能实现两个片之间的互联,不同的片之间要借一个跳的过程,而Gaudi系统中,任何一个芯片之间都可以直接实现数据的交换;(2)DGX-1的扩展依赖于4个100G的以太网端口,而Gaudi系统对外支持24个100G的端口,在扩展的性能和带宽上比DGX-1高很多;(3)DGX-1在系统管理和数据通讯时,在PCIE的一个总线上复用,传输性能上会有一定的损失,而在Gaudi上数据传输和管理总线上没有任何的复用,所以在总线效率上也是最高的。

虽然是初创企业,但Habana出手就是“王炸”,产品组合涵盖AI推理到AI训练,将处理器的能力、网络计算能力、系统设计能力、软件平台能力集于一体,提供一个非常灵活和完整的系统。据悉,Habana在继去年11月获得英特尔领投的7500万美元的B轮投资后,融资达到1.2亿美元,这一资金也将继续支持针对推理和训练解决方案的产品发展蓝图。