如何解决高吞吐量和低延迟？这款加速方案可助力同时处理4000个语音通道-AET-电子技术应用

如何解决高吞吐量和低延迟？这款加速方案可助力同时处理4000个语音通道

日期： 2019-10-28

关键词： 高吞吐量低延迟 FPGA加速 DSP

　　最近几年，FPGA加速应用在金融、网络安全、存储、AI等领域都有较多应用空间。随之而来的，则是利用FPGA开发智能加速卡的火爆。在很多场景下，由于FPGA的自定义逻辑，相比于GPU能够有更高的加速能力。而即将于11月6日在北京举办的英特尔?FPGA技术大会上，将会有海量基于FPGA加速的应用展示哦~

　　英特尔? FPGA可编程加速卡 (PAC) D5005是目前英特尔? FPGA的高端FPGA加速卡。自发布以来，经过英特尔? FPGA及众多合作伙伴的努力，PAC D5005加速卡已经可以实现对较多工作负载的加速，如视频编解码、AI领域的语音到文本转换、图像处理、网络安全等。

　　在 Myrtle 的可扩展推理引擎上运行的语音到本文 (STT) 转录应用（基于该公司的 MAU 加速器内核）是最近发表的一篇博文中讨论的四个加速工作负载之一。这篇博文指出，HPC 在其 ProLiant DL380 Gen10 服务器中添加了英特尔? FPGA 可编程加速卡 (PAC) D5005选件。通过集成到英特尔? FPGA PAC 卡 D5005 的一个英特尔? FPGA 加速时，这种 STT 工作负载即可实时处理超过 4000 个语音通道。

640.webp (1).jpg

　　英特尔? FPGA 可编程加速卡 D5005

　　借助在 FPGA 中实例化的 MAU 加速器内核网格，Myrtle 的可扩展推理引擎能够高效处理高性能 STT 工作负载。MAU 加速器内核针对英特尔 FPGA PAC D5005 进行了优化。Myrtle 发布了一篇长达 9 页的论文，题为“利用下一代数据中心硬件的非结构化稀疏性”，文中讨论了 MAU 加速器的细节信息。您还可以在英特尔FPGA 加速中心网页的 AI 选项卡下找到一篇题为“加速数据中心的语音工作负载”的英特尔解决方案文章，这篇文章将为您提供更多详细信息。

　　在这里我们就不重复 Myrtle STT 解决方案的诸多技术细节了，直接跳到这篇解决方案简介文章的结论：

　　PART

　　ONE

　　在英特尔? Stratix? 10 FPGA 上运行的 MozillaDeepSpeech 工作负载（使用 Myrtle STT，针对稀疏性和量化进行了优化）达到了 54 TOPS，略高于 NVIDIA Tesla V100 GPU (针对吞吐量进行了代码优化)的性能。同时，基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒语音输入延迟为 0.343 毫秒，而相比之下， GPU 的延迟则高达 126 毫秒，相差多达 365 倍。性能提升的代价是精度下降了约0.23%（由于 Myrtle STT 针对稀疏性和量化进行了优化）。

　　PART

　　TWO

　　针对延迟而非吞吐量优化的 GPU 解决方案可将 GPU 的延迟降低至 10.1 毫秒，这比利用 FPGA 加速的 Myrtle 解决方案所实现的 0.343 毫秒延迟慢 29 倍。然而，GPU 延迟的降低却带来了吞吐量性能的大幅下降：其吞吐量性能从 53.37 降至了 1.12 TOPS。与 FPGA 加速的 Myrtle STT 解决方案相比，性能相差 48 倍。（请注意，FPGA 加速的 Myrtle STT 解决方案同时提供高吞吐量和低延迟。）

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

如何解决高吞吐量和低延迟？这款加速方案可助力同时处理4000个语音通道

日期： 2019-10-28

相关内容