英特尔AutoRound算法正式落地支持英伟达CUDA及自家GPU-AET-电子技术应用

英特尔AutoRound算法正式落地支持英伟达CUDA及自家GPU

Crescent Island显卡将原生支持FP8/MXFP4

日期： 2025-12-10

来源：IT之家

关键词： 英特尔 AutoRound GPU 英伟达 CUDA

12 月 9 日消息，当地时间 12 月 8 日，英特尔宣布将 AutoRound 算法集成到 LLM Compressor，以提升低比特量化大模型的性能与效率。

该算法可在保持模型准确度的前提下，实现更快、更轻量的推理，同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。

此外，英特尔未来推出的“Crescent Island”系列数据中心 GPU 将原生支持 FP8 / MXFP8 / MXFP4 等格式，使量化模型能够直接利用这些数据类型带来的硬件加速优势。

format,f_avif.avif (1).jpg

英特尔表示，AutoRound 是面向大语言模型（LLM）与视觉语言模型（VLM）的先进后训练量化（PTQ）算法，通过为每个量化张量引入三个可训练参数（v、α、β），配合逐层处理和符号梯度下降方法，实现更精准的舍入和裁剪优化，从而减少输出误差。

AutoRound 通过三项核心技术实现低比特量化优化：

每张量引入三个可训练参数：v（舍入偏移量）、α 与 β（动态裁剪范围控制）；

逐层序列处理：采用带符号梯度下降法联合优化舍入与裁剪策略；

最小化分块输出重建误差：在百步级轻量调优下实现更高精度。

官方透露，AutoRound 的主要优势包括：

在低比特量化条件下维持较高准确度；

支持 W4A16、MXFP8、MXFP4、FP8、NVFP4 等多种数据类型；

可进行混合比特与按层精度搜索，提供灵活的精度与效率平衡方案；

零额外推理开销，量化模型可直接通过 vLLM 框架部署；

适用于 LLM 与 VLM 的量化场景。

format,f_avif.avif (2).jpg

英特尔称，AutoRound 生成的量化模型可在多个英特尔硬件平台上加速推理，包括 Xeon 处理器、Gaudi 加速器、英特尔数据中心 GPU、Arc B 系列显卡，以及 CUDA 生态的 GPU。

此次集成通过 LLM Compressor 中新增的 AutoRoundModifier 完成，能够生成可直接在 vLLM 上部署的 W4A16 量化模型。当前已支持 Llama、Qwen 等主流密集 LLM，并提供轻量的调优流程（仅需数百步），不增加推理开销。

英特尔表示，未来将继续扩展更多量化方案（注：包括 FP8 与 MXFP 系列）、自动混合比特搜索、更多模型族（如 MoE），并加强与 LLM Compressor 其他压缩算法的协同，以形成更完整的多策略组合方案。官方也邀请开发者在社区讨论区提交反馈，用于制定后续路线图。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

英特尔AutoRound算法正式落地 支持英伟达CUDA及自家GPU

日期： 2025-12-10

来源：IT之家

相关内容

英特尔AutoRound算法正式落地支持英伟达CUDA及自家GPU