TurboQuant与RaBitQ技术上相似吗?
2026-03-31
来源:电子技术应用
引言
2025年至2026年初,全球半导体行业正经历一场"冰火两重天"的结构性危机。一方面,AI产业的爆发推动半导体行业整体增长25.6%,另一方面,存储芯片短缺却严重拖累PC与手机芯片厂商的业绩。
就在存储荒愈演愈烈之际,2026年3月24日,谷歌在官方博客中高调推出了名为"TurboQuant"的新型AI内存压缩算法,实现约6倍的显存占用降低与最高8倍的推理速度提升。资本市场给出回应,3月25日美股一开盘,存储芯片板块就集体迎来"黑色时刻",遭遇重挫。美光、西部数据等存储巨头股价应声暴跌,单日总市值蒸发超过900亿美元!
而“反转”来得更快。2026年3月27日,苏黎世联邦理工学院计算机博士后、RaBitQ算法作者华人高健扬发布文章,直指谷歌的TurboQuant论文存在严重学术问题!
1.谷歌新技术介绍
1.1 TurboQuant的技术突破
2026年3月24日,谷歌推出了名为"TurboQuant"的新型AI内存压缩算法。这项技术号称能将大模型推理过程中的键值缓存(KV Cache)压缩至3bit精度,实现约6倍的显存占用降低与最高8倍的推理速度提升。
TurboQuant的核心突破在于解决了传统向量量化过程中伴随的内存额外开销问题。传统方案为了保证精度,往往需要为每个数据块额外存储全精度的量化常数,而TurboQuant通过两阶段处理架构彻底消除了这一开销。
第一阶段是PolarQuant(极坐标量化)。该方法放弃了传统的笛卡尔坐标系,将数据向量转换为极坐标,把数据分离为代表强度的半径和代表方向的角度。通过对输入向量应用随机旋转矩阵,将高维向量从笛卡尔坐标系转换到各坐标服从Beta分布的空间,使不同坐标近乎独立,从而对每个坐标独立应用最优标量量化,无需存储数据依赖的校准常数。
第二阶段是QJL(Quantized Johnson-Lindenstrauss)残差修正。TurboQuant使用极低位宽(仅1 bit)对第一阶段留下的微小误差套用QJL算法,消除偏差以确保最终注意力分数的精准。这种两阶段协同设计实现了"主体压缩+残差校正"的数学美感。
1.2 性能数据与宣称优势
谷歌在论文中宣称,TurboQuant在所有基准测试中均达到了"完美的下游任务表现",同时将KV缓存的内存占用减至1/6。实验数据显示,TurboQuant在每个通道使用3.5位时实现绝对质量中性,在使用2.5位时仅有边际质量退化。
在H100 GPU加速器上,4比特TurboQuant相比32比特未量化的键值实现了高达8倍的性能提升。在最近邻搜索任务中,该方法在召回率方面优于现有的乘积量化技术,同时将索引时间几乎减少到零。
TurboQuant的另一大优势在于其"数据无感知"(data-oblivious)特性,使其无需进行特定的预处理或微调即可直接部署。该技术完全免训练、免校准,采用全局固定参数,GPU向量化友好,适合并行处理,且全架构通用,支持Llama、Mistral、Gemma、Qwen等主流模型无缝适配。
2.3 资本市场的剧烈反应
TurboQuant消息一出,资本市场率先作出反应。3月25日美股一开盘,存储芯片板块就集体迎来"黑色时刻",遭遇重挫。美光、西部数据等存储巨头股价应声暴跌,单日总市值蒸发超过900亿美元(约合人民币6220亿元)。
市场情绪的短期波动源于单一维度的推演:若底层算法能将上下文内存需求大幅缩减,现阶段价格高昂且供不应求的高带宽内存(HBM)及企业级存储芯片的长期出货量预期可能会面临修正。业界甚至惊呼,这简直是谷歌版的"DeepSeek时刻"。
然而,这种恐慌性抛售很快遭遇现实检验。TurboQuant解决的只是推理(Inference)阶段的显存瓶颈,模型训练阶段的显存消耗依然是一座大山。恰恰是厂商需要天量的内存来训练模型,才导致普通人买不到内存,TurboQuant在这一层面上无能为力。
2.新技术论文的争议点分析
2.1 学术不端指控的爆发
就在谷歌沉浸在技术突破的欢呼声中时,反转来得很快。2026年3月27日,苏黎世联邦理工学院计算机博士后、RaBitQ算法作者华人高健扬发布文章,直指谷歌的TurboQuant论文存在严重学术问题。
高健扬是RaBitQ算法的第一作者,该算法早在2024年5月就已发布于arXiv,并连续被数据库领域顶会SIGMOD 2024和SIGMOD 2025收录,代码完全开源。他指出,TurboQuant论文在描述RaBitQ时存在三大问题:系统性地回避了其与已有RaBitQ方法的相似性,错误描述了RaBitQ的理论结果,并刻意营造不公的实验环境。
更令人震惊的是,这些问题在论文投稿前就已通过邮件告知谷歌团队。高健扬披露,早在2025年5月,RaBitQ团队就已经向TurboQuant作者指出了论文存在的问题,TurboQuant团队承认了相关问题,但选择不予修复。
2.2 核心技术的高度相似性
TurboQuant与RaBitQ在方法层面有直接的结构联系,两者都在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换)。这是两篇论文方法设计中最核心、最接近的部分。
然而,TurboQuant论文全文未正面引用RaBitQ系列工作,后者早在2024年即在SIGMOD发表,同样基于随机旋转实现理论最优误差界。在审稿过程中,Reviewer Autm曾直球提问:"随机旋转是你们论文首创的吗?"TurboQuant作者在rebuttal中白纸黑字回复:"随机旋转的使用此前已有探索,参见Quarot、RabitQ、QJL等工作。"
但令人费解的是,在论文终稿中,谷歌不仅没有加入对RaBitQ的讨论,还把正文中对RaBitQ仅有的(还不完整的)描述挪到了附录里。面对高健扬团队的质疑,TurboQuant第一作者Amir Zandieh仅以"随机旋转和JL变换已成为该领域的标准技术,我们无法列举所有使用这些方法的方法"为由,拒绝承认引用缺失。
2.3 理论结果的恶意贬低
TurboQuant论文在不提供任何论据的情况下,将RaBitQ的理论保证定性为"次优",将原因归结为"较粗糙的分析(loose analysis)"。
然而,RaBitQ的误差界实际上已经达到了理论计算机顶级会议论文(Alon-Klartag,FOCS 2017)给出的渐近最优误差界,并因这一结果被邀请至理论计算机科学顶级会议FOCS的Workshop进行报告。RaBitQ扩展版的Theorem 3.2已经严格证明,其误差界匹配FOCS 2017给出的渐近最优界。
2025年5月,高健扬团队与TurboQuant第二作者Majid Daliri进行了多轮详细的邮件技术讨论,逐条解释了为什么RaBitQ的理论保证是最优的。Daliri在邮件中明确表示,已将讨论内容告知全体共同作者。然而,论文从投稿到收录、再到公开宣传,全程未修正任何错误。
2.4 实验条件的双重标准
最具争议的是TurboQuant团队的实验设计。论文报告RaBitQ的量化速度比TurboQuant慢了"数个数量级",但这一对比毫无公平可言。
TurboQuant团队在测试RaBitQ时使用单核CPU、关闭多线程并行的设置,并且使用了自己翻译的Python代码,而非RaBitQ团队开源的高度优化的C++实现。而测试TurboQuant时,则使用英伟达A100 GPU加速。
问题在于,RaBitQ的官方代码2024年5月就开源了,默认是多线程并行。而且,Daliri在2025年1月的邮件中就已经表示自己成功跑通了RaBitQ的C++代码,他知道官方实现有多快。但最终论文里用来做对比的,仍然是他自己翻译的、运行在单核CPU上的Python版本。
这种"把对手的鞋带绑在一起,再跟他赛跑"的做法,在学术界引发了广泛谴责。
2.5 谷歌的回应与态度
面对高健扬团队的正式致信,TurboQuant第一作者Amir Zandieh的回复堪称傲慢。他仅承诺会修正对RaBitQ理论结果的错误描述和实验环境差异,但拒绝在文中讨论TurboQuant与RaBitQ在技术上的相似性。
更关键的是,TurboQuant团队仅愿意在2026年4月ICLR 2026正式会议结束之后才做相应修正。这种"先把蛋糕吃完,再讨论蛋糕是不是你的"的态度,被学界批评为赤裸裸的学术霸凌。
目前,谷歌官方尚未就此事发布正式声明。ICLR 2026会议本身正经历另一起重大诚信危机——因OpenReview API漏洞导致超万篇投稿身份信息泄露,引发串通、贿赂等学术不端行为,组委会已于2025年12月宣布回滚全部评审、重置领域主席并严查违规论文。在此背景下,TurboQuant的争议更受关注。
3.一切为了TPU
3.1 TPU的量化技术积累
谷歌在AI芯片领域的布局远不止TurboQuant这一项技术。作为TPU(张量处理单元)的开发者,谷歌在量化技术方面有着深厚的积累。
Google Edge TPU是专为边缘设备设计的机器学习推理加速器,能够执行4万亿次操作每秒(TOPS),每瓦特可执行2 TOPS。Edge TPU原生支持INT8量化,可将模型大小减少75%并加速推理。在多项基准测试中,Edge TPU在延迟和能效方面均优于NVIDIA Jetson TX2和Intel Movidius Myriad X VPU。
在数据中心端,谷歌推出了Accurate Quantized Training(AQT)开源库,主要用于TPU v5e,支持高效的INT8训练和推理,在减少训练时间的同时保持最小的精度损失。此外,谷歌还设计了EQuARX(Efficient Quantized AllReduce in XLA),一种针对TPU优化的量化AllReduce操作,通过在AllReduce集体操作内动态执行块级量化/反量化,成功隐藏了大部分与量化和反量化相关的计算开销。
3.2 TurboQuant与TPU的协同
TurboQuant的技术特性使其天然适合与TPU架构协同。该技术采用数据无关的在线量化策略,不需要针对特定数据集进行离线校准或预处理,这与TPU的静态图执行模式高度契合。
TurboQuant的两阶段架构——PolarQuant主体压缩+QJL残差校正——可以在TPU的向量计算单元上高效实现。随机旋转和Beta分布量化可以通过TPU的矩阵乘法单元加速,而1-bit的QJL变换则适合TPU的专用整数运算单元。
更重要的是,TurboQuant声称在H100 GPU上实现了8倍加速,而TPU在特定工作负载上的能效比GPU更高。如果TurboQuant能够在TPU上实现类似的性能提升,将进一步巩固谷歌在AI基础设施领域的成本优势。
3.3 软件生态的闭环
谷歌正在构建从算法到硬件的完整量化生态。JAX作为谷歌主推的机器学习框架,与AQT库深度集成,支持在TPU上进行量化感知训练。TurboQuant作为后训练量化(PTQ)方案,可以与JAX/AQT形成互补——前者用于快速部署,后者用于追求极致精度。
此外,谷歌的Gemma系列开源模型已经开始采用这些量化技术。EQuARX已经在Gemma 3的预填充阶段实现了1.25倍(27B模型)和1.1倍(12B模型)的加速,且精度损失微乎其微。TurboQuant的引入将进一步降低Gemma模型的部署成本,提升其在边缘设备和云端推理场景的竞争力。
4.谷歌打的什么算盘
4.1 抢占技术话语权的战略意图
谷歌选择在这个时间点高调发布TurboQuant,绝非偶然。在存储荒愈演愈烈的背景下,一项能够"将内存占用减少6倍"的技术,无疑具有极强的市场号召力。Cloudflare CEO激动地发推称:"这是谷歌的DeepSeek时刻!"
这背后反映的是谷歌在AI基础设施领域争夺技术话语权的战略意图。随着AI模型规模持续膨胀,"内存墙"问题日益突出,谁能在模型压缩和推理优化领域取得突破,谁就能在云计算和AI服务市场占据优势地位。
通过将TurboQuant包装为一项"革命性"突破,谷歌试图向市场传递一个信号:即使在硬件资源受限的环境下,谷歌依然能够通过算法创新保持领先。这对于吸引企业客户使用谷歌云服务、推广TPU生7态具有重要意义。
4.2 打压存储股价的潜在动机
TurboQuant发布的时机选择也耐人寻味。3月24日发布技术博客,3月25日美股存储板块应声暴跌,市值蒸发超900亿美元。虽然谷歌不可能直接控制股价,但如此精准的市场反应,很难说是完全巧合。
从战略层面看,打压存储股价符合谷歌的利益。作为全球最大的AI基础设施采购方之一,谷歌对存储芯片价格有着天然的敏感性。如果市场相信算法进步能够减少对硬件的依赖,存储芯片的定价权将受到冲击,从而在长期采购谈判中占据更有利的位置。
此外,谷歌正在大力推广自研TPU,与英伟达GPU形成竞争。如果能够证明TPU配合TurboQuant等算法优化,能够在性价比上超越GPU+HBM的组合,将有力推动TPU的市场渗透。
4.3 学术不端背后的傲慢与功利
然而,TurboQuant论文的学术争议,暴露出谷歌研究文化中的深层问题。这并非谷歌首次陷入学术诚信危机——2023年12月,谷歌发布的Gemini多模态演示视频被曝后期剪辑造假;2023年2月,Bard发布首日即答错"詹姆斯·韦伯望远镜首张照片"。
TurboQuant事件的特殊之处在于,这种"知错不改"的态度具有系统性。从2025年1月联系RaBitQ团队请教代码,到5月被指出问题后承认但拒绝修正,再到2026年3月高调发布论文,整个过程展现出一种"大科技公司学术霸权"的心态。
这种心态的根源在于功利主义的科研文化。在"Publish or Perish"(不发表就灭亡)的压力下,加上公司层面的商业诉求,研究团队可能倾向于选择性地忽略不利证据,通过包装和营销来放大研究成果的影响力。
4.4 对行业的深远影响
TurboQuant争议对AI研究生态的影响将是深远的。一方面,它提醒学术界和工业界,即使是顶级会议(ICLR)的审稿流程,也可能无法有效识别和阻止学术不端行为。在AI研究日益工业化的今天,大科技公司的资源优势和话语权,可能扭曲正常的学术竞争。
另一方面,这一事件也凸显了开源社区在维护学术诚信方面的重要作用。高健扬团队之所以能够揭露TurboQuant的问题,关键在于RaBitQ的代码完全开源,使得技术对比和复现成为可能。相比之下,TurboQuant目前尚未发布开源代码,这种"闭源领先"的做法本身就值得警惕。
对于存储行业而言,TurboQuant引发的市场波动可能只是一个开始。无论该技术的实际价值如何,它都揭示了一个趋势:算法优化正在挑战硬件升级的传统路径。在杰文斯悖论(Jevons Paradox)的作用下,内存利用率的提高可能反而刺激更大的需求,但从长期来看,软件定义硬件的趋势不可逆转。
4.5 谷歌的真正算盘
综合来看,谷歌发布TurboQuant的真正算盘可以归结为以下几点:
第一,技术占位。 通过率先发布(即使存在争议),谷歌在向量量化领域抢占了技术高地,为后续的专利布局和标准制定奠定基础。
第二,生态绑定。 TurboQuant与谷歌的TPU、JAX、Gemma等软硬件产品形成协同,增强谷歌AI生态的整体竞争力。
第三,市场博弈。 通过影响资本市场对存储行业的预期,谷歌试图在芯片采购谈判中获得更有利的地位。
第四,人才争夺。 高调的技术发布有助于提升谷歌在AI研究领域的声誉,吸引顶尖人才加入。
然而,这种建立在学术不端基础上的"胜利",注定是短视的。当高健扬们的声音被听到,当第三方复现结果出炉,TurboQuant的真实价值将接受检验。对于谷歌而言,真正的挑战不在于能否暂时欺骗市场,而在于能否建立起可持续的、值得信赖的技术领导力。
在AI这个充满泡沫与狂热的时代,TurboQuant事件是一个警示:技术进步不应以牺牲学术诚信为代价,商业成功不能建立在打压同行之上。谷歌打的算盘,最终能否如意,取决于它能否正视问题、纠正错误,重新赢得学界和业界的信任。否则,这900亿美元蒸发掉的市值,不过是更大代价的预演。
结语
存储荒与TurboQuant的交织,折射出AI时代技术竞争的新常态。当硬件资源成为瓶颈,算法创新被赋予过高的期待;当商业利益压倒学术伦理,技术突破蒙上造假的阴影。谷歌的这一局棋,下得并不光彩。无论最终结局如何,这场风波都将成为AI研究史上的一个重要注脚——提醒我们,在追求效率与利润的同时,不应忘记科学精神的本真。

