• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

谷歌在不损失准确性的情况下缩减AI内存——但有代价

2026-03-26 07:53:59
收藏

Google Research发布TurboQuant压缩算法

本周三,Google Research发布了TurboQuant压缩算法,该技术将推理过程中的关键内存瓶颈压缩至少6倍,同时保持零精度损失。相关论文已入选ICLR 2026会议,并立即引发网络热议。

量化效率本身就是重大突破,但“零精度损失”需要结合背景理解。TurboQuant针对的是KV缓存——这是GPU内存中存储语言模型对话期间所有记忆数据的关键部分。随着上下文窗口向数百万令牌扩展,这些缓存会膨胀至数百GB,成为实际瓶颈所在。

突破传统压缩范式

传统压缩方法通过降低数值精度来缩小缓存,例如从32位浮点数压缩至16位、8位甚至4位整数。这种过程类似于将4K图像压缩为全高清或720p格式:整体仍可辨识,但细节逐渐丢失。这类方法需要额外存储“量化常数”来维持模型性能,导致每数值增加1-2比特开销,部分抵消了压缩效益。

TurboQuant通过两项子算法彻底消除了这种开销:PolarQuant分离向量的大小与方向,QJL(量化约翰逊-林登斯特劳斯)算法则将残余误差压缩为单个符号位(正/负),无需存储任何常数。谷歌表示,这为驱动Transformer模型的注意力计算提供了数学上无偏的估计器。

实验表现与影响

在Gemma和Mistral模型的测试中,TurboQuant在4倍压缩率下仍能保持全精度性能,包括在长达10.4万令牌的“大海捞针”任务中实现完美检索精度。这一突破对扩展模型上下文窗口具有重要意义。

需要明确的是,“零精度损失”仅适用于推理过程中的KV缓存压缩,而非模型权重压缩。后者是更为复杂的独立问题。该技术压缩的是存储临时注意力计算数据的中间内存,这类数据理论上具有可重构性。

技术特性与展望

与需要深度架构调整的效率方案不同,TurboQuant无需重新训练或微调,且运行时开销可忽略不计。理论上可直接集成至现有推理管线。该技术目前已在Gemma、Mistral、Llama等开源模型完成测试,尚未应用于谷歌自身的生产系统。

论文将于ICLR 2026正式发表。在投入实际应用前,这项“零损失”技术仍处于实验室阶段,但其潜力已引发行业对内存硬件需求的重新评估。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%