谷歌发布Gemma 3全系QAT版模型,一台3090就能跑?

谷歌发布Gemma 3全系QAT(量化感知训练)优化版本,27B模型显存占用从54GB降至14.1GB,可在RTX 3090等消费级GPU上运行;通过QAT将量化过程融入训练阶段,模型压缩至int4格式后仍保持高性能,12B版本仅需6.6GB显存,可在笔记本GPU上运行;官方已在多个平台上线模型,并与Ollama、LM Studio等开发工具合作,支持便捷部署和本地推理。

搜索