Gemma4 有 8 个模型,选哪个?一文看懂
Google 发布了 Gemma4 系列开放权重模型,面对 8 个型号不知道怎么选?这篇帮你快速定位。
首先:选带 “-it” 后缀的
-it 是 Instruction Tuned(指令微调版)的意思,经过了大规模人类指令跟随训练和多轮对话对齐。没带 -it 的是基模,适合自己微调的同学。
术语解释:A4B 和 E4B 是什么?
A4B:激活参数量 4B,MoE 架构,总参数量更大但激活量小,速度快。
E4B:Per-Layer Embeddings(逐层嵌入),为移动端优化。本身不能省内存,但计算量大幅降低,可以理解为把一部分矩阵运算优化为查表,用内存换计算。
选型指南
| 需求 | 推荐型号 | 说明 |
|---|---|---|
| 本地日常使用 | Gemma-4-26B-A4B | 激活量 4B 的 MoE,prefill 速度快,适合系统提示词臃肿的场景 |
| 写代码 / 精确工作 | Gemma-4-31B | 追求最好效果,8bit 量化下 M2Ultra 约 25 token/s |
| 本地语音助手 | Gemma-4-E4B | 全模态输入,4B 激活量 CPU 也能跑 |
| 尝鲜 / 树莓派 | Gemma-4-E2B | 极致速度,质量有限,适合"帮我检查文本里有英文吗"这类简单过滤 |
关键参考
- Apple M2Ultra 运行 8bit 量化版 Gemma-4-31B:约 25 token/s
- E2B 虽小,是全模态输入,可以尝试语音输入场景
选对模型,比盲目追大参数量更重要。