gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Model Details

Base Architecture: Gemma 4 (31B parameters)
Training Focus: Full parameter SFT on 12,680 Claude Opus 4.6 reasoning traces.

File	Size
`gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q3_K_M.gguf`	15.3 GB
`gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q4_K_M.gguf`	18.7 GB
`gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q5_K_M.gguf`	21.8 GB
`gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q6_K.gguf`	25.2 GB
`gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q8_0.gguf`	32.6 GB

Recommendation: Q4_K_M provides the optimal balance between inference speed, memory consumption, and preserving the model's reasoning accuracy.

To ensure generation stops cleanly, configure your inference engine or UI to use the following stop sequence (native to the Gemma 4 template):

./llama-cli -m gemma-4-31B-Claude-4.6-Opus-Reasoning-Distilled-Q4_K_M.gguf -p "Prove that the square root of 2 is irrational." -n 1024

GGUF

Model size

31B params

Architecture

gemma4

Hardware compatibility

3-bit

4-bit

5-bit

6-bit

8-bit

Base model

Finetuned

Quantized

(1)

this model