Fix GPU Mamba's output diverging from CPU version in major way

jploski · jploski · commit 7509b9eed26e · 2024-06-03T22:27:40.000+02:00
diff --git a/llama.cpp b/llama.cpp
@@ -8790,7 +8790,7 @@ static struct ggml_tensor * llm_build_mamba(
 
         // {d_inner, n_seq_tokens, n_seqs} * {d_inner} => {d_inner, n_seq_tokens, n_seqs}
         y = ggml_add(ctx, y, ggml_mul(ctx, x, model.layers[il].ssm_d));
-        y = ggml_mul(ctx, y, ggml_silu(ctx, z));
+        y = ggml_mul(ctx, y, ggml_silu(ctx, ggml_cont(ctx, z)));
 
         // {d_inner, n_embd} @ {d_inner, n_seq_tokens, n_seqs} => {n_embd, n_seq_tokens, n_seqs}
         cur = ggml_mul_mat(ctx, model.layers[il].ssm_out, y);