[Bugfix] Triton FA function takes no keyword arguments (vllm-project#16902)

vllmellm · frieda-huang · commit 8bed11fac84f · 2025-04-22T22:50:02.000-07:00
Signed-off-by: vllmellm &lt;vllm.ellm@embeddedllm.com&gt;
Signed-off-by: Frieda (Jingying) Huang &lt;jingyingfhuang@gmail.com&gt;
diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
@@ -1091,7 +1091,14 @@ def _flash_attn_varlen_diff_headdims(self, q, k, v, softmax_scale,
                 q,
                 k,
                 maybe_padded_v,
-                **kwargs,
+                None,  # output
+                kwargs["cu_seqlens_q"],
+                kwargs["cu_seqlens_k"],
+                kwargs["max_seqlen_q"],
+                kwargs["max_seqlen_k"],
+                kwargs["causal"],
+                softmax_scale,
+                None,  # bias
             )
         if is_vllm_fa:
             attn_out = self.flash_attn_varlen_func(