[Bugfix] Temporarily disable gptq_bitblas on ROCm

nlzy · nlzy · commit 5e7f05bb0288 · 2025-04-29T19:44:56.000Z
Signed-off-by: Yan Cangang &lt;nalanzeyu@gmail.com&gt;
diff --git a/vllm/model_executor/layers/quantization/gptq_bitblas.py b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -24,6 +24,7 @@
                                            PackedColumnParameter,
                                            PackedvLLMParameter,
                                            RowvLLMParameter)
+from vllm.platforms import current_platform
 from vllm.scalar_type import scalar_types
 
 logger = init_logger(__name__)
@@ -190,6 +191,10 @@ def is_gptq_bitblas_compatible(cls, quant_config: Dict[str, Any]):
         sym = quant_config.get("sym")
         desc_act = quant_config.get("desc_act")
 
+        # temporarily disable on ROCm platform
+        if not current_platform.is_cuda():
+            return False
+
         # If we cannot find the info needed in the config, cannot convert.
         if (num_bits is None or group_size is None or sym is None
                 or desc_act is None):