NVIDIA · chuangz0 · May 12, 2025 · May 8, 2025
@@ -1,5 +1,4 @@
 import math
-import os
 import random
 from collections.abc import Iterable
 
@@ -18,8 +17,7 @@
 from ..speculative import get_num_spec_layers, get_spec_decoder
 from .decoder import (EarlyStopDecoder, TorchDecoder, TorchStarAttentionDecoder,
                       TRTLLMDecoder)
-from .kv_cache_transceiver import (AttentionTypeCpp, CacheTransBufferManager,
-                                   create_kv_cache_transceiver)
+from .kv_cache_transceiver import AttentionTypeCpp, create_kv_cache_transceiver
 from .model_engine import KV_CACHE_MANAGER_KEY, PyTorchModelEngine
 from .py_executor import PyExecutor
 from .resource_manager import (KVCacheManager, MambaHybridCacheManager,
@@ -151,29 +149,6 @@ def get_token_num_for_estimation(executor_config, model_config):
         return None
 
 
-def get_cache_transceiver_prealloc_size(executor_config: ExecutorConfig,
-                                        model_config: PyTorchModelEngine,
-                                        mapping: Mapping):
-    if (os.getenv("TRTLLM_USE_MPI_KVCACHE")
-            or os.getenv("TRTLLM_USE_UCX_KVCACHE")):
-        kv_size_per_token = int(get_cache_size_per_token(model_config, mapping))
-        logger.info(
-            f"get_cache_transceiver_prealloc_size kv_size_per_token: {kv_size_per_token} , executor_config.cache_transceiver_config: {executor_config.cache_transceiver_config}"
-        )
-        if executor_config.cache_transceiver_config is not None:
-            logger.info(
-                f"get_cache_transceiver_prealloc_size executor_config.cache_transceiver_config.max_num_tokens: {executor_config.cache_transceiver_config.max_num_tokens}"
-            )
-            return CacheTransBufferManager.pre_alloc_buffer_size(
-                executor_config.cache_transceiver_config.max_num_tokens,
-                kv_size_per_token)
-        else:
-            return CacheTransBufferManager.pre_alloc_buffer_size(
-                None, kv_size_per_token)
-    else:
-        return 0
-
-
 def estimate_max_kv_cache_tokens(py_executor: PyExecutor,
                                  model_engine: PyTorchModelEngine,
                                  executor_config: ExecutorConfig,
@@ -221,12 +196,7 @@ def estimate_max_kv_cache_tokens(py_executor: PyExecutor,
     total_used_bytes = total_gpu_memory - end
     activation_bytes = torch_peak_memory - model_bytes
     extra_cost = max(total_used_bytes - torch_used_bytes, 0)
-    kv_cache_transceiver_prealloc_size = get_cache_transceiver_prealloc_size(
-        executor_config, model_engine.model.model_config, mapping)
-    logger.info(
-        f"kv_cache_transceiver_prealloc_size: {kv_cache_transceiver_prealloc_size}"
-    )
-    peak_memory = torch_peak_memory + extra_cost + kv_cache_transceiver_prealloc_size
+    peak_memory = torch_peak_memory + extra_cost
     logger.info(
         f"Memory dynamically allocated during inference (inside torch) in memory usage profiling: {activation_bytes / (GB):.2f} GiB"
     )