refactor: move backends lists to config.py

tjohnson31415 · tjohnson31415 · commit b4b8e2d0e3a4 · 2025-04-14T10:51:03.000-06:00
Signed-off-by: Travis Johnson &lt;tsjohnso@us.ibm.com&gt;
diff --git a/vllm/config.py b/vllm/config.py
@@ -27,8 +27,6 @@
 import vllm.envs as envs
 from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
 from vllm.logger import init_logger
-from vllm.model_executor.guided_decoding import (GUIDED_DECODING_BACKENDS_V0,
-                                                 GUIDED_DECODING_BACKENDS_V1)
 from vllm.model_executor.layers.quantization import (QUANTIZATION_METHODS,
                                                      get_quantization_config)
 from vllm.model_executor.models import ModelRegistry
@@ -60,6 +58,11 @@
 
 logger = init_logger(__name__)
 
+GUIDED_DECODING_BACKENDS_V0 = [
+    "outlines", "lm-format-enforcer", "xgrammar", "guidance", "auto"
+]
+GUIDED_DECODING_BACKENDS_V1 = ["xgrammar", "guidance", "auto"]
+
 # This value is chosen to have a balance between ITL and TTFT. Note it is
 # not optimized for throughput.
 _DEFAULT_MAX_NUM_BATCHED_TOKENS = 2048
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -13,16 +13,16 @@
 
 import vllm.envs as envs
 from vllm import version
-from vllm.config import (CacheConfig, CompilationConfig, ConfigFormat,
-                         DecodingConfig, DeviceConfig, HfOverrides,
-                         KVTransferConfig, LoadConfig, LoadFormat, LoRAConfig,
-                         ModelConfig, ModelImpl, ObservabilityConfig,
-                         ParallelConfig, PoolerConfig, PromptAdapterConfig,
-                         SchedulerConfig, SpeculativeConfig, TaskOption,
-                         TokenizerPoolConfig, VllmConfig, get_attr_docs)
+from vllm.config import (GUIDED_DECODING_BACKENDS_V1, CacheConfig,
+                         CompilationConfig, ConfigFormat, DecodingConfig,
+                         DeviceConfig, HfOverrides, KVTransferConfig,
+                         LoadConfig, LoadFormat, LoRAConfig, ModelConfig,
+                         ModelImpl, ObservabilityConfig, ParallelConfig,
+                         PoolerConfig, PromptAdapterConfig, SchedulerConfig,
+                         SpeculativeConfig, TaskOption, TokenizerPoolConfig,
+                         VllmConfig, get_attr_docs)
 from vllm.executor.executor_base import ExecutorBase
 from vllm.logger import init_logger
-from vllm.model_executor.guided_decoding import GUIDED_DECODING_BACKENDS_V1
 from vllm.model_executor.layers.quantization import QUANTIZATION_METHODS
 from vllm.plugins import load_general_plugins
 from vllm.reasoning import ReasoningParserManager
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
@@ -7,8 +7,8 @@
 from collections.abc import Awaitable, Iterable
 from functools import cache, lru_cache, partial
 from pathlib import Path
-from typing import (TYPE_CHECKING, Any, Callable, Generic, Literal, Optional,
-                    TypeVar, Union, cast)
+from typing import (Any, Callable, Generic, Literal, Optional, TypeVar, Union,
+                    cast)
 
 import jinja2.nodes
 import transformers.utils.chat_template_utils as hf_chat_utils
@@ -33,15 +33,13 @@
                           ProcessorMixin)
 from typing_extensions import Required, TypeAlias, TypedDict
 
+from vllm.config import ModelConfig
 from vllm.logger import init_logger
 from vllm.multimodal import MultiModalDataDict
 from vllm.multimodal.utils import MediaConnector
 from vllm.transformers_utils.processor import cached_get_processor
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
 
-if TYPE_CHECKING:
-    from vllm.config import ModelConfig
-
 logger = init_logger(__name__)
 
 
@@ -449,7 +447,7 @@ class BaseMultiModalItemTracker(ABC, Generic[_T]):
     maximum per prompt.
     """
 
-    def __init__(self, model_config: "ModelConfig", tokenizer: AnyTokenizer):
+    def __init__(self, model_config: ModelConfig, tokenizer: AnyTokenizer):
         super().__init__()
 
         self._model_config = model_config
@@ -460,7 +458,7 @@ def __init__(self, model_config: "ModelConfig", tokenizer: AnyTokenizer):
         self._items_by_modality = defaultdict[str, list[_T]](list)
 
     @property
-    def model_config(self) -> "ModelConfig":
+    def model_config(self) -> ModelConfig:
         return self._model_config
 
     @property
@@ -1105,7 +1103,7 @@ def _postprocess_messages(messages: list[ConversationMessage]) -> None:
 
 def parse_chat_messages(
     messages: list[ChatCompletionMessageParam],
-    model_config: "ModelConfig",
+    model_config: ModelConfig,
     tokenizer: AnyTokenizer,
     content_format: _ChatTemplateContentFormat,
 ) -> tuple[list[ConversationMessage], Optional[MultiModalDataDict]]:
@@ -1128,7 +1126,7 @@ def parse_chat_messages(
 
 def parse_chat_messages_futures(
     messages: list[ChatCompletionMessageParam],
-    model_config: "ModelConfig",
+    model_config: ModelConfig,
     tokenizer: AnyTokenizer,
     content_format: _ChatTemplateContentFormat,
 ) -> tuple[list[ConversationMessage], Awaitable[Optional[MultiModalDataDict]]]:
diff --git a/vllm/model_executor/guided_decoding/__init__.py b/vllm/model_executor/guided_decoding/__init__.py
@@ -19,11 +19,6 @@
 
 logger = init_logger(__name__)
 
-GUIDED_DECODING_BACKENDS_V0 = [
-    "outlines", "lm-format-enforcer", "xgrammar", "guidance", "auto"
-]
-GUIDED_DECODING_BACKENDS_V1 = ["xgrammar", "guidance", "auto"]
-
 
 def maybe_backend_fallback(
         guided_params: GuidedDecodingParams) -> GuidedDecodingParams: