tianshu_vllm/.env

MODELSCOPE_CACHE=./modelscope_cache

# 模型名称（可自定义）
MODEL_ID=Qwen3-9B

# 模型文件路径
MODEL_DIR=./models/Qwen3.5-9B

HOST=0.0.0.0
PORT=9527

# 指定加载到哪些显卡0,1,2,3,4
CUDA_VISIBLE_DEVICES=0
# 张量并行卡数
TENSOR_PARALLEL_SIZE=1

# 上下文长度
MAX_MODEL_LEN=32768

# 显存占用比例。默认参数0.9，多余显存分配个KV Cache以支持高并发
GPU_MEMORY_UTILIZATION=0.4

# 计算精度
# DTYPE=bfloat16

# KV Cache 精度（auto/fp8）
# KV_CACHE_DTYPE=auto

# 最大并发序列数
MAX_NUM_SEQS=32

# 单批最大 token 数，根据并发和实际上下文需求配置，默认自动分配
MAX_NUM_BATCHED_TOKENSMAX=16384


# 其他运行开关
DISABLE_LOG_REQUESTS=False
ENABLE_LOG_REQUESTS=true

# VLLM运行模式DEBUG\INFO
VLLM_LOGGING_LEVEL=INFO

# Tool calling 配置，需要和模型配套，否则可能出现工具调用失败
ENABLE_AUTO_TOOL_CHOICE=true
TOOL_CALL_PARSER=qwen3_xml
REASONING_PARSER=qwen3

# 思考标记开关，QWEN3.5-9B不匹配
# DEFAULT_CHAT_TEMPLATE_KWARGS='{"enable_thinking": true}'

# 留空时使用模型自带 chat_template；如需官方工具模板可填绝对路径
# CHAT_TEMPLATE=

# enable-chunked-prefill分块预填空，避免瞬时大量占用内存
# max-num-partial-prefills 1限制同一时刻最多只有 1 个 处于“分块预填充中”的请求，提高稳定性。

TRUST_REMOTE_CODE=true
API_KEY=unis123

# 采样参数
# TEMPERATURE=1.0
# TOP_P=0.95
# TOP_K=64

LOG_DIR=./logs

# Auto download model when MODEL_DIR is missing on container start.
AUTO_DOWNLOAD_MODEL=true
MODEL_SOURCE=Qwen/Qwen3.5-9B
DOWNLOAD_CACHE_DIR=./modelscope_cache
SKIP_MODEL_DOWNLOAD_IF_EXISTS=true