init
This commit is contained in:
@@ -0,0 +1,14 @@
|
||||
MODEL_FILE=Qwen3.6-35B-A3B-MXFP4_MOE.gguf
|
||||
# Для -1 в .env лучше кавычки — иначе часть парсеров .env ломается на ведущем минусе.
|
||||
N_GPU_LAYERS="-1"
|
||||
|
||||
# Доп. ключи docker-compose (опционально; дефолты заданы в compose)
|
||||
CTX_SIZE=65536
|
||||
THREADS=8
|
||||
CACHE_TYPE_K=q8_0
|
||||
CACHE_TYPE_V=q8_0
|
||||
|
||||
# MoE (Qwen3.5-35B-A3B-Q4_K_M / MXFP4_MOE и т.д.): при OOM на GPU — CPU_MOE=1 или частично N_CPU_MOE=8
|
||||
# Для dense (Qwopus 27B, Qwen 9B) держите оба 0.
|
||||
CPU_MOE=0
|
||||
N_CPU_MOE=29
|
||||
@@ -0,0 +1,2 @@
|
||||
*.swp
|
||||
models
|
||||
@@ -0,0 +1,70 @@
|
||||
# llama.cpp + CUDA (Qwen3.x / крупные GGUF на 12 ГБ VRAM: гибрид GPU+CPU).
|
||||
# Нужны: драйвер NVIDIA, NVIDIA Container Toolkit, runtime nvidia в Docker.
|
||||
#
|
||||
# Модель: ./models/ + MODEL_FILE в .env.
|
||||
# Запуск: docker compose up -d или docker-compose up -d
|
||||
# Проверка: curl http://localhost:8080/health
|
||||
#
|
||||
# OOM: уменьшите CTX_SIZE (дефолт 50000), -ngl и/или cache types; при «каше» попробуйте bf16/f16 для KV (больше VRAM).
|
||||
# MoE: в .env CPU_MOE=1 при необходимости; число слоёв MoE на CPU — N_CPU_MOE (дефолт 99 в command); для dense оставьте CPU_MOE=0.
|
||||
# --mlock + Docker: поднимите memlock ниже; если предупреждение остаётся — проверьте default-ulimits в /etc/docker/daemon.json и лимиты пользователя на хосте.
|
||||
# Дефолт chat-template: instruct (enable_thinking=false). Режим thinking — поменяйте JSON у --chat-template-kwargs.
|
||||
|
||||
version: "3.8"
|
||||
|
||||
services:
|
||||
llama-server:
|
||||
image: ghcr.io/ggml-org/llama.cpp:server-cuda
|
||||
container_name: llama-server
|
||||
ports:
|
||||
- "${PORT:-8080}:8080"
|
||||
volumes:
|
||||
- ./models:/models:ro
|
||||
# Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit).
|
||||
runtime: nvidia
|
||||
environment:
|
||||
NVIDIA_VISIBLE_DEVICES: all
|
||||
# llama.cpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
|
||||
LLAMA_ARG_CPU_MOE: "${CPU_MOE:-0}"
|
||||
shm_size: 1gb
|
||||
ulimits:
|
||||
memlock:
|
||||
soft: -1
|
||||
hard: -1
|
||||
command:
|
||||
- "-m"
|
||||
- "/models/${MODEL_FILE:-model.gguf}"
|
||||
- "--host"
|
||||
- "0.0.0.0"
|
||||
- "--port"
|
||||
- "8080"
|
||||
- "--n-cpu-moe"
|
||||
- "${N_CPU_MOE:-99}"
|
||||
- "-c"
|
||||
- "${CTX_SIZE:-50000}"
|
||||
- "-np"
|
||||
- "1"
|
||||
- "-fa"
|
||||
- "on"
|
||||
- "--cache-type-k"
|
||||
- "${CACHE_TYPE_K:-q8_0}"
|
||||
- "--cache-type-v"
|
||||
- "${CACHE_TYPE_V:-turbo2}"
|
||||
- "--no-mmap"
|
||||
- "--mlock"
|
||||
- "--ctx-checkpoints"
|
||||
- "1"
|
||||
- "--cache-ram"
|
||||
- "0"
|
||||
- "--jinja"
|
||||
- "--reasoning"
|
||||
- "on"
|
||||
- "--reasoning-budget"
|
||||
- "-1"
|
||||
- "-b"
|
||||
- "2048"
|
||||
- "-ub"
|
||||
- "2048"
|
||||
- "--threads"
|
||||
- "${THREADS:-8}"
|
||||
restart: unless-stopped
|
||||
Reference in New Issue
Block a user