init

2026-05-02 19:54:28 +07:00
commit 5a5cef0c90
3 changed files with 86 additions and 0 deletions
@@ -0,0 +1,14 @@
 MODEL_FILE=Qwen3.6-35B-A3B-MXFP4_MOE.gguf
 # Для -1 в .env лучше кавычки — иначе часть парсеров .env ломается на ведущем минусе.
 N_GPU_LAYERS="-1"
 # Доп. ключи docker-compose (опционально; дефолты заданы в compose)
 CTX_SIZE=65536
 THREADS=8
 CACHE_TYPE_K=q8_0
 CACHE_TYPE_V=q8_0
 # MoE (Qwen3.5-35B-A3B-Q4_K_M / MXFP4_MOE и т.д.): при OOM на GPU — CPU_MOE=1 или частично N_CPU_MOE=8
 # Для dense (Qwopus 27B, Qwen 9B) держите оба 0.
 CPU_MOE=0
 N_CPU_MOE=29
@@ -0,0 +1,2 @@
 *.swp
 models
@@ -0,0 +1,70 @@
 # llama.cpp + CUDA (Qwen3.x / крупные GGUF на 12 ГБ VRAM: гибрид GPU+CPU).
 # Нужны: драйвер NVIDIA, NVIDIA Container Toolkit, runtime nvidia в Docker.
 #
 # Модель: ./models/ + MODEL_FILE в .env.
 # Запуск: docker compose up -d или docker-compose up -d
 # Проверка: curl http://localhost:8080/health
 #
 # OOM: уменьшите CTX_SIZE (дефолт 50000), -ngl и/или cache types; при «каше» попробуйте bf16/f16 для KV (больше VRAM).
 # MoE: в .env CPU_MOE=1 при необходимости; число слоёв MoE на CPU — N_CPU_MOE (дефолт 99 в command); для dense оставьте CPU_MOE=0.
 # --mlock + Docker: поднимите memlock ниже; если предупреждение остаётся — проверьте default-ulimits в /etc/docker/daemon.json и лимиты пользователя на хосте.
 # Дефолт chat-template: instruct (enable_thinking=false). Режим thinking — поменяйте JSON у --chat-template-kwargs.
 version: "3.8"
 services:
  llama-server:
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    container_name: llama-server
    ports:
      - "${PORT:-8080}:8080"
    volumes:
      - ./models:/models:ro
    # Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit).
    runtime: nvidia
    environment:
      NVIDIA_VISIBLE_DEVICES: all
      # llama.cpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
      LLAMA_ARG_CPU_MOE: "${CPU_MOE:-0}"
    shm_size: 1gb
    ulimits:
      memlock:
        soft: -1
        hard: -1
    command:
      - "-m"
      - "/models/${MODEL_FILE:-model.gguf}"
      - "--host"
      - "0.0.0.0"
      - "--port"
      - "8080"
      - "--n-cpu-moe"
      - "${N_CPU_MOE:-99}"
      - "-c"
      - "${CTX_SIZE:-50000}"
      - "-np"
      - "1"
      - "-fa"
      - "on"
      - "--cache-type-k"
      - "${CACHE_TYPE_K:-q8_0}"
      - "--cache-type-v"
      - "${CACHE_TYPE_V:-turbo2}"
      - "--no-mmap"
      - "--mlock"
      - "--ctx-checkpoints"
      - "1"
      - "--cache-ram"
      - "0"
      - "--jinja"
      - "--reasoning"
      - "on"
      - "--reasoning-budget"
      - "-1"
      - "-b"
      - "2048"
      - "-ub"
      - "2048"
      - "--threads"
      - "${THREADS:-8}"
    restart: unless-stopped