From a0713b260b319b43f208b019b56e62099e9f755e Mon Sep 17 00:00:00 2001 From: GRayHook Date: Sun, 3 May 2026 10:27:25 +0700 Subject: [PATCH] bump port --- docker-compose.yml | 3 ++- podman-llama.sh | 6 ++++-- 2 files changed, 6 insertions(+), 3 deletions(-) diff --git a/docker-compose.yml b/docker-compose.yml index fc593cd..26f1ffd 100644 --- a/docker-compose.yml +++ b/docker-compose.yml @@ -21,7 +21,8 @@ services: image: ghcr.io/ggml-org/llama.cpp:server-cuda container_name: llama-server ports: - - "${PORT:-8080}:8080" + # Явный IPv4 на хосте (избегаем привязки только к [::] в части окружений). + - "0.0.0.0:${PORT:-8080}:8080" volumes: - ./models:/models:ro # Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit). diff --git a/podman-llama.sh b/podman-llama.sh index 1708ce4..50da5ea 100755 --- a/podman-llama.sh +++ b/podman-llama.sh @@ -8,6 +8,7 @@ # Из каталога репозитория: ./podman-llama.sh # Переменные — как в compose / .env: PORT, MODEL_FILE, CPU_MOE, N_CPU_MOE, CTX_SIZE, # CACHE_TYPE_K, CACHE_TYPE_V, THREADS; образ: IMAGE (по умолчанию server-cuda). +# Порт на хосте: только IPv4 (BIND_HOST по умолчанию 0.0.0.0), иначе Podman часто вешает [::]. set -euo pipefail @@ -30,6 +31,7 @@ fi : "${CACHE_TYPE_V:=turbo2}" : "${THREADS:=8}" : "${IMAGE:=ghcr.io/ggml-org/llama.cpp:server-cuda}" +: "${BIND_HOST:=0.0.0.0}" # Разбить по пробелам для podman (пусто = только CDI-устройство). # Пример: PODMAN_GPU_FLAGS='--gpus all' @@ -38,10 +40,10 @@ read -r -a PODMAN_GPU_FLAGS_ARR <<<"${PODMAN_GPU_FLAGS:---device nvidia.com/gpu= podman run -d \ --name llama-server \ --replace \ - --restart unless-stopped \ + --restart no \ --shm-size 1g \ --ulimit memlock=-1:-1 \ - -p "${PORT}:8080" \ + -p "${BIND_HOST}:${PORT}:8080" \ -v "${ROOT}/models:/models:ro" \ -e NVIDIA_VISIBLE_DEVICES=all \ -e "LLAMA_ARG_CPU_MOE=${CPU_MOE}" \