From a0713b260b319b43f208b019b56e62099e9f755e Mon Sep 17 00:00:00 2001
From: GRayHook <s@marinkevich.ru>
Date: Sun, 3 May 2026 10:27:25 +0700
Subject: [PATCH] bump port

---
 docker-compose.yml | 3 ++-
 podman-llama.sh    | 6 ++++--
 2 files changed, 6 insertions(+), 3 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index fc593cd..26f1ffd 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -21,7 +21,8 @@ services:
     image: ghcr.io/ggml-org/llama.cpp:server-cuda
     container_name: llama-server
     ports:
-      - "${PORT:-8080}:8080"
+      # Явный IPv4 на хосте (избегаем привязки только к [::] в части окружений).
+      - "0.0.0.0:${PORT:-8080}:8080"
     volumes:
       - ./models:/models:ro
     # Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit).
diff --git a/podman-llama.sh b/podman-llama.sh
index 1708ce4..50da5ea 100755
--- a/podman-llama.sh
+++ b/podman-llama.sh
@@ -8,6 +8,7 @@
 # Из каталога репозитория: ./podman-llama.sh
 # Переменные — как в compose / .env: PORT, MODEL_FILE, CPU_MOE, N_CPU_MOE, CTX_SIZE,
 #   CACHE_TYPE_K, CACHE_TYPE_V, THREADS; образ: IMAGE (по умолчанию server-cuda).
+# Порт на хосте: только IPv4 (BIND_HOST по умолчанию 0.0.0.0), иначе Podman часто вешает [::].
 
 set -euo pipefail
 
@@ -30,6 +31,7 @@ fi
 : "${CACHE_TYPE_V:=turbo2}"
 : "${THREADS:=8}"
 : "${IMAGE:=ghcr.io/ggml-org/llama.cpp:server-cuda}"
+: "${BIND_HOST:=0.0.0.0}"
 
 # Разбить по пробелам для podman (пусто = только CDI-устройство).
 # Пример: PODMAN_GPU_FLAGS='--gpus all'
@@ -38,10 +40,10 @@ read -r -a PODMAN_GPU_FLAGS_ARR <<<"${PODMAN_GPU_FLAGS:---device nvidia.com/gpu=
 podman run -d \
   --name llama-server \
   --replace \
-  --restart unless-stopped \
+  --restart no \
   --shm-size 1g \
   --ulimit memlock=-1:-1 \
-  -p "${PORT}:8080" \
+  -p "${BIND_HOST}:${PORT}:8080" \
   -v "${ROOT}/models:/models:ro" \
   -e NVIDIA_VISIBLE_DEVICES=all \
   -e "LLAMA_ARG_CPU_MOE=${CPU_MOE}" \