bump port
This commit is contained in:
+2
-1
@@ -21,7 +21,8 @@ services:
|
|||||||
image: ghcr.io/ggml-org/llama.cpp:server-cuda
|
image: ghcr.io/ggml-org/llama.cpp:server-cuda
|
||||||
container_name: llama-server
|
container_name: llama-server
|
||||||
ports:
|
ports:
|
||||||
- "${PORT:-8080}:8080"
|
# Явный IPv4 на хосте (избегаем привязки только к [::] в части окружений).
|
||||||
|
- "0.0.0.0:${PORT:-8080}:8080"
|
||||||
volumes:
|
volumes:
|
||||||
- ./models:/models:ro
|
- ./models:/models:ro
|
||||||
# Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit).
|
# Старый docker-compose v1 не знает ключ `gpus:` — используем runtime nvidia (см. daemon.json от toolkit).
|
||||||
|
|||||||
+4
-2
@@ -8,6 +8,7 @@
|
|||||||
# Из каталога репозитория: ./podman-llama.sh
|
# Из каталога репозитория: ./podman-llama.sh
|
||||||
# Переменные — как в compose / .env: PORT, MODEL_FILE, CPU_MOE, N_CPU_MOE, CTX_SIZE,
|
# Переменные — как в compose / .env: PORT, MODEL_FILE, CPU_MOE, N_CPU_MOE, CTX_SIZE,
|
||||||
# CACHE_TYPE_K, CACHE_TYPE_V, THREADS; образ: IMAGE (по умолчанию server-cuda).
|
# CACHE_TYPE_K, CACHE_TYPE_V, THREADS; образ: IMAGE (по умолчанию server-cuda).
|
||||||
|
# Порт на хосте: только IPv4 (BIND_HOST по умолчанию 0.0.0.0), иначе Podman часто вешает [::].
|
||||||
|
|
||||||
set -euo pipefail
|
set -euo pipefail
|
||||||
|
|
||||||
@@ -30,6 +31,7 @@ fi
|
|||||||
: "${CACHE_TYPE_V:=turbo2}"
|
: "${CACHE_TYPE_V:=turbo2}"
|
||||||
: "${THREADS:=8}"
|
: "${THREADS:=8}"
|
||||||
: "${IMAGE:=ghcr.io/ggml-org/llama.cpp:server-cuda}"
|
: "${IMAGE:=ghcr.io/ggml-org/llama.cpp:server-cuda}"
|
||||||
|
: "${BIND_HOST:=0.0.0.0}"
|
||||||
|
|
||||||
# Разбить по пробелам для podman (пусто = только CDI-устройство).
|
# Разбить по пробелам для podman (пусто = только CDI-устройство).
|
||||||
# Пример: PODMAN_GPU_FLAGS='--gpus all'
|
# Пример: PODMAN_GPU_FLAGS='--gpus all'
|
||||||
@@ -38,10 +40,10 @@ read -r -a PODMAN_GPU_FLAGS_ARR <<<"${PODMAN_GPU_FLAGS:---device nvidia.com/gpu=
|
|||||||
podman run -d \
|
podman run -d \
|
||||||
--name llama-server \
|
--name llama-server \
|
||||||
--replace \
|
--replace \
|
||||||
--restart unless-stopped \
|
--restart no \
|
||||||
--shm-size 1g \
|
--shm-size 1g \
|
||||||
--ulimit memlock=-1:-1 \
|
--ulimit memlock=-1:-1 \
|
||||||
-p "${PORT}:8080" \
|
-p "${BIND_HOST}:${PORT}:8080" \
|
||||||
-v "${ROOT}/models:/models:ro" \
|
-v "${ROOT}/models:/models:ro" \
|
||||||
-e NVIDIA_VISIBLE_DEVICES=all \
|
-e NVIDIA_VISIBLE_DEVICES=all \
|
||||||
-e "LLAMA_ARG_CPU_MOE=${CPU_MOE}" \
|
-e "LLAMA_ARG_CPU_MOE=${CPU_MOE}" \
|
||||||
|
|||||||
Reference in New Issue
Block a user