ИИ: Установка Qwen3.5-35B-A3B

Редактировал(а) Алексей Александрович Иванов 2026/03/06 08:07

1️⃣ Установка llama.cpp

bash

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=OFF
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/

2️⃣ Скачивание модели

bash

pip install huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1

# Для 4-bit (рекомендуется)
huggingface-cli download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir ./qwen3.5-35b \
    --include "*UD-Q4_K_XL*"

3️⃣ Запуск (выберите режим)

Режим мышления (thinking) - кодинг:

bash

cd llama.cpp
./llama-cli \
    --model ../qwen3.5-35b/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --interactive

Режим без мышления (non-thinking) - общие задачи:

bash

cd llama.cpp
./llama-cli \
    --model ../qwen3.5-35b/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}' \
    --interactive

4️⃣ Запуск веб-сервера

bash

cd llama.cpp
./llama-server \
    --model ../qwen3.5-35b/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --host 0.0.0.0 \
    --port 8080

Веб-интерфейс будет доступен по адресу: http://localhost:8080

⚡ Быстрый тест

bash

echo 'Привет!' | ./llama-cli --model ../qwen3.5-35b/*.gguf --temp 0.7 --n-predict 100

Требования: ~22GB RAM для 4-bit версии.