Как запустить LLM без GPU на китайских серверах
GPU для запуска языковых моделей стал восприниматься как обязательное условие. Но это не совсем так.
CPU-инференс в 2026 году это рабочий вариант для конкретного класса задач: локальные ИИ-ассистенты, обработка документов, классификация, суммаризация. Серверный CPU с достаточным объёмом оперативной памяти справляется с моделями до 30-70 млрд параметров медленнее, чем GPU, но вполне приемлемо для корпоративных задач без требований к времени.
Почему CPU-инференс стал хорошим вариантом
Главное изменение последних двух лет это квантизация моделей. Модель с 7 млрд параметров в полной точности FP16 весит около 14 ГБ. После квантизации до 4 бит (формат Q4_K_M) та же модель занимает около 4 ГБ и помещается в обычную оперативную память сервера.
Качество при этом теряется незначительно. Для большинства корпоративных задач разница между FP16 и Q4_K_M практически незаметна.
Скорость CPU-инференса в 2026 году такова: сервер с 32 ядрами и 64+ ГБ RAM выдаёт 10-25 токенов в секунду на модели 14 млрд параметров в Q4_K_M. Для чата это нижняя граница комфортной скорости. Для пакетной обработки документов вполне достаточно.
Какое железо нужно
CPU-инференс критически зависит от двух параметров: количества ядер и объёма оперативной памяти.
Оперативная память - первичное ограничение. Модель должна целиком помещаться в RAM. Базовые ориентиры в формате Q4_K_M:
| Размер модели | Минимум RAM (Q4_K_M) | Рекомендуемый RAM с запасом |
| 7-8 млрд параметров | 6-8 ГБ | 16 ГБ |
| 13-14 млрд параметров | 10-12 ГБ | 32 ГБ |
| 30-34 млрд параметров | 22-25 ГБ | 64 ГБ |
| 70 млрд параметров | 45-50 ГБ | 128 ГБ |
Количество ядер влияет на скорость генерации. llama.cpp использует несколько потоков для матричных операций. Оптимальное количество потоков примерно равно числу физических ядер. На 32-ядерном сервере Intel Xeon 6 или AMD EPYC скорость инференса заметно выше, чем на 8-ядерном.
Пропускная способность памяти - менее очевидный, но важный параметр. LLM-инференс на CPU ограничен скоростью чтения весов модели из RAM. Серверы с многоканальной памятью DDR5 здесь выигрывают у DDR4 в скорости генерации.
Конкретные примеры подходящего китайского серверного железа:
- Сервер на AMD EPYC 9004 с 256-512 ГБ DDR5 - хороший вариант для моделей до 70 млрд параметров
- Двухпроцессорный сервер на Intel Xeon 6 с 256+ ГБ RAM - высокая суммарная пропускная способность памяти
- Сервер MSI или Gigabyte в barebone-конфигурации с самостоятельно подобранной памятью под конкретную модель
Инструменты запуска
Три основных варианта для CPU-инференса.
llama.cpp - основной инструмент. Написан на C/C++, работает без тяжёлых зависимостей, автоматически определяет доступные векторные инструкции процессора (AVX2, AVX-512) и использует их для ускорения матричных операций. Встроенный сервер даёт OpenAI-совместимый API - подключать к нему приложения можно без изменения кода.
Сборка под Linux:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_AVX2=ON -DGGML_AVX512=ON
cmake --build build --config Release -j$(nproc)
Запуск сервера:
./build/bin/llama-server \
--model ./models/qwen3-14b-q4_k_m.gguf \
--ctx-size 8192 \
--threads $(nproc) \
--host 0.0.0.0 \
--port 8080
Ollama - более простой вариант для тех, кому не нужна ручная настройка. Устанавливается одной командой, автоматически скачивает модели, предоставляет тот же OpenAI-совместимый API. Под капотом использует llama.cpp. Хороший выбор для быстрого старта.
vLLM с CPU-бэкендом - появился в полноценном виде в 2025 году. Лучше подходит для серверных сценариев с несколькими одновременными запросами. Требует Python и больше настройки, но даёт более гибкое управление параллельными запросами.
Какие модели выбрать
Не все открытые модели одинаково хорошо работают на CPU. Несколько практических ориентиров.
Qwen 3 от Alibaba - самая скачиваемая серия моделей на Hugging Face по данным середины 2026 года. Хорошо работает с русским языком, поддерживает инструменты и function calling, доступна в размерах от 7B до 235B. Для старта рекомендуется Qwen3-14B в Q4_K_M.
Llama 3.3 70B в Q4_K_M - если важно качество рассуждений и объём RAM позволяет. Потребует около 45-50 ГБ, скорость на CPU будет 3-8 токенов в секунду в зависимости от конфигурации.
Mistral 7B и Mixtral 8x7B - компактные и быстрые варианты для задач классификации, суммаризации, извлечения данных. 7B модель на хорошем серверном CPU выдаёт 15-30 токенов в секунду.
DeepSeek-R1 дистилляты - если нужны рассуждения и логика. Дистиллированные версии на 7B и 14B параметров сохраняют значительную часть возможностей полной модели при разумных требованиях к RAM.
Практическая конфигурация под корпоративные задачи
Реалистичный сценарий для небольшой компании или отдела: один сервер без GPU, модель Qwen3-14B в Q4_K_M, llama.cpp или Ollama в качестве сервера, подключение через OpenAI API к корпоративным инструментам.
Такая конфигурация закрывает:
- Ответы на вопросы по внутренней документации через RAG
- Суммаризацию технических документов и отчётов
- Классификацию входящих запросов и их маршрутизацию
- Генерацию текста по шаблонам
- Извлечение структурированных данных из неструктурированного текста
Скорость - 10-20 токенов в секунду при одиночных запросах. Для большинства из перечисленных задач этого достаточно.
Что учесть при планировании
NUMA-топология важна на двухпроцессорных серверах. Если модель не помещается в локальную память одного процессора, запросы к памяти второго процессора замедляют инференс. При планировании закупки сервера под CPU-инференс лучше взять один мощный процессор с большим объёмом RAM, чем два слабых.
Размер контекста напрямую влияет на потребление RAM. Контекст 8192 токенов - разумный баланс. Увеличение до 32768 и выше требует дополнительных гигабайт под KV-кэш.
AVX-512 ускоряет инференс на Intel Xeon Scalable заметно по сравнению с AVX2. При сборке llama.cpp стоит убедиться, что флаг AVX-512 включён.
Если подбираете серверную конфигурацию под CPU-инференс - под конкретную модель и задачу, то специалисты Азияторг помогут выбрать подходящее железо и организуют поставку. Пишите на server@tkasiatorg.ru.

