Сетевое. серверное и телекоммуникационное оборудование

8 800 600-81-40

Заказать звонок

Задать вопрос

server@tkasiatorg.ru почта для заявок

Екатеринбург, ул. Основинская, д. 10, офис 318 (БЦ "Основа")

Москва, Алтуфьевское шоссе, 48к2, офис 314 (БЦ "А-48")

China, Guangzhou, Room 1310, 13th Floor, Minggaocheng Office Building, No. 123 Yingbin Avenue, Huadu District

пн-пт: с 09:00 до 19:00
сб-вс: выходной день

8 800 600-81-40

Заказать звонок

Сравнение0

Сравнение0 Корзина 0

Контактная информация

server@tkasiatorg.ru почта для заявок

Как запустить LLM без GPU на китайских серверах

19 мая 2026 17:27

GPU для запуска языковых моделей стал восприниматься как обязательное условие. Но это не совсем так.
CPU-инференс в 2026 году это рабочий вариант для конкретного класса задач: локальные ИИ-ассистенты, обработка документов, классификация, суммаризация. Серверный CPU с достаточным объёмом оперативной памяти справляется с моделями до 30-70 млрд параметров медленнее, чем GPU, но вполне приемлемо для корпоративных задач без требований к времени.

Почему CPU-инференс стал хорошим вариантом

Главное изменение последних двух лет это квантизация моделей. Модель с 7 млрд параметров в полной точности FP16 весит около 14 ГБ. После квантизации до 4 бит (формат Q4_K_M) та же модель занимает около 4 ГБ и помещается в обычную оперативную память сервера.

Качество при этом теряется незначительно. Для большинства корпоративных задач разница между FP16 и Q4_K_M практически незаметна.

Скорость CPU-инференса в 2026 году такова: сервер с 32 ядрами и 64+ ГБ RAM выдаёт 10-25 токенов в секунду на модели 14 млрд параметров в Q4_K_M. Для чата это нижняя граница комфортной скорости. Для пакетной обработки документов вполне достаточно.

Какое железо нужно

CPU-инференс критически зависит от двух параметров: количества ядер и объёма оперативной памяти.

Оперативная память - первичное ограничение. Модель должна целиком помещаться в RAM. Базовые ориентиры в формате Q4_K_M:

Размер модели	Минимум RAM (Q4_K_M)	Рекомендуемый RAM с запасом
7-8 млрд параметров	6-8 ГБ	16 ГБ
13-14 млрд параметров	10-12 ГБ	32 ГБ
30-34 млрд параметров	22-25 ГБ	64 ГБ
70 млрд параметров	45-50 ГБ	128 ГБ

Количество ядер влияет на скорость генерации. llama.cpp использует несколько потоков для матричных операций. Оптимальное количество потоков примерно равно числу физических ядер. На 32-ядерном сервере Intel Xeon 6 или AMD EPYC скорость инференса заметно выше, чем на 8-ядерном.

Пропускная способность памяти - менее очевидный, но важный параметр. LLM-инференс на CPU ограничен скоростью чтения весов модели из RAM. Серверы с многоканальной памятью DDR5 здесь выигрывают у DDR4 в скорости генерации.

Конкретные примеры подходящего китайского серверного железа:

Сервер на AMD EPYC 9004 с 256-512 ГБ DDR5 - хороший вариант для моделей до 70 млрд параметров
Двухпроцессорный сервер на Intel Xeon 6 с 256+ ГБ RAM - высокая суммарная пропускная способность памяти
Сервер MSI или Gigabyte в barebone-конфигурации с самостоятельно подобранной памятью под конкретную модель

Инструменты запуска

Три основных варианта для CPU-инференса.

llama.cpp - основной инструмент. Написан на C/C++, работает без тяжёлых зависимостей, автоматически определяет доступные векторные инструкции процессора (AVX2, AVX-512) и использует их для ускорения матричных операций. Встроенный сервер даёт OpenAI-совместимый API - подключать к нему приложения можно без изменения кода.

Сборка под Linux:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_AVX2=ON -DGGML_AVX512=ON
cmake --build build --config Release -j$(nproc)

Запуск сервера:

./build/bin/llama-server \
  --model ./models/qwen3-14b-q4_k_m.gguf \
  --ctx-size 8192 \
  --threads $(nproc) \
  --host 0.0.0.0 \
  --port 8080

Ollama - более простой вариант для тех, кому не нужна ручная настройка. Устанавливается одной командой, автоматически скачивает модели, предоставляет тот же OpenAI-совместимый API. Под капотом использует llama.cpp. Хороший выбор для быстрого старта.

vLLM с CPU-бэкендом - появился в полноценном виде в 2025 году. Лучше подходит для серверных сценариев с несколькими одновременными запросами. Требует Python и больше настройки, но даёт более гибкое управление параллельными запросами.

Какие модели выбрать

Не все открытые модели одинаково хорошо работают на CPU. Несколько практических ориентиров.

Qwen 3 от Alibaba - самая скачиваемая серия моделей на Hugging Face по данным середины 2026 года. Хорошо работает с русским языком, поддерживает инструменты и function calling, доступна в размерах от 7B до 235B. Для старта рекомендуется Qwen3-14B в Q4_K_M.

Llama 3.3 70B в Q4_K_M - если важно качество рассуждений и объём RAM позволяет. Потребует около 45-50 ГБ, скорость на CPU будет 3-8 токенов в секунду в зависимости от конфигурации.

Mistral 7B и Mixtral 8x7B - компактные и быстрые варианты для задач классификации, суммаризации, извлечения данных. 7B модель на хорошем серверном CPU выдаёт 15-30 токенов в секунду.

DeepSeek-R1 дистилляты - если нужны рассуждения и логика. Дистиллированные версии на 7B и 14B параметров сохраняют значительную часть возможностей полной модели при разумных требованиях к RAM.

Практическая конфигурация под корпоративные задачи

Реалистичный сценарий для небольшой компании или отдела: один сервер без GPU, модель Qwen3-14B в Q4_K_M, llama.cpp или Ollama в качестве сервера, подключение через OpenAI API к корпоративным инструментам.

Такая конфигурация закрывает:

Ответы на вопросы по внутренней документации через RAG
Суммаризацию технических документов и отчётов
Классификацию входящих запросов и их маршрутизацию
Генерацию текста по шаблонам
Извлечение структурированных данных из неструктурированного текста

Скорость - 10-20 токенов в секунду при одиночных запросах. Для большинства из перечисленных задач этого достаточно.

Что учесть при планировании

NUMA-топология важна на двухпроцессорных серверах. Если модель не помещается в локальную память одного процессора, запросы к памяти второго процессора замедляют инференс. При планировании закупки сервера под CPU-инференс лучше взять один мощный процессор с большим объёмом RAM, чем два слабых.

Размер контекста напрямую влияет на потребление RAM. Контекст 8192 токенов - разумный баланс. Увеличение до 32768 и выше требует дополнительных гигабайт под KV-кэш.

AVX-512 ускоряет инференс на Intel Xeon Scalable заметно по сравнению с AVX2. При сборке llama.cpp стоит убедиться, что флаг AVX-512 включён.

Если подбираете серверную конфигурацию под CPU-инференс - под конкретную модель и задачу, то специалисты Азияторг помогут выбрать подходящее железо и организуют поставку. Пишите на server@tkasiatorg.ru.

Назад к списку