Азияторг - серверное и сетевое оборудование купить от дилера
Сетевое. серверное и телекоммуникационное оборудование
Каталог
Серверное оборудование
xFusion
Huawei
H3C
HP (HPE)
Dell
Cisco
IBM
Lenovo
Gigabyte
Supermicro
Fujitsu
Oracle
Inspur
ASUS
Tyan
QCT
AIC
Gooxi
Kontron
Системы хранения данных
Huawei
Dell
HP (HPE)
IBM
Lenovo
Infortrend
Supermicro
NetApp
QNAP
Cisco
Seagate
Western Digital
Synology
PureStorage
Hitachi
Infinidat
Acronis
Nutanix
Fujitsu
QSAN
ASUSTOR
Коммутаторы
Huawei
H3C
HP (HPE)
Dell
Brocade
Cisco
Extreme
HIRSCHMANN
Juniper
MOXA
Mellanox
Ruckus
Ruijie
Arista
Alcatel-Lucent
NETGEAR
TP-Link
Fortinet
D-Link
Ubiquiti
Lenovo
Schneider Electric
Edgecore
NVIDIA
FS
MikroTik
ZYXEL
Maipu
Allied Telesis
Маршрутизаторы
Huawei
H3C
HP
Check Point
Cisco
Fortinet
Juniper
Brocade
Palo Alto Networks
MikroTik
Ubiquiti
ZYXEL
Peplink
MOXA
Maipu
FPGA
Платы расширения
Платы разработки
Комплексные решения
Платформы на базе SoC
Робототехника
Кабели USB Blaster
Одноплатные компьютеры
Комплектующие
Оперативная память
Контроллеры
Накопители
Процессоры
Источники питания
Модули
Приводы
Сетевые адаптеры\карты
Кабели
Аксессуары для стоек
Вентиляторы
Платы
Радиаторы
Стриммеры
Шасси\корпуса
Лицевые панели
Райзер-карты
Лицензии
Сервисные контракты
Антенны
Преобразователи
Дисплеи
Видеокарты NVIDIA
Оптические трансиверы
WiFi
Телефония/VoIP
Системы конференцсвязи
Cisco
Aiwia
Biamp
AVIOM
Beyerdynamic
Системы автоматизации
Блог
Покупателям
Условия оплаты
Условия доставки
Гарантия на товар
О компании
О компании
Контакты
Партнеры
Документы
Контакты
8 800 600-81-40
Заказать звонок
Задать вопрос
Войти
  • Корзина0
  • Сравнение товаров0
server@tkasiatorg.ru почта для заявок
Екатеринбург, ул. Основинская, д. 10, офис 318 (БЦ "Основа")

Москва, Алтуфьевское шоссе, 48к2, офис 314 (БЦ "А-48")

China, Guangzhou, Room 1310, 13th Floor, Minggaocheng Office Building, No. 123 Yingbin Avenue, Huadu District

пн-пт: с 09:00 до 19:00
сб-вс: выходной день

Азияторг - серверное и сетевое оборудование купить от дилера
SERVER@TKASIATORG.RU
8 800 600-81-40
Запросить стоимость
  • Мой кабинет
  • Текущие заказы
  • Личный счет
  • Личные данные
  • Сменить пароль
  • История заказов
  • Профили заказов
  • Корзина
  • Подписки
  • Контакты
  • Избранные товары
Сравнение0
Каталог
Серверное оборудование
Системы хранения данных
Коммутаторы
Маршрутизаторы
FPGA
Комплектующие
Видеокарты NVIDIA
Оптические трансиверы
WiFi
Телефония/VoIP
Системы конференцсвязи
Системы автоматизации
    • xFusion
      xFusion
    • Huawei
      Huawei
    • H3C
      H3C
    • HP (HPE)
      HP (HPE)
    • Dell
      Dell
    • Cisco
      Cisco
    • IBM
      IBM
    • Lenovo
      Lenovo
    • Gigabyte
      Gigabyte
    • Supermicro
      Supermicro
    • Fujitsu
      Fujitsu
    • Oracle
      Oracle
    • Inspur
      Inspur
    • ASUS
      ASUS
    • Tyan
      Tyan
    • QCT
      QCT
    • AIC
      AIC
    • Gooxi
      Gooxi
    • Kontron
      Kontron
    • Huawei
      Huawei
    • Dell
      Dell
    • HP (HPE)
      HP (HPE)
    • IBM
      IBM
    • Lenovo
      Lenovo
    • Infortrend
      Infortrend
    • Supermicro
      Supermicro
    • NetApp
      NetApp
    • QNAP
      QNAP
    • Cisco
      Cisco
    • Seagate
      Seagate
    • Western Digital
      Western Digital
    • Synology
      Synology
    • PureStorage
      PureStorage
    • Hitachi
      Hitachi
    • Infinidat
      Infinidat
    • Acronis
      Acronis
    • Nutanix
      Nutanix
    • Fujitsu
      Fujitsu
    • QSAN
      QSAN
    • ASUSTOR
      ASUSTOR
    • Huawei
      Huawei
    • H3C
      H3C
    • HP (HPE)
      HP (HPE)
    • Dell
      Dell
    • Brocade
      Brocade
    • Cisco
      Cisco
    • Extreme
      Extreme
    • HIRSCHMANN
      HIRSCHMANN
    • Juniper
      Juniper
    • MOXA
      MOXA
    • Mellanox
      Mellanox
    • Ruckus
      Ruckus
    • Ruijie
      Ruijie
    • Arista
      Arista
    • Alcatel-Lucent
      Alcatel-Lucent
    • NETGEAR
      NETGEAR
    • TP-Link
      TP-Link
    • Fortinet
      Fortinet
    • D-Link
      D-Link
    • Ubiquiti
      Ubiquiti
    • Lenovo
      Lenovo
    • Schneider Electric
      Schneider Electric
    • Edgecore
      Edgecore
    • NVIDIA
      NVIDIA
    • FS
      FS
    • MikroTik
      MikroTik
    • ZYXEL
      ZYXEL
    • Maipu
      Maipu
    • Allied Telesis
      Allied Telesis
    • Huawei
      Huawei
    • H3C
      H3C
    • HP
      HP
    • Check Point
      Check Point
    • Cisco
      Cisco
    • Fortinet
      Fortinet
    • Juniper
      Juniper
    • Brocade
      Brocade
    • Palo Alto Networks
      Palo Alto Networks
    • MikroTik
      MikroTik
    • Ubiquiti
      Ubiquiti
    • ZYXEL
      ZYXEL
    • Peplink
      Peplink
    • MOXA
      MOXA
    • Maipu
      Maipu
    • Платы расширения
      Платы расширения
    • Платы разработки
      Платы разработки
    • Комплексные решения
      Комплексные решения
    • Платформы на базе SoC
      Платформы на базе SoC
    • Робототехника
      Робототехника
    • Кабели USB Blaster
      Кабели USB Blaster
    • Одноплатные компьютеры
      Одноплатные компьютеры
    • Оперативная память
      Оперативная память
    • Контроллеры
      Контроллеры
    • Накопители
      Накопители
    • Процессоры
      Процессоры
    • Источники питания
      Источники питания
    • Модули
      Модули
    • Приводы
      Приводы
    • Сетевые адаптеры\карты
      Сетевые адаптеры\карты
    • Кабели
      Кабели
    • Аксессуары для стоек
      Аксессуары для стоек
    • Вентиляторы
      Вентиляторы
    • Платы
      Платы
    • Радиаторы
      Радиаторы
    • Стриммеры
      Стриммеры
    • Шасси\корпуса
      Шасси\корпуса
    • Лицевые панели
      Лицевые панели
    • Райзер-карты
      Райзер-карты
    • Лицензии
      Лицензии
    • Сервисные контракты
      Сервисные контракты
    • Антенны
      Антенны
    • Преобразователи
      Преобразователи
    • Дисплеи
      Дисплеи
    • Cisco
      Cisco
    • Aiwia
      Aiwia
    • Biamp
      Biamp
    • AVIOM
    • Beyerdynamic
Блог
Покупателям
  • Условия оплаты
  • Условия доставки
  • Гарантия на товар
О компании
  • О компании
  • Контакты
  • Партнеры
  • Документы
Контакты
+  ЕЩЕ
    Азияторг - серверное и сетевое оборудование купить от дилера
    8 800 600-81-40
    Заказать звонок
    Сравнение0
    Азияторг - серверное и сетевое оборудование купить от дилера
    Сравнение0 Корзина 0
    Телефоны
    8 800 600-81-40
    Заказать звонок
    • Каталог
      • Назад
      • Каталог
      • Серверное оборудование Серверное оборудование
        • Назад
        • Серверное оборудование
        • xFusion xFusion
        • Huawei Huawei
        • H3C H3C
        • HP (HPE) HP (HPE)
        • Dell Dell
        • Cisco Cisco
        • IBM IBM
        • Lenovo Lenovo
        • Gigabyte Gigabyte
        • Supermicro Supermicro
        • Fujitsu Fujitsu
        • Oracle Oracle
        • Inspur Inspur
        • ASUS ASUS
        • Tyan Tyan
        • QCT QCT
        • AIC AIC
        • Gooxi Gooxi
        • Kontron Kontron
      • Системы хранения данных Системы хранения данных
        • Назад
        • Системы хранения данных
        • Huawei Huawei
        • Dell Dell
        • HP (HPE) HP (HPE)
        • IBM IBM
        • Lenovo Lenovo
        • Infortrend Infortrend
        • Supermicro Supermicro
        • NetApp NetApp
        • QNAP QNAP
        • Cisco Cisco
        • Seagate Seagate
        • Western Digital Western Digital
        • Synology Synology
        • PureStorage PureStorage
        • Hitachi Hitachi
        • Infinidat Infinidat
        • Acronis Acronis
        • Nutanix Nutanix
        • Fujitsu Fujitsu
        • QSAN QSAN
        • ASUSTOR ASUSTOR
      • Коммутаторы Коммутаторы
        • Назад
        • Коммутаторы
        • Huawei Huawei
        • H3C H3C
        • HP (HPE) HP (HPE)
        • Dell Dell
        • Brocade Brocade
        • Cisco Cisco
        • Extreme Extreme
        • HIRSCHMANN HIRSCHMANN
        • Juniper Juniper
        • MOXA MOXA
        • Mellanox Mellanox
        • Ruckus Ruckus
        • Ruijie Ruijie
        • Arista Arista
        • Alcatel-Lucent Alcatel-Lucent
        • NETGEAR NETGEAR
        • TP-Link TP-Link
        • Fortinet Fortinet
        • D-Link D-Link
        • Ubiquiti Ubiquiti
        • Lenovo Lenovo
        • Schneider Electric Schneider Electric
        • Edgecore Edgecore
        • NVIDIA NVIDIA
        • FS FS
        • MikroTik MikroTik
        • ZYXEL ZYXEL
        • Maipu Maipu
        • Allied Telesis Allied Telesis
      • Маршрутизаторы Маршрутизаторы
        • Назад
        • Маршрутизаторы
        • Huawei Huawei
        • H3C H3C
        • HP HP
        • Check Point Check Point
        • Cisco Cisco
        • Fortinet Fortinet
        • Juniper Juniper
        • Brocade Brocade
        • Palo Alto Networks Palo Alto Networks
        • MikroTik MikroTik
        • Ubiquiti Ubiquiti
        • ZYXEL ZYXEL
        • Peplink Peplink
        • MOXA MOXA
        • Maipu Maipu
      • FPGA FPGA
        • Назад
        • FPGA
        • Платы расширения Платы расширения
        • Платы разработки Платы разработки
        • Комплексные решения Комплексные решения
        • Платформы на базе SoC Платформы на базе SoC
        • Робототехника Робототехника
        • Кабели USB Blaster Кабели USB Blaster
        • Одноплатные компьютеры Одноплатные компьютеры
      • Комплектующие Комплектующие
        • Назад
        • Комплектующие
        • Оперативная память Оперативная память
        • Контроллеры Контроллеры
        • Накопители Накопители
        • Процессоры Процессоры
        • Источники питания Источники питания
        • Модули Модули
        • Приводы Приводы
        • Сетевые адаптеры\карты Сетевые адаптеры\карты
        • Кабели Кабели
        • Аксессуары для стоек Аксессуары для стоек
        • Вентиляторы Вентиляторы
        • Платы Платы
        • Радиаторы Радиаторы
        • Стриммеры Стриммеры
        • Шасси\корпуса Шасси\корпуса
        • Лицевые панели Лицевые панели
        • Райзер-карты Райзер-карты
        • Лицензии Лицензии
        • Сервисные контракты Сервисные контракты
        • Антенны Антенны
        • Преобразователи Преобразователи
        • Дисплеи Дисплеи
      • Видеокарты NVIDIA Видеокарты NVIDIA
      • Оптические трансиверы Оптические трансиверы
      • WiFi WiFi
      • Телефония/VoIP Телефония/VoIP
      • Системы конференцсвязи Системы конференцсвязи
        • Назад
        • Системы конференцсвязи
        • Cisco Cisco
        • Aiwia Aiwia
        • Biamp Biamp
        • AVIOM
        • Beyerdynamic
      • Системы автоматизации Системы автоматизации
    • Блог
    • Покупателям
      • Назад
      • Покупателям
      • Условия оплаты
      • Условия доставки
      • Гарантия на товар
    • О компании
      • Назад
      • О компании
      • О компании
      • Контакты
      • Партнеры
      • Документы
    • Контакты
    • Личный кабинет
    • Корзина0
    • Сравнение товаров0
    • 8 800 600-81-40
    Контактная информация
    Екатеринбург, ул. Основинская, д. 10, офис 318 (БЦ "Основа")

    Москва, Алтуфьевское шоссе, 48к2, офис 314 (БЦ "А-48")

    China, Guangzhou, Room 1310, 13th Floor, Minggaocheng Office Building, No. 123 Yingbin Avenue, Huadu District

    пн-пт: с 09:00 до 19:00
    сб-вс: выходной день

    server@tkasiatorg.ru почта для заявок

    Как запустить LLM без GPU на китайских серверах

    Главная
    —
    Блог
    —Как запустить LLM без GPU на китайских серверах

    19 мая 2026 17:27
    Как запустить LLM без GPU на китайских серверах

    GPU для запуска языковых моделей стал восприниматься как обязательное условие. Но это не совсем так.
    CPU-инференс в 2026 году это рабочий вариант для конкретного класса задач: локальные ИИ-ассистенты, обработка документов, классификация, суммаризация. Серверный CPU с достаточным объёмом оперативной памяти справляется с моделями до 30-70 млрд параметров медленнее, чем GPU, но вполне приемлемо для корпоративных задач без требований к времени.

    Почему CPU-инференс стал хорошим вариантом

    Главное изменение последних двух лет это квантизация моделей. Модель с 7 млрд параметров в полной точности FP16 весит около 14 ГБ. После квантизации до 4 бит (формат Q4_K_M) та же модель занимает около 4 ГБ и помещается в обычную оперативную память сервера.

    Качество при этом теряется незначительно. Для большинства корпоративных задач разница между FP16 и Q4_K_M практически незаметна.

    Скорость CPU-инференса в 2026 году такова: сервер с 32 ядрами и 64+ ГБ RAM выдаёт 10-25 токенов в секунду на модели 14 млрд параметров в Q4_K_M. Для чата это нижняя граница комфортной скорости. Для пакетной обработки документов вполне достаточно.

    Какое железо нужно

    CPU-инференс критически зависит от двух параметров: количества ядер и объёма оперативной памяти.

    Оперативная память - первичное ограничение. Модель должна целиком помещаться в RAM. Базовые ориентиры в формате Q4_K_M:

    Размер модели Минимум RAM (Q4_K_M) Рекомендуемый RAM с запасом
     7-8 млрд параметров  6-8 ГБ  16 ГБ
     13-14 млрд параметров  10-12 ГБ  32 ГБ
     30-34 млрд параметров  22-25 ГБ  64 ГБ
     70 млрд параметров  45-50 ГБ  128 ГБ

    Количество ядер влияет на скорость генерации. llama.cpp использует несколько потоков для матричных операций. Оптимальное количество потоков примерно равно числу физических ядер. На 32-ядерном сервере Intel Xeon 6 или AMD EPYC скорость инференса заметно выше, чем на 8-ядерном.

    Пропускная способность памяти - менее очевидный, но важный параметр. LLM-инференс на CPU ограничен скоростью чтения весов модели из RAM. Серверы с многоканальной памятью DDR5 здесь выигрывают у DDR4 в скорости генерации.

    Конкретные примеры подходящего китайского серверного железа:

    • Сервер на AMD EPYC 9004 с 256-512 ГБ DDR5 - хороший вариант для моделей до 70 млрд параметров
    • Двухпроцессорный сервер на Intel Xeon 6 с 256+ ГБ RAM - высокая суммарная пропускная способность памяти
    • Сервер MSI или Gigabyte в barebone-конфигурации с самостоятельно подобранной памятью под конкретную модель

    Инструменты запуска

    Три основных варианта для CPU-инференса.

    llama.cpp - основной инструмент. Написан на C/C++, работает без тяжёлых зависимостей, автоматически определяет доступные векторные инструкции процессора (AVX2, AVX-512) и использует их для ускорения матричных операций. Встроенный сервер даёт OpenAI-совместимый API - подключать к нему приложения можно без изменения кода.

    Сборка под Linux:

    git clone https://github.com/ggml-org/llama.cpp
    cd llama.cpp
    cmake -B build -DGGML_AVX2=ON -DGGML_AVX512=ON
    cmake --build build --config Release -j$(nproc)

    Запуск сервера:

    ./build/bin/llama-server \
      --model ./models/qwen3-14b-q4_k_m.gguf \
      --ctx-size 8192 \
      --threads $(nproc) \
      --host 0.0.0.0 \
      --port 8080

    Ollama - более простой вариант для тех, кому не нужна ручная настройка. Устанавливается одной командой, автоматически скачивает модели, предоставляет тот же OpenAI-совместимый API. Под капотом использует llama.cpp. Хороший выбор для быстрого старта.

    vLLM с CPU-бэкендом - появился в полноценном виде в 2025 году. Лучше подходит для серверных сценариев с несколькими одновременными запросами. Требует Python и больше настройки, но даёт более гибкое управление параллельными запросами.

    Какие модели выбрать

    Не все открытые модели одинаково хорошо работают на CPU. Несколько практических ориентиров.

    Qwen 3 от Alibaba - самая скачиваемая серия моделей на Hugging Face по данным середины 2026 года. Хорошо работает с русским языком, поддерживает инструменты и function calling, доступна в размерах от 7B до 235B. Для старта рекомендуется Qwen3-14B в Q4_K_M.

    Llama 3.3 70B в Q4_K_M - если важно качество рассуждений и объём RAM позволяет. Потребует около 45-50 ГБ, скорость на CPU будет 3-8 токенов в секунду в зависимости от конфигурации.

    Mistral 7B и Mixtral 8x7B - компактные и быстрые варианты для задач классификации, суммаризации, извлечения данных. 7B модель на хорошем серверном CPU выдаёт 15-30 токенов в секунду.

    DeepSeek-R1 дистилляты - если нужны рассуждения и логика. Дистиллированные версии на 7B и 14B параметров сохраняют значительную часть возможностей полной модели при разумных требованиях к RAM.

    Практическая конфигурация под корпоративные задачи

    Реалистичный сценарий для небольшой компании или отдела: один сервер без GPU, модель Qwen3-14B в Q4_K_M, llama.cpp или Ollama в качестве сервера, подключение через OpenAI API к корпоративным инструментам.

    Такая конфигурация закрывает:

    • Ответы на вопросы по внутренней документации через RAG
    • Суммаризацию технических документов и отчётов
    • Классификацию входящих запросов и их маршрутизацию
    • Генерацию текста по шаблонам
    • Извлечение структурированных данных из неструктурированного текста

    Скорость - 10-20 токенов в секунду при одиночных запросах. Для большинства из перечисленных задач этого достаточно.

    Что учесть при планировании

    NUMA-топология важна на двухпроцессорных серверах. Если модель не помещается в локальную память одного процессора, запросы к памяти второго процессора замедляют инференс. При планировании закупки сервера под CPU-инференс лучше взять один мощный процессор с большим объёмом RAM, чем два слабых.

    Размер контекста напрямую влияет на потребление RAM. Контекст 8192 токенов - разумный баланс. Увеличение до 32768 и выше требует дополнительных гигабайт под KV-кэш.

    AVX-512 ускоряет инференс на Intel Xeon Scalable заметно по сравнению с AVX2. При сборке llama.cpp стоит убедиться, что флаг AVX-512 включён.

    Если подбираете серверную конфигурацию под CPU-инференс - под конкретную модель и задачу, то специалисты Азияторг помогут выбрать подходящее железо и организуют поставку. Пишите на server@tkasiatorg.ru.

    Назад к списку

    • Мероприятия 9
    • Предложения 13
    • Рекомендации 42
    Теги
    AMD EPYC ERHER FPGA Intel Xeon NVIDIA Выставки Коммутаторы Huawei Лицензии Windows Финансовая логистика
    Заказать звонок
    Ваш менеджер
    Максим Багаев
    8 (800) 600-81-40
    Задать вопрос
    Статьи
    19 мая 2026
    Как запустить LLM без GPU на китайских серверах
    6 мая 2026
    Loongson против RISC-V - какая архитектура займёт серверный рынок Китая
    6 мая 2026
    Серверы на платформе CXL 3.0 - как меняется работа с памятью
    Каталог
    Бренды
    Реквизиты
    Компания
    О компании
    Контакты
    Партнеры
    Документы
    Информация
    Пользовательское соглашение
    Политика обработки персональных данных
    Помощь
    Условия оплаты
    Условия доставки
    Гарантия на товар
    8 800 600-81-40
    Заказать звонок
    server@tkasiatorg.ru почта для заявок
    Екатеринбург, ул. Основинская, д. 10, офис 318 (БЦ "Основа")

    Москва, Алтуфьевское шоссе, 48к2, офис 314 (БЦ "А-48")

    China, Guangzhou, Room 1310, 13th Floor, Minggaocheng Office Building, No. 123 Yingbin Avenue, Huadu District

    пн-пт: с 09:00 до 19:00
    сб-вс: выходной день