Решение Dell на базе мини‑ПК NVIDIA GB10 обеспечивает производительность оригинального решения с превосходным охлаждением и простой настройкой многосистемной конфигурации.

Плюсы:
- архитектура NVIDIA GB10;
- компактность и эффективное охлаждение;
- простая настройка конфигурации из двух систем;
- большой объём памяти и хранилища;
- отличная среда для разработки.
Минусы:
- невысокая производительность локальных больших языковых моделей (LLM);
- высокая стоимость из‑за дефицита компонентов.
Осенью прошлого года мы подробно изучили мини‑ПК NVIDIA Grace Blackwell GB10, когда компания выпустила DGX Spark. Однако NVIDIA всегда подчёркивала, что не будет единственным поставщиком этих мощных компактных систем для разработчиков ИИ‑решений. Сегодня у нас на тестировании — Dell Pro Max на базе GB10. И вы не ослышались: для повышения производительности мы объединили пару таких мини‑систем — настоящих «демонов» для задач ИИ.
Обзор Dell Pro Max может показаться ранее знакомым: габариты, порты, энергопотребление и производительность практически идентичны решениям Dell и NVIDIA на базе GB10. Мы, конечно же, расскажем о различиях, но главное — проведём тесты и предоставим результаты, которые нам ранее не удалось выполнить с одним DGX Spark. Но сначала познакомимся с новым Dell Pro Max с GB10.
Характеристики и конструкция Dell Pro Max с GB10
Внутренне Dell Pro Max очень похож на NVIDIA DGX Spark, и это плюс. В системе установлен полноценный мини‑ПК GB10, включающий:
- 20‑ядерный процессор Arm64 (10 ядер Cortex X925 и 10 ядер Cortex A725);
- GPU на базе Blackwell с 6 144 ядрами CUDA;
- производительность до 1 петафлопс (1 000 терафлопс) для разреженных вычислений в формате FP4;
- 128 ГБ памяти LPDDR5X на 256‑битной шине с пропускной способностью 273 ГБ/с;
- SSD на 4 ТБ (как в DGX Spark);
- размеры: 150 × 150 × 51 мм;
- вес: 1,31 кг.
Расположение портов также идентично:
- 4 порта USB‑C, крайний из которых предназначен для комплектного адаптера питания USB‑C PD;
- 3 других порта поддерживают DisplayPort и USB 3.2 Gen 2×2 (пропускная способность 20 Гбит/с);
- разъём Ethernet RJ‑45 (10 Гбит/с);
- порт HDMI 2.1b для вывода видео до 8K при 60 Гц;
- пара портов QSFP для сетевых карт ConnectX‑7 Smart NIC (до 200 Гбит/с каждая).
Благодаря кабелю QSFP, который идёт в комплекте, мы сможем объединить два Dell Pro Max и оценить производительность многоузловой конфигурации.
Отличия Dell Pro Max: корпус
Главное отличие Dell Pro Max — это корпус L6. Он выглядит сдержаннее по сравнению с золотистым исполнением системы NVIDIA. Конструкция оптимизирована для охлаждения: передняя панель выполнена в виде сот, что обеспечивает приток воздуха для охлаждения мини‑ПК Grace Blackwell.
Вес — 1,31 кг (чуть тяжелее DGX Spark), габариты практически идентичны. Корпус L6 спроектирован для установки систем друг на друга — две системы не мешают работе Wi‑Fi и Bluetooth.


Программное обеспечение Dell Pro Max
Dell поставляет Pro Max с слегка модифицированной версией ОС NVIDIA DGX OS 7 (на базе Ubuntu 24.04 LTS). После создания локальной учётной записи и подключения к интернету система автоматически обновилась до последней версии ОС, включая DGX SDK. Хотя некоторые пользователи уже довольно успешно запускают игры на системах с GB10, сам продукт разработан исключительно для разработок в среде профессионального контекста ИИ‑моделей до 200 млрд параметров и позволяет запускать крупные LLM без облака.
В период тестирования система регулярно обновлялась благодаря графическому менеджеру обновлений Ubuntu. ОС загружается напрямую из репозитория NVIDIA и синхронизируется с оборудованием компании. Все руководства и примеры кода из репозитория GitHub для DGX Spark совместимы с Pro Max «из коробки». Выбирая Dell вместо системы NVIDIA, вы ничего не теряете.

Тестирование производительности
Dell предоставила пару кабелей QSFP для работы систем в тандеме. Прежде чем объединить их, мы провели одиночные тесты.
За полгода программное обеспечение NVIDIA для Grace Blackwell значительно улучшилось, как и документация для разработчиков. Сформировалось активное сообщество вокруг тестирования производительности и рейтингов. Spark Arena — это общественный рейтинг LLM, а фреймворк для бенчмарков называется Sparkrun. Он даёт подробные результаты для множества моделей, но для тестов мы выбрали реалистичные сценарии.
Установка Sparkrun проста: на обоих устройствах установите менеджер пакетов uv (если его нет), откройте терминал и введите команду:
uvx sparkrun setup
Затем можно выбирать бенчмарки и модели разного размера для тестирования на различном оборудовании, не только на мини‑ПК с GB10 вроде Dell Pro Max. Мы провели несколько тестов — и стоит заметить, что эти тесты занимают довольно значительное время: часы (для небольших моделей — 30 минут).
Ключевые результаты — пропускная способность в токенах в секунду. Данные представлены на графиках с учётом глубины контекста и параллелизма (количества одновременных запросов). Для визуализации мы создали полукастомную панель с помощью React и библиотеки Recharts.
Результаты тестирования
Сначала рассмотрим модель Qwen 3.5 с 27 миллиардами параметров, представленную в формате FP8 и запущенную во фреймворке SGLang на одном узле.
На графике:
- по вертикальной оси отложено количество токенов в секунду (скорость обработки);
- по горизонтальной оси — растущее контекстное окно (context window);
- разные линии соответствуют уровню параллелизма (количеству одновременных запросов).
Представьте контекст как историю чата. Разные линии на графике показывают разные сценарии параллельной обработки:
- C1 — один одновременный запрос за раз;
- C10 — десять одновременных запросов.
На одном Dell Pro Max обработка двух одновременных запросов (C2) оказывается быстрее при размере контекстного окна в 8 тысяч токенов. Предположительно, это происходит потому, что второй набор запросов быстро заполняет окно размером 4 тысячи токенов, эффективнее задействуя ресурсы системы.
В отчёте мы приводим данные только для полных контекстных окон. Инструмент sparkrun может генерировать результаты и для тестов с пустым контекстным окном (то есть «с чистого листа»), но эти показатели не сильно отличаются от представленных.

Чтобы подтвердить это, рассмотрим время до первого токена (TTFT) — как для пустого контекста (pp2048), так и для заполненного (ctx_prefill).
Благодаря большому объёму памяти Dell Pro Max может работать с достаточно крупным контекстным окном и при этом показывать приемлемые результаты.
Окно контекста размером 32 K (то есть 32 000 токенов — это значительно больше, чем 32 КБ; здесь речь идёт о большом объёме памяти) по‑прежнему обеспечивает приемлемое время отклика — около 35 секунд — как для полностью заполненного, так и для пустого контекстного окна.
Время отклика увеличивается с каждым удвоением размера контекстного окна — чего и следовало ожидать. Однако рост времени из‑за параллельных запросов (уровня параллелизма) не является линейным.
Например, при размере контекстного окна 32 тысячи токенов:
- C1 (один одновременный запрос) — время отклика составляет 33 секунды;
- C10 (десять одновременных запросов) — время увеличивается лишь в 8 раз, до 252 секунд.
То есть десятикратное увеличение числа параллельных запросов приводит лишь к восьмикратному росту времени отклика, а не к десятикратному.
Пояснения к терминам:
- TTFT (Time to First Token) — время, которое проходит с момента отправки запроса до появления первого токена ответа (по сути, задержка перед началом генерации ответа).
- Контекстное окно (context window) — объём информации (в токенах), который модель может «удержать в памяти» за один раз (например, история диалога или фрагмент текста).
- pp2048 — параметр, обозначающий пустой контекст с окном размером 2 048 токенов.
- ctx_prefill — заполненное контекстное окно (предварительно загруженные данные).
- C1 / C10 — уровень параллелизма: C1 — один запрос за раз, C10 — десять одновременных запросов.


Ещё один набор результатов — на этот раз для модели меньшего размера.
Модель с 9 миллиардами токенов — как раз тот тип, который локальный ИИ (on‑device AI) может запускать на потребительской системе в формате FP8. Однако использование формата данных BF16 предполагает компромисс: чуть меньшая эффективность использования памяти ради несколько более высокой точности вычислений.
При работе с полным контекстным окном производительность на уровне C1 (один одновременный запрос) оказывается не самой высокой. В то же время совокупная пропускная способность при C10 (десять одновременных запросов) почти в 4 раза лучше.
Это означает, что небольшая, но высокоточная модель — не обязательно лучший выбор для данной системы.
При этом производительность на C1 (именно такой режим чаще всего используется локальными ИИ‑моделями) снижается не слишком сильно по мере увеличения размера контекстного окна. То есть система достаточно устойчива к росту объёма обрабатываемых данных в сценарии одиночного запроса.

Пояснения к терминам:
-
9 B token model (9 млрд токенов) — языковая модель среднего размера с 9 миллиардами параметров/токенов. Подходит для развёртывания на потребительских устройствах.
-
FP8 (Float8) — формат чисел с плавающей запятой, занимающий 8 бит. Обеспечивает высокую скорость и экономию памяти, но с некоторой потерей точности.
-
BF16 (Brain Floating Point 16) — 16‑битный формат чисел, разработанный Google. Балансирует между точностью (ближе к FP32) и эффективностью использования памяти (ближе к FP16).
-
C1 / C10 — уровень параллелизма:
-
C1: один запрос обрабатывается за раз (последовательная обработка).
-
C10: система обрабатывает десять запросов одновременно (параллельная обработка).
-
-
Совокупная пропускная способность (aggregate throughput) — общее количество токенов, генерируемых системой в секунду при обработке нескольких запросов одновременно. Может быть выше, чем при последовательной обработке, даже если время ответа на отдельный запрос растёт.
-
Полное контекстное окно (full context window) — максимальный объём данных (в токенах), который модель может учитывать при генерации ответа. Увеличение окна повышает качество ответа, но требует больше памяти и вычислений.
На модели меньшего размера время до первого токена (TTFT) остаётся вполне приемлемым при однопоточной нагрузке (один запрос за раз) вплоть до окна контекста в 16 тысяч токенов — ожидание перед началом ответа составляет около шести секунд. При дальнейшем увеличении размера окна, скорее всего, придётся переходить на пакетный вывод (batch inference loads) — то есть обрабатывать запросы не по одному, а группами для оптимизации загрузки системы.
Также NVIDIA предоставляет инструкцию (playbook) по запуску LM Studio на DGX Spark — она отлично работает и на Dell Pro Max. Это позволяет нам сравнить Pro Max с другим устройством с большим объёмом унифицированной памяти — Apple Mac Studio 2025 года с чипом M4 Max.
Настройка по этой инструкции довольно ручная, поскольку LM Studio официально не поддерживает платформу GB10. Однако существует серверная версия LM Studio, и мы можем отправлять запросы через API. Это на самом деле очень удобно: можно развернуть систему в офисе, включить LM Link и удалённо подключить LM Studio к Dell Pro Max. LM Link пока находится в стадии предварительного просмотра (preview), но когда мы запросили доступ, его предоставили почти сразу.
Мы использовали официальную модель Gemma 4 31B Instruct из каталога LM Studio в формате Q4_K_M GGUF. Размер загружаемого файла — 19,9 ГБ, а после загрузки в память с окном контекста 16 тысяч токенов модель занимает 21 ГБ ОЗУ.
Эта модель слишком велика для большинства потребительских видеокарт, но идеально подходит для систем с большим объёмом унифицированной памяти — таких как Mac Studio или Dell Pro Max.


Пояснения к терминам:
- TTFT (Time to First Token) — время от отправки запроса до появления первого токена ответа (задержка перед началом генерации).
- Однопоточная нагрузка (single‑concurrency load) — обработка одного запроса за раз (C1), типичный сценарий для локальных ИИ‑моделей.
- Окно контекста (context window) — объём данных (в токенах), который модель может учитывать при генерации ответа (например, история чата или фрагмент текста).
- Пакетный вывод (batch inference) — метод обработки нескольких запросов одновременно (в «пакетах») для повышения общей пропускной способности системы.
- Playbook — пошаговая инструкция или руководство от NVIDIA по настройке ПО.
- LM Studio — приложение для запуска и тестирования локальных языковых моделей на ПК.
- LM Link — технология для удалённого подключения LM Studio к мощному серверу (например, Dell Pro Max), чтобы использовать его ресурсы для работы моделей.
- Gemma 4 31B Instruct — языковая модель от Google с 31 миллиардом параметров, оптимизированная для выполнения инструкций.
- Q4_K_M GGUF — формат квантования модели (сжатия с потерей точности), который снижает требования к памяти (здесь — до 4 бит на параметр).
- Унифицированная память (unified memory) — архитектура, где CPU и GPU используют общий пул памяти (как в чипах Apple M‑серии и системах с GB10), что упрощает работу с большими моделями.
По итогам тестирования Mac Studio показал скорость генерации ответа 21,9 токена в секунду. В то же время Dell Pro Max выдал 10,65 токена в секунду — то есть почти ровно вдвое медленнее, чем устройство Apple. Эта разница хорошо ощутима на практике, особенно если вы быстро читаете и следите за тем, как система «печатает» ответ.
Однако время до первого токена (оно обозначается значком часов) оказалось немного быстрее на Dell Pro Max: 0,77 секунды против 0,97 секунды у Mac.
В нашем предыдущем обзоре с DGX Spark мы также выяснили, что Mac Studio опережает систему NVIDIA. Это ещё раз подтверждает: GB10 Superchip больше подходит для задач разработки и тестирования, а не для повседневного использования.
Если сравнивать цену и производительность, решения Apple сложно превзойти для конечных пользователей. Однако SDK от NVIDIA делает Dell Pro Max гораздо более привлекательным инструментом именно для разработчиков — несмотря на более низкую скорость генерации токенов.
Что ж, у нас есть два устройства Dell Pro Max, и теперь пришло время объединить их в одну мощную систему. Перейдём к следующим тестам на следующей странице…
Пояснения к терминам:
- Токены в секунду — показатель скорости генерации ответа языковой моделью. Чем выше значение, тем быстрее модель выдаёт текст.
- Время до первого токена (TTFT, Time to First Token) — задержка между отправкой запроса и появлением первого токена ответа. Важный параметр для интерактивных сценариев: чем он меньше, тем «отзывчивее» кажется система.
- GB10 Superchip — высокопроизводительный чип от NVIDIA, объединяющий CPU и GPU в одном пакете. Оптимизирован для задач ИИ и машинного обучения.
- Mac Studio — настольный компьютер от Apple с чипами серии M (в данном случае — M4 Max), обладающий большим объёмом унифицированной памяти и высокой производительностью для работы с ИИ‑моделями.
- Dell Pro Max — рабочая станция от Dell на базе чипа GB10, предназначенная для разработчиков ИИ‑решений.
- SDK (Software Development Kit) — набор инструментов для разработчиков, включающий библиотеки, документацию и примеры кода. В данном случае SDK от NVIDIA упрощает работу с GB10 и оптимизирует запуск ИИ‑моделей.
- Объединение в одну систему — подключение двух Dell Pro Max через высокоскоростные порты (например, QSFP) для совместной работы как единого вычислительного узла. Это позволяет увеличить общую производительность для сложных задач ИИ.

Результаты тестирования Dell Pro Max в приложении LM Studio с моделью Gemma 4 31B

Результаты тестирования Apple Mac Studio в приложении LM Studio с моделью Gemma 31B
Двойная конфигурация Dell Pro Max (GB10): производительность и итоги

Теперь, когда мы убедились, что Dell Pro Max полностью соответствует собственной системе NVIDIA DGX Spark — в комплекте с обновлёнными инструментами разработки от NVIDIA, — пришло время углубиться в то, что мы не успели рассмотреть при первом знакомстве с GB10: работу двух систем и распределённые вычисления.
Все системы на базе GB10 оснащены парой портов QSFP, а наши устройства поставлялись с двумя кабелями QSFP для их соединения по сети со скоростью 200 Гбит/с. При этом для настройки двойной системы нам нужны не оба порта — полная совместимость обеспечивается всего одним кабелем. Так для чего же нужен второй порт?
Дело в том, что из таких систем можно построить кольцевую топологию. Первая система на базе GB10 соединяется со второй с помощью одного кабеля, вторая — с третьей через свой второй порт и так далее, пока последняя система не соединится обратно с начальной точкой. В результате можно объединить несколько таких мощных мини‑систем для совместной работы.
Однако здесь возникает ограничение: максимальная теоретическая пропускная способность одного устройства ConnectX составляет 200 Гбит/с, и при подключении более двух систем (например, трёх DGX Spark) производительность начнёт падать.
Альтернативный вариант — если у вас есть достаточно быстрый коммутатор с портами QSFP, вы можете создать крупную сеть из таких устройств, где каждое будет иметь собственное соединение со скоростью 200 Гбит/с. Однако у нас такого коммутатора нет.
Пояснения к терминам:
- QSFP (Quad Small Form‑Factor Pluggable) — тип высокоскоростного разъёма и кабеля для сетевого подключения. В данном случае обеспечивает скорость до 200 Гбит/с.
- 200 Гбит/с (200 Gbit/sec) — 200 гигабит в секунду, показатель пропускной способности сетевого соединения.
- Кольцевая топология — схема подключения устройств, где каждое устройство соединено с двумя соседними, образуя замкнутое кольцо. Данные передаются по кругу.
- ConnectX — серия сетевых карт (Smart NIC) от NVIDIA (ранее Mellanox), обеспечивающих высокоскоростную связь между серверами и системами ИИ. В данном контексте — компонент, ограничивающий максимальную скорость передачи данных.
- Распределённые вычисления — подход, при котором вычислительная задача делится между несколькими устройствами, работающими совместно для достижения общей цели. Позволяет масштабировать производительность.
- DGX Spark — компактная система от NVIDIA на базе чипа GB10, предназначенная для разработчиков ИИ.
- GB10 — суперчип NVIDIA Grace Blackwell, объединяющий CPU и GPU для задач ИИ и машинного обучения.
Использование NCCL для проверки работы нескольких систем Pro Max
Тем не менее мы можем подтвердить это на примере всего двух таких систем — а поскольку именно они у нас есть, мы так и поступим.
Соединение со скоростью 200 Гбит/с даёт теоретическую пропускную способность 25 ГБ/с. Но как это измерить?
Мы воспользуемся инструкциями (playbooks) от NVIDIA для DGX Spark — мы уже обсуждали их в обзоре DGX Spark — в качестве руководства.
Настройка кластера: пошаговая проверка и типичные ошибки
И это совсем несложно — благодаря подробному руководству от NVIDIA.
NVIDIA предоставляет скрипты настройки кластера, которые автоматически устанавливают сетевые параметры на заранее определённые значения. Такой подход подходит даже для продуктивной среды, поскольку устройства взаимодействуют напрямую друг с другом, фактически создавая частную локальную сеть (private LAN) между двумя системами.
При этом вы можете изменить IP‑адреса и обновить скрипты, если это соответствует вашим требованиям.
Пошаговый процесс после настройки сети:
- Запустить скрипт `discover-sparks` — он помогает системам обнаружить друг друга в сети.
- Скрипт автоматически выполняет обмен отпечатками ключей (fingerprints) для настройки SSH‑доступа без пароля.
- Системы распознают друг друга как доверенные узлы (trusted hosts).
- Любые другие хосты будут отклонены — из‑за несовпадения отпечатка ключа.
Две системы Dell Pro Max обмениваются данными по каналу NCCL
Важный практический урок: распространённая ошибка и её последствия
Всё работает «как по маслу» — при условии, что вы внимательно читаете документацию и не повторяете моей ошибки: не подключайте порт 0 на одном устройстве к порту 1 на другом.
Что произошло в моём случае:
- устройства не смогли распознать друг друга;
- сетевые запросы завершались по таймауту (timed out);
- связь между системами отсутствовала.
Причины такого поведения выходят за рамки данной статьи. Главное — следуйте инструкциям точнее, чем это сделал я, и у вас всё получится!
Работа с несколькими устройствами: возможности Dell Pro Max
Итак, устройства соединены — что дальше?
Первое, что мы сделали, — проверили пропускную способность между двумя системами. Для этого мы воспользовались руководством Two Sparks от NVIDIA по работе с библиотекой коллективных коммуникаций (NCCL / NVIDIA Collective Communication Library).
Основная задача — измерить пропускную способность между двумя узлами.
Практические шаги:
- Клонируем репозитории библиотеки NCCL и тестовых скриптов с GitHub на оба устройства.
- Компилируем код на каждом из них.
- Запускаем тест на одном устройстве — он начинает взаимодействовать с другим для измерения пропускной способности.
Мы провели этот бенчмарк несколько раз. Каждый раз результат был в диапазоне 24,5–25 ГБ/с — как и ожидалось, это теоретический максимум для контроллера ConnectX.
Что делать дальше: интересные сценарии для двух систем
Теперь, когда сеть настроена и протестирована, можно перейти к более интересным задачам с двумя системами на базе GB10 (например, нашими Dell Pro Max). Рассмотрим варианты:
- Работа с очень большими языковыми моделями (LLM);
- Настройка многоагентной LLM‑системы, распределённой между двумя устройствами GB10.
Почему мы использовали sparkrun для тестирования одной системы? Его инструменты специально разработаны для работы с несколькими системами на базе GB10 — то есть для «многоузловых развлечений».
Пришло время протестировать пару устройств совместно — для этого мы использовали флаг --tp 2 в командной строке.
Что делает флаг --tp 2 :
- Активирует режим тензорного параллелизма (tensor parallelism) между двумя узлами;
- Позволяет разделить вычисления модели между двумя устройствами, эффективно используя объединённые ресурсы памяти и GPU;
- Даёт возможность запускать модели, которые не помещаются в память одного узла, или ускорять инференс за счёт распределения нагрузки.
Тестирование Qwen 3.5 27B FP8 на двух системах Dell Pro Max
Мы запускаем тот же тест модели Qwen 3.5 27B в формате FP8, что и раньше, — но теперь он выполняется на паре систем Dell Pro Max.
Отличная новость: производительность выросла примерно на 50 % по сравнению с результатами на одной системе.
Анализ результатов
Снова, при полном контекстном окне, мы наблюдаем тот самый небольшой «всплеск» (hump) при обработке двух одновременных запросов (C2) на окне контекста в 8 тысяч токенов.
Разберём, почему так происходит:
- Окно в 4 тысячи токенов слишком мало для продолжительного диалога — модель быстро «исчерпывает» контекст.
- Из‑за этого система не может достичь максимальной пропускной способности (throughput) при C2 в конфигурации с двумя узлами: ресурсы используются не оптимально.
Тем не менее мы полагаем, что большинство пользователей будут ориентироваться на окна контекста 16–32 тысячи токенов для более длинных бесед — прежде чем LLM начнёт «забывать» предыдущие части диалога.

Анализ графиков TTFT: сравнение одиночной и двойной систем
Наши графики времени до первого токена (TTFT) выглядят схоже. Если вернуться к предыдущей странице, мы увидим, что TTFT на больших контекстных окнах практически не снижается при использовании двух систем по сравнению с одной.
Ключевые наблюдения
-
Стабильность TTFT при масштабировании
При объединении двух Dell Pro Max время до первого токена остаётся на том же уровне, что и на одной системе. Это говорит о том, что:
- Сетевая задержка между узлами минимальна (благодаря высокоскоростному соединению QSFP и оптимизации NCCL).
- Синхронизация данных между системами не вносит существенных задержек в начальный этап генерации ответа.
-
Ограничения при высокой нагрузке (C10)
Когда TTFT начинает измеряться минутами (как в сценарии C10 начиная с окна контекста 16 тысяч токенов), такая конфигурация становится полезной только для пакетных операций, а не для интерактивного общения:
- C10 (10 одновременных запросов) создаёт значительную нагрузку на память и вычислительные ресурсы.
- При окне контекста 16 K и более система тратит много времени на обработку и синхронизацию данных между узлами.
- Задержка в несколько минут делает диалог с моделью неудобным для пользователя — но подходит для фоновых задач (например, пакетной генерации текстов, анализа документов и т. д.).
-
Визуализация данных
Для удобства сравнения мы объединили данные на одном графике. Хотя эти диаграммы были построены постфактум (и их оформление может немного отличаться от предыдущих), они точно отражают те же данные, что и выше. Это позволяет:
- Наглядно сопоставить производительность одиночной и двойной систем.
- Отследить динамику TTFT в зависимости от размера контекстного окна и уровня параллелизма.
- Выявить точки, где система переходит из режима интерактивного использования в режим пакетной обработки.


Результаты тестирования двойной конфигурации Dell Pro Max
Как видно из данных, практически по всем параметрам скорость генерации токенов (токенов в секунду) в двойной конфигурации выросла на 50 % по сравнению с одной системой.
С другой стороны, время до первого токена (TTFT) сократилось вдвое — то есть стало в два раза быстрее — в конфигурации с двумя Dell Pro Max. Когда размер контекстного окна достигает 100 000 токенов, это позволяет сэкономить минуты во времени отклика, что существенно улучшает пользовательский опыт.
Примечание: на этих графиках не показаны данные для 10 одновременных запросов (C10). Это сделано специально, чтобы:
- Увеличить масштаб графика и лучше показать различия между конфигурациями.
- Избежать перегруженности диаграммы (иначе на ней было бы слишком много линий).
Тестирование модели с 122 миллиардами параметров в формате FP8
Что произойдёт, если увеличить число параметров (а значит, и требования к памяти) до 122 миллиардов и при этом оставить формат данных FP8?
-
Проблема нехватки памяти
Тест не запускается на одной системе с GB10, потому что модели требуется больше памяти, чем доступно:
- Общий объём унифицированной памяти в Dell Pro Max — 128 ГБ.
- Для стабильной работы системы резервируется часть памяти, поэтому фактически доступно около 80 % — то есть 102,4 ГБ.
- Модель с 122 млрд параметров в FP8 требует больше 102,4 ГБ, поэтому не помещается в память одного узла.
-
Решение: распределение модели между узлами
В этом случае мы распределяем модель между несколькими системами Dell Pro Max, а не загружаем её целиком в память каждого устройства. Это позволяет:
- Использовать объединённый пул памяти нескольких узлов.
- Запускать модели, которые не помещаются в память одной системы.
-
Потенциальное узкое место: сетевые контроллеры
Мы ожидаем, что контроллеры ConnectX с пропускной способностью 200 Гбит/с станут ограничивающим фактором в этой конфигурации:
- Два узла должны постоянно обмениваться промежуточными данными (активациями, градиентами и т. д.) во время вычислений.
- Высокая нагрузка на сеть может замедлить общую производительность, даже если вычислительные ресурсы GPU не исчерпаны.
- Скорость обмена данными между узлами напрямую влияет на итоговую пропускную способность (токенов/с) и TTFT.
-
Необходимость совместной работы
Обе системы должны работать синхронно, чтобы генерировать результаты. Это требует:
- Точной координации вычислений через NCCL.
- Минимизации задержек в сети.
- Балансировки нагрузки между узлами для избежания «узких мест».



Неожиданный результат: модель 122B быстрее модели 27B в распределённой конфигурации
Вау, это совсем не то, чего мы ожидали! Версия модели с 122 миллиардами параметров, распределённая между двумя системами Dell Pro Max, на самом деле работает быстрее, чем версия с 27 миллиардами параметров, запущенная на тех же двух системах.
Фактически она примерно на 50 % быстрее на всех уровнях параллелизма — за исключением C2 (два одновременных запроса) — по сравнению с гораздо меньшей моделью.

Почему так происходит? Наша гипотеза
Сложно точно определить причину, но у нас есть теория:
-
Сценарий с полной копией модели на каждом узле (27B)
При запуске модели 27B обе системы загружали полную копию модели в свою память. В этом случае:
- Каждый узел работал независимо — обрабатывал свои запросы без существенного обмена данными с другим узлом.
- Второй узел не «помогал» первому — они действовали как две отдельные системы, а не как единый кластер.
- Пропускная способность сети (200 Гбит/с) практически не использовалась для синхронизации вычислений.
-
Сценарий распределённой модели (122B)
Модель 122B не помещается целиком в память одного узла, поэтому она разделена между двумя системами. В этом случае:
- Узлы вынуждены сотрудничать — постоянно обмениваться промежуточными данными (тензорами, активациями) через сеть.
- Вычисления организованы как единый процесс: каждый узел выполняет свою часть работы, а результаты объединяются.
- Библиотека NCCL оптимизирует этот обмен, минимизируя задержки и балансируя нагрузку.
- Вся пропускная способность ConnectX (200 Гбит/с) задействована для координации вычислений, что повышает общую эффективность.
-
Исключение — C2
На уровне параллелизма C2 преимущество модели 122B менее выражено или отсутствует. Возможные причины:
- Низкая нагрузка не позволяет полностью задействовать потенциал распределённых вычислений.
- Накладные расходы на синхронизацию между узлами становятся сопоставимы с выгодами от параллельной обработки.
- Модель 27B при C2 может эффективнее использовать локальную память каждого узла без сетевого обмена.
Ключевые факторы, которые могут влиять на результат
- Оптимизация NCCL. Библиотека NVIDIA Collective Communications Library эффективно распределяет задачи и синхронизирует вычисления между узлами, превращая два Dell Pro Max в единый мощный вычислительный ресурс.
- Балансировка нагрузки. При распределении модели 122B нагрузка равномерно распределяется между узлами, что позволяет избежать «узких мест».
- Использование сети. В сценарии с 122B высокоскоростное соединение QSFP (200 Гбит/с) активно используется для обмена данными, тогда как в сценарии с 27B оно почти не задействовано.
- Архитектура GB10. Суперчип Grace Blackwell спроектирован для распределённых вычислений — его когерентная память и интеграция CPU/GPU хорошо подходят для совместной работы узлов.
Пояснения к терминам:
- 122B / 27B — количество параметров в модели (122 и 27 миллиардов соответственно). Чем больше параметров, тем выше требования к памяти и вычислениям.
- C2 (2 concurrent requests) — сценарий с двумя одновременными запросами.
- Dell Pro Max — рабочая станция на базе суперчипа NVIDIA GB10 с 128 ГБ унифицированной памяти.
- NCCL (NVIDIA Collective Communications Library) — библиотека для оптимизации коллективных операций (обмена данными, редукции и т. д.) в многоузловых конфигурациях.
- ConnectX — серия сетевых контроллеров от NVIDIA (ранее Mellanox) с пропускной способностью до 200 Гбит/с. Обеспечивает высокоскоростную связь между узлами.
- QSFP — стандарт высокоскоростных сетевых разъёмов, используемый для соединения узлов в кластере.
- Распределённая модель — модель, разделённая между несколькими узлами: каждый узел хранит и обрабатывает свою часть параметров.
- Полная копия модели — когда каждая система загружает всю модель в свою память и работает независимо.
Снижение времени до первого токена и ограничения по стоимости
Время до первого токена (TTFT) значительно сократилось для всех размеров контекстного окна и уровней параллелизма.
Система стала достаточно быстрой, чтобы один пользователь с одиночным запросом (C1) мог использовать очень большое контекстное окно размером 64 тысячи токенов и получать ответы менее чем за минуту. Скорость генерации при этом составит около 5 токенов в секунду — не рекордно быстро, но вполне пригодно для использования.
Однако стоит учитывать важный нюанс: для такой конфигурации требуется две системы GB10 — а это делает решение довольно дорогостоящим.


Сравнение с Apple Mac Studio: ограничения по памяти
Для работы модели требуется 256 ГБ памяти, поэтому прямое сравнение с Apple Mac Studio провести невозможно. Кстати, Mac Studio сейчас — топовая настольная система Apple.
Почему Mac Studio не подходит для этого сценария:
- Ограничение по объёму памяти. Даже топовые версии Mac Studio (с чипом M3 Ultra) предлагают максимум 128 ГБ унифицированной памяти — вдвое меньше требуемых 256 ГБ.
- Длительные сроки поставки. Из‑за дефицита компонентов Apple устанавливает очень долгие сроки поставки конфигураций Mac Studio с максимальным объёмом памяти.
- Отсутствие масштабируемости. Архитектура Mac Studio не предусматривает возможности объединения нескольких устройств в единый вычислительный кластер для увеличения общего объёма доступной памяти.
Вывод: оптимальное решение на ближайшее время
Если вам требуется более 128 ГБ оперативной памяти для работы с большими языковыми моделями, пара систем Dell Pro Max — практически лучший доступный вариант в ближайшей перспективе.
Ключевые преимущества связки Dell Pro Max:
- Объединённый пул памяти: два устройства с 128 ГБ каждый дают в сумме 256 ГБ — достаточно для моделей с высокими требованиями к памяти.
- Высокоскоростное соединение: порты QSFP с пропускной способностью 200 Гбит/с обеспечивают быструю синхронизацию между узлами.
- Оптимизация для распределённых вычислений: поддержка NCCL позволяет эффективно распределять нагрузку и минимизировать задержки.
- Гибкость конфигурации: возможность масштабирования — при необходимости можно добавить больше узлов для работы с ещё более крупными моделями.
- Совместимость с инструментами NVIDIA: полная интеграция с SDK, sparkrun и другими инструментами для разработчиков ИИ.
Тепловые характеристики Dell Pro Max
GB10 по уровню энергопотребления схож с DGX Spark: несмотря на компактные размеры, он потребляет значительное количество энергии.

Наши замеры с помощью прибора Kill‑A‑Watt показали следующее:
- 160 Вт от сети при полной нагрузке для одного Dell Pro Max;
- более 300 Вт при работе двух систем одновременно.
Такое энергопотребление приводит к выделению большого количества тепла — и возникает вопрос: как оно отводится?
Система охлаждения Pro Max: принцип работы
Конструкция Dell Pro Max спроектирована с акцентом на эффективное охлаждение. В основе системы:
- Мощный вентилятор‑воздуходувка (blower fan) — создаёт сильный поток воздуха.
- Пористая передняя панель корпуса L6 — через неё всасывается прохладный воздух из помещения.
- Вывод нагретого воздуха назад — поток проходит через внутренние компоненты и выводится через заднюю часть корпуса.
Такая схема («front‑to‑back») обеспечивает:
- равномерное охлаждение всех ключевых компонентов (включая GB10 и модули памяти);
- предотвращение застойных зон с перегревом;
- стабильную работу под длительной нагрузкой.
Тестирование под нагрузкой
Мы провели практический тест:
- Запустили интенсивную нагрузку на двух системах (сценарий dual‑system sparkrun — распределённые вычисления с активным обменом данными через NCCL).
- Позволили системам проработать в таком режиме около двух часов — это имитирует длительную работу с большими языковыми моделями.
- После завершения теста выполнили замеры:
- Шумомером — оценили уровень шума от работы вентиляторов.
- Поверхностным термометром — измерили температуру внешних поверхностей корпуса (в т. ч. в зонах выхода воздуха и возле вентиляционных решёток).
Результаты замеров температуры корпуса Dell Pro Max
В ходе тестирования мы измерили температуру корпуса устройства — в задней части машины она составила 115–120 °F (что соответствует примерно 46–49 °C).
Почему такая температура — это нормально?
Несколько факторов объясняют и оправдывают полученные показатели:
-
Цельнометаллический корпус (all‑metal design)
- Металл обладает высокой теплопроводностью — эффективно отводит тепло от внутренних компонентов (GB10, памяти, регуляторов напряжения).
- Равномерно распределяет тепло по всей поверхности корпуса, предотвращая локальные перегревы.
- Работает как пассивный радиатор, дополняя активное охлаждение от вентилятора.
-
Конструкция рабочей станции (не ноутбук)
- Dell Pro Max — это рабочая станция, а не мобильное устройство. У неё нет жёстких ограничений по габаритам и весу, поэтому допустимо более высокое тепловыделение.
- В отличие от ноутбуков, где перегрев корпуса может быть опасен для пользователя (из‑за близкого контакта с телом), здесь это не критично.
- Система рассчитана на стационарную установку в серверной стойке или на рабочем столе с достаточным пространством для вентиляции.
-
Реальная оценка ощущений
- Хотя корпус ощутимо тёплый, он не обжигает — вы не получите ожога, если случайно коснётесь задней панели.
- Фраза «не сожжёт ваши отпечатки пальцев» (won’t singe your fingerprints) — шутливое подтверждение того, что температура остаётся в безопасных пределах.
Практические выводы
- Эффективность охлаждения подтверждена. Температура 46–49 °C на поверхности корпуса при длительной нагрузке (2+ часа) говорит о том, что система охлаждения справляется со своей задачей. Внутренние компоненты (в т. ч. GB10) остаются в штатных температурных режимах.
- Стабильность работы. Отсутствие критических перегревов гарантирует стабильную производительность во время длительных вычислений (например, при обучении моделей или инференсе больших LLM).
- Надёжность. Умеренная температура снижает риск деградации компонентов со временем, продлевая срок службы устройства.
- Комфорт эксплуатации. Корпус не создаёт дискомфорта при обычном использовании — нет риска ожогов или необходимости специально избегать касаний.
Уровень шума вентилятора Dell Pro Max: результаты замеров и оценка
Уровень шума вентилятора показал впечатляющие результаты: максимум 46 дБА на расстоянии всего 30 см от передней панели устройства.

Что означает показатель 46 дБА
46 децибел — это:
- сопоставимо с тихим разговором или тихим офисом (уровень 40–50 дБА);
- заметно тише, чем обычный офисный кондиционер (50–60 дБА);
- гораздо тише, чем типичная серверная стойка под нагрузкой (60–70 дБА и выше);
- на таком уровне фоновый шум не мешает сосредоточиться, не вызывает раздражения при длительном воздействии.
При этом замер проводился:
- в условиях максимальной нагрузки (во время интенсивных вычислений);
- с очень близкого расстояния — 30 см от источника шума (передней панели), где звук наиболее отчётлив;
- без каких‑либо звукоизолирующих барьеров.
Почему Dell Pro Max работает так тихо
Низкий уровень шума — результат продуманной конструкции системы охлаждения:
- Мощный, но оптимизированный вентилятор‑воздуходувка (blower fan). Он создаёт достаточный поток воздуха для охлаждения GB10, но работает без излишнего «рёва» и вибраций.
- Аэродинамический дизайн корпуса L6. Пористая передняя панель и продуманные каналы внутри корпуса минимизируют турбулентность воздушного потока, снижая аэродинамический шум.
- Цельнометаллический корпус. Работает как пассивный радиатор, позволяя вентилятору работать на более низких оборотах при сохранении эффективного отвода тепла.
- Интеллектуальное управление скоростью вращения. Система автоматически регулирует обороты вентилятора в зависимости от температуры компонентов — на умеренной нагрузке обороты снижаются, уровень шума падает.
- Балансировка компонентов. Качественная сборка и точная балансировка вентилятора исключают дребезг и вибрации, которые часто создают дополнительный шум в менее продуманных системах.
Практические выводы: Dell Pro Max как настольный компьютер
Благодаря тихой работе и эффективному охлаждению Dell Pro Max отлично подходит в качестве настольного компаньона (desktop companion):
- Комфорт в офисе и дома. Уровень шума не мешает работе, видеозвонкам, прослушиванию музыки или просмотру контента.
- Подходит для круглосуточной работы. Можно оставить устройство включённым на ночь (например, для обучения моделей) — оно не будет мешать сну.
- Универсальность размещения. Не требует отдельной серверной комнаты: можно разместить прямо на рабочем столе без дискомфорта.
- Профессиональная надёжность. Тихая работа не идёт в ущерб производительности — система стабильно держит температуры даже при многочасовых нагрузках.
Выводы: Dell Pro Max с GB10
Исследование возможностей двух систем с чипами GB10 оказалось весьма познавательным, но безусловная звезда обзора — Dell Pro Max с чипом GB10.

Ключевые преимущества Dell Pro Max
- Компактность. Устройство, как и NVIDIA DGX Spark, отличается миниатюрными размерами — несмотря на высокую производительность.
- Мощность и объём памяти. Благодаря чипу GB10 система демонстрирует высокую вычислительную мощность; оснащена значительным объёмом памяти.
- Соответствие спецификациям DGX Spark. Технические характеристики практически идентичны NVIDIA DGX Spark — а значит, и производительность соответствует ожиданиям независимо от выбора платформы (Dell или NVIDIA).
- Бесшовная интеграция с облаком. Главное преимущество Pro Max — возможность легко переносить разработки на сервер DGX Cloud: архитектура системы и специализированные инструменты разработки от NVIDIA обеспечивают совместимость; модели, обученные или протестированные на Dell Pro Max, можно без проблем развернуть в облачной среде DGX Cloud.
Назначение устройства: важный нюанс
Важно помнить, что Dell Pro Max с GB10 — это в первую очередь инструмент разработки для:
- подготовки ИИ‑моделей;
- тестирования алгоритмов;
- отладки распределённых вычислений;
- подготовки к развёртыванию в дата‑центре.
Это не локальное устройство для работы с LLM (большими языковыми моделями) в режиме повседневного использования. Сравнение с Mac Studio наглядно это иллюстрирует:
- Mac Studio ориентирован на интерактивное взаимодействие с моделями среднего размера;
- Dell Pro Max нацелен на этап разработки и масштабирования — перед переносом в дата‑центр или облако.
Перспективное применение: NemoClaw
Dell Pro Max может стать отличной платформой для работы с NVIDIA NemoClaw — фреймворком для создания «агентных» ИИ‑систем (agentic AI):
- NemoClaw требует значительных вычислительных ресурсов для координации нескольких ИИ‑агентов;
- распределённая архитектура Dell Pro Max (особенно в кластере из двух и более узлов) хорошо подходит для таких задач;
- интеграция с инструментами NVIDIA (sparkrun, NCCL) упрощает настройку и запуск сложных сценариев.
Итоговые выводы
Dell Pro Max с GB10 — это:
- компактная, но мощная рабочая станция для разработчиков ИИ;
- практически полный аналог NVIDIA DGX Spark по производительности и функционалу;
- мост между локальной разработкой и облачными дата‑центрами (через DGX Cloud);
- оптимальная платформа для тестирования распределённых вычислений и агентных ИИ‑систем (например, на базе NemoClaw);
- решение для подготовки моделей к промышленному развёртыванию — а не для повседневного локального использования LLM.
Устройство идеально подходит тем, кто:
- разрабатывает ИИ‑модели для последующего масштабирования;
- тестирует распределённые вычисления на нескольких узлах;
- планирует перенос разработок в DGX Cloud или корпоративные дата‑центры;
- исследует сценарии агентного ИИ с использованием инструментов NVIDIA.
Ценообразование и перспективы Dell Pro Max с GB10
В этой статье мы ещё не затрагивали вопрос цены, но если вы знакомы с нашими предыдущими материалами об этой архитектуре, то знаете: решение не из дешёвых. Ситуация усугубилась из‑за «золотой лихорадки» в сфере ИИ, спровоцировавшей глобальный дефицит компонентов.
Текущая цена и сравнение
Сейчас Dell Pro Max с суперчипом GB10 доступен напрямую от Dell по цене 5 780 долларов США. Это существенно выше первоначальной розничной цены в 4 000 долларов — рост обусловлен упомянутым дефицитом.
Сравнение с конкурентами:
- Dell Pro Max (GB10): 5 780 $ — в наличии;
- NVIDIA DGX Spark: 4 700 $ — может быть недоступен из‑за дефицита.
Таким образом, хотя Dell дороже, его можно купить прямо сейчас — в отличие от других систем, ожидающих пополнения запасов.
Почему стоит рассмотреть Dell Pro Max с GB10, несмотря на цену?
Суперчип GB10 предлагает уникальные преимущества, которых нет у других платформ разработки:
- Реальное «железо» для разработки. Вы получаете физическую систему, а не облачный инстанс с абстрактными ресурсами.
- Полная совместимость с SDK NVIDIA и CUDA. Гарантирует беспроблемную работу инструментов NVIDIA и оптимизацию под GPU.
- Большой объём памяти. Необходим для работы с крупными моделями (например, 122 B в FP8).
- Вместительное хранилище. Позволяет хранить наборы данных, модели и результаты экспериментов локально.
- Путь к развёртыванию в дата‑центре. Разработки на Dell Pro Max легко переносятся в DGX Cloud или корпоративные кластеры.
- Готовность к распределённым вычислениям. Поддержка NCCL и возможность объединения нескольких узлов (например, для достижения 256 ГБ памяти).
Перспективы масштабирования: GB10 vs GB300
-
GB10 (Dell Pro Max) — оптимальный выбор для старта: подходит для прототипирования, тестирования моделей и алгоритмов; позволяет отладить процессы перед масштабированием; даёт опыт работы с распределёнными вычислениями на двух узлах.
-
GB300 (Dell Pro Max Ultra) — решение для более серьёзных задач: предлагает значительно более высокую производительность и объём памяти; ориентирован на крупные проекты и промышленное использование; находится на более высоком уровне по цене и возможностям.
Итоговые выводы
Dell Pro Max с GB10 — это:
- Доступное «вхождение в тему». Позволяет начать путь в разработке ИИ с платформы, которая точно воспроизводит среду дата‑центра.
- Баланс цены и возможностей. Дороже DGX Spark, но в наличии — вы не теряете время на ожидание.
- Фундамент для роста. Навыки и код, созданные на GB10, легко переносятся на более мощные системы (например, GB300).
- Платформа для распределённых вычислений. Подходит для тестирования кластеров из двух узлов и подготовки к работе с большими кластерами.
- Решение «здесь и сейчас». Если вам нужна физическая система для локальной разработки с перспективой масштабирования — это один из лучших вариантов на рынке.
Кому подойдёт:
- разработчикам ИИ, которые хотят тестировать модели локально перед переносом в облако или дата‑центр;
- командам, которым нужна компактная рабочая станция с поддержкой распределённых вычислений;
- исследователям, работающим с моделями среднего и крупного размера (27–122 млрд параметров);
- компаниям, планирующим переход на GB300 в будущем — GB10 станет отличной «песочницей».
Краткий итог: несмотря на высокую цену, Dell Pro Max с GB10 оправдывает вложения для тех, кому нужен физический инструмент разработки с прямой связью с экосистемой NVIDIA. Это не просто рабочая станция — это точка входа в мир высокопроизводительного ИИ, где ваш код и модели будут готовы к масштабированию с первого дня. Приобрести Dell Pro Max с GB10 можно у нас на сайте Интернет-сервис ABGREYD_S

