Ось резюме інтерв'ю з Чарлі Боулом, віце-президентом із систем DGX у NVIDIA, присвячене 10-річчю DGX та 20-річчю CUDA. Ключові ідеї розкриті у формі повних абзаців із поясненнями автора, конкретними прикладами та практичними висновками.
1. Еволюція DGX: від дослідницького суперкомп’ютера до еталонної архітектури для всієї індустрії
Чарлі Боул пояснює, що DGX зародився 10 років тому як перший штучний інтелект-суперкомп’ютер NVIDIA. Його основна місія — взяти найкращі технології компанії (GPU, мережі, блоки живлення) і перетворити їх на цілісну, вертикально інтегровану програмно-апаратну платформу, яка робить ШІ простим у використанні. Якщо десять років тому це була одна коробка за червоними канатами для дослідників, то тепер DGX — це величезні центри обробки даних, які слугують еталонним дизайном (reference architecture) для всіх партнерів NVIDIA — Dell, Supermicro, HPE та інших. Саме ці партнери, використовуючи напрацювання NVIDIA, будують системи для сотень тисяч клієнтів по всьому світу. Практичний висновок: DGX — це не просто продукт, а «золотий стандарт», який дозволяє всій екосистемі швидко впроваджувати новітні технології ШІ, зменшуючи час виходу на ринок і ризики для кінцевих споживачів.
2. Від восьми GPU до NVLink72: як об’єднання пам’яті змінює можливості ШІ
Ключова відмінність між системами DGX B300 (8 GPU в одному вузлі) та новими NVLink72 полягає в об’єднанні пам’яті. У восьмиканальній системі кожен додаток бачить лише пам’ять окремого вузла. Натомість NVLink72 з’єднує 72 GPU (18 обчислювальних лотків) в одну логічну одиницю за допомогою NVLink-мережі. Це дозволяє додатку використовувати всю пам’ять усіх 72 GPU як один гігантський GPU. Чарлі наводить приклад: якщо раніше завдання з обробки PDF або побудови компілятора C з нуля (яке тривало тиждень) було неможливе через обмеження пам’яті, то тепер такі «агентні робочі навантаження» (agentic workflows) стають реальністю. Практичне значення: замовник обирає або 8-канальну систему для стандартних завдань, або NVLink72 для роботи з трильйонними параметрами, величезним контекстом та складними багатокроковими агентами, які потребують величезного обсягу пам’яті в одному адресному просторі.
3. 35–50× приріст продуктивності та ефективності від Blackwell до Vera Rubin
Одне з головних оголошень — стрибок продуктивності у 35–50 разів у новому поколінні Vera Rubin порівняно з Blackwell. Чарлі Боул наголошує: ця цифра не є «вишневим вибором» — він особисто бачив у клієнтів прирости в 50–100 разів при переході з Hopper на Blackwell. Для клієнта це означає, що на тій самій інфраструктурі можна обслуговувати в 50 разів більше клієнтів без додаткових витрат. На прикладі Vera Rubin NVL72 (ті самі шасі, що й у попередника, але з новими обчислювальними платами) цей приріст досягається завдяки новому GPU Rubin та CPU Vera, які працюють у парі. Практичний висновок: замовник може або виконувати ту саму роботу в 35 разів швидше, або заощадити значні кошти, зменшивши кількість необхідного обладнання та споживаної енергії. Більшість клієнтів обирають обидва варіанти одночасно.
4. Архітектура STX: новий еталон пам’яті для агентних робочих навантажень
Разом з анонсами GPU та CPU у Vera Rubin з’явилася нова еталонна архітектура пам’яті — Bluefield 4 STX. Чарлі пояснює: раніше NVIDIA пропонувала «суперподи» (наприклад, A100 SuperPod) — набори вузлів, об’єднаних InfiniBand та сховищем. Тепер, з появою складних агентних робочих навантажень (наприклад, той самий компілятор C, що будувався тиждень), виявилося, що зберігати весь контекст у високошвидкісній пам’яті GPU (HBM) неможливо. STX — це еталонна архітектура для високошвидкісного зберігання, оптимізованого для ШІ. Він дозволяє партнерам (NetApp, VAST, DDN, HPE) інтегрувати свої сховища безпосередньо в той самий «кістяк» AI-поду. Практичний ефект: якщо токени обробляються в 5 разів швидше завдяки тому, що сховище оптимізоване та розташоване ближче до GPU, то на тому самому фізичному сховищі можна виконати в 5 разів більше роботи. Це зменшує кількість необхідного обладнання, споживання енергії та загальну вартість володіння.
5. Динамічне керування живленням: від 60% до 100% використання енергії
Одне з найбільш недооцінених нововведень у Vera Rubin, на думку Чарлі, — це динамічне керування живленням на всіх рівнях: від чипа до цілого центру обробки даних. У традиційних ЦОД оператори завжди закладаються на пікове споживання (напис на табличці сервера), тому реально використовується лише близько 60% підведеної потужності. Решта 40% — перерозподіл і теплові втрати, бо ніхто не ризикує вручну регулювати навантаження. Vera Rubin впроваджує автоматичне керування: ви задаєте доступну потужність, і система сама перерозподіляє її між стійками. Якщо одна стійка недовантажена, інша може пришвидшитися. Усе це завдяки інтегрованому ШІ в чипі (CPU+GPU), новим блокам живлення з конденсаторами та телеметрії. Практичний приклад: NVIDIA будує власний гігамасштабний AI-фабрику у Вірджинії, де ця технологія працюватиме 24/7 на 100% використання потужності, і навіть зможе отримувати сигнали від енергосистеми для зниження споживання в пікові години. Для будь-якого оператора ЦОД це означає можливість отримати максимум токенів за кожен оплачений ват без ризику аварій.
6. Невпинне вдосконалення через програмне забезпечення: CUDA як довгострокова інвестиція
Чарлі наголошує, що NVIDIA уникає підходу «споживчої електроніки», де пристрої з часом сповільнюються. Завдяки 20-річній зворотній сумісності CUDA та постійним оптимізаціям (наприклад, оновлення TensorRT), кожна система DGX за перший рік після випуску стає приблизно вдвічі швидшою просто за рахунок оновлень програмного забезпечення. Додаток, який працював на першому DGX1 десять років тому, працюватиме і на Vera Rubin сьогодні. Практичний висновок: інвестуючи в системи NVIDIA, клієнт отримує не лише апаратний стрибок при виході нового покоління, але й постійний приріст продуктивності без додаткових витрат. Це кардинально відрізняє ШІ-інфраструктуру від звичайних серверів.
7. Майбутнє агентного ШІ: демократизація створення програм
Найбільше Чарлі хвилює не окрема функція, а те, як клієнти використовують ці системи. Він наводить приклад OpenClaw — безпечного середовища, встановленого в DGX, яке дозволяє будь-якому користувачеві (навіть без глибоких знань програмування) створити власну програмну програму-агента, описавши ідею природною мовою. Раніше така ідея залишалася нереалізованою; тепер же завдяки сучасним GPU, об’єднаній пам’яті та безпечній пісочниці кожен бізнес-користувач здатен автоматизувати рутинні завдання. Практичне значення: найбільш захопливим у наступному році буде побачити неочікувані приклади використання нових систем, які змінять повсякденну роботу мільйонів людей. Це і є справжня цінність інвестицій у ШІ-інфраструктуру NVIDIA.