Ось структурований підсумок відео українською мовою, що відповідає вашим інструкціям.
Кінець епохи грубої сили: чому енергія стала головним обмеженням для ШІ
Протягом багатьох років розвиток штучного інтелекту йшов за повторюваною схемою: що більша модель, то більше графічних процесорів (GPU) потрібно, що, своєю чергою, вимагало розширення дата-центрів. Інтелект справді зростав, але ця ера добігає кінця, оскільки змінилася фундаментальна умова. Справа в тому, що потужність більше не масштабується. Зараз увесь світ, включно зі США, стикається з жорсткими енергетичними обмеженнями. Найяскравішим сигналом цього є Техас: щомісяця до електромережі надходять запити на десятки гігават нових дата-центрів, але майже жоден не отримує схвалення — мережа фактично розпродана. Ситуація в інших штатах, від Вірджинії до Огайо та Західного узбережжя, не краща. Мережа переповнена, а її розширення потребує років. Водночас один гігават ШІ-обчислень може генерувати десятки мільярдів доларів на рік, тому чекати неприпустимо. Через це лабораторії зі штучного інтелекту почали будувати власні електростанції: газові турбіни, акумулятори, приватні джерела живлення. З точки зору інженера з проєктування мікросхем, уся ця проблема — це системний виклик, і єдиний реалістичний вихід полягає не в тому, щоб генерувати більше електроенергії, а в тому, щоб змінити спосіб виконання самих обчислень.
Історія Furiosa AI: від футбольної травми до чипу для інференції
Ця історія починається з корейського засновника на ім'я Джон Пайк, який колись відхилив пропозицію про придбання компанії від Meta на суму майже $1 млрд. Працюючи старшим інженером у Samsung, він мав стабільну кар'єру, доки травма під час футболу не прикувала його до ліжка на місяці. У цей час він почав глибоко вивчати ШІ: моделі, математику, системи, а також те, як програмне забезпечення відображається на кремнії. Саме тоді його осяяло: наступною стелею для штучного інтелекту будуть не алгоритми, а енергія. Якщо це правда, то виграє не той чіп, який має найбільшу обчислювальну потужність, а той, який зможе виконувати ту саму роботу, споживаючи менше електроенергії. Тоді Пайк залишив свою посаду в Samsung і заснував компанію Furiosa AI, засновану саме на цьому принципі. Їхня мета — створити ефективні та високопродуктивні чипи, призначені для роботи ШІ в масштабах дата-центрів.
Чому GPU — не панацея: глибинна неефективність для енергоємних завдань
GPU тривалий час правили світом ШІ не випадково. Їх створили для графіки, а графіка — це величезна кількість однотипних математичних операцій. Наприклад, 4K-екран потребує мільйони пікселів, які оновлюються десятки разів на секунду, і кожен піксель вимагає однакових обчислень паралельно. Саме це GPU роблять найкраще. Коли з'явився ШІ, GPU вже були найкращими математичними машинами у світі, і це працювало, доки енергія була дешевою та доступною. Однак GPU ніколи не проєктувалися з урахуванням енергоефективності як головного обмеження, вони були зорієнтовані на швидкість, гнучкість та універсальність. Зараз, коли енергія стала критичним обмеженням, ця універсальність обертається великими витратами. Переміщення даних між пам'яттю та обчислювальними блоками поглинає більше енергії, ніж самі обчислення. Саме тому на сцену виходять нейропроцесори (NPU) — спеціалізовані прискорювачі для одного завдання — інференції. Інференція — це той етап, коли навчена модель приймає реальні вхідні дані (наприклад, ваш запит у чат-боті) і видає результат. Оскільки це дуже повторювана математика (множення та додавання), NPU будується як фабрика для цієї єдиної операції.
Інновації Furiosa: архітектура, яка адаптується до даних
Furiosa AI розробила чіп під назвою War Boy, який є NPU, що використовує так звану систолічну архітектуру. Замість традиційної фон-нейманівської моделі, де дані постійно передаються до та з пам'яті, систолічний масив дозволяє даним текти синхронічно через обчислювальні блоки, як пульс. Ключова перевага: кожна одиниця даних повторно використовується, проходячи через масив, що різко скорочує кількість звернень до пам'яті. А оскільки найбільше енергії споживає саме переміщення даних, це дає величезну економію. Однак це лише базовий рівень. Справжня складність полягає в тому, що реальні робочі навантаження не завжди мають ідеальну структуру: шаблони повторного використання даних постійно змінюються. Замість того, щоб змушувати завдання підлаштовуватися під апаратне забезпечення, Furiosa пішла іншим шляхом: апаратне забезпечення адаптується до структури даних. NPU внутрішньо перебудовує тензори (багатовимірні масиви чисел) — зливає, розщеплює, змінює порядок — так, щоб дані, які часто використовуються, залишалися якомога ближче до обчислювальних блоків. Це можна уявити як різницю між кухарем, який постійно бігає до комори (GPU), і кухарем, який спочатку викладає все необхідне на робочу поверхню (NPU) і ніколи не покидає її. Такий підхід практично не має значення на малому масштабі, але на рівні дата-центру ця різниця стає вирішальною для рахунків за електроенергію.
Практичні рішення для економії енергії: тактова частота та пам'ять на кристалі
Окрім систолічної архітектури, Furiosa зробила кілька додаткових розумних інженерних рішень. По-перше, чіп працює на дуже консервативній тактовій частоті — 1 ГГц. Це зроблено навмисно, оскільки енергія, яку витрачає чіп на операцію, зростає з частотою та квадратом напруги. Замість того щоб підвищувати тактову частоту, пропускна здатність досягається через паралельність, повторне використання даних і локальність. По-друге, чіп має величезний обсяг внутрішньої SRAM-пам'яті, розташованої безпосередньо на кристалі. Кожен обчислювальний фрагмент має власну велику локальну пам'ять, яка в сумі дає сотні мегабайт. Це дозволяє зберігати результати мільярдів малих обчислень, ваги моделей та проміжні тензори, не звертаючись до зовнішньої пам'яті. Оскільки ця пам'ять знаходиться поруч з обчислювальним двигуном, вона швидка, дешева (з точки зору енергії) і дозволяє уникнути постійного потоку даних до та з чіпа. Саме це дає левову частку енергоефективності.
Вражаючі результати та визнання ринку
Пізніша версія чіпа — RNGD — виготовлена за 5-нм технологією TSMC і має дві високопропускні пам'яті, інтегровані з процесором через міжз'єднувальний шар CoWoS. Коли чіп вперше показали на конференції Hot Chips у Стенфорді, він продемонстрував понад двократну енергоефективність порівняно з висококласними GPU Nvidia під час роботи з моделлю Llama від Meta. Конкретні цифри: Furiosa AI споживає 150 Вт, тоді як топові GPU — щонайменше 350 Вт, а з новою архітектурою Blackwell цей показник перевищує 1000 Вт. На стандартних тестах інференції Furiosa показала приблизно на 40% кращу продуктивність на ват, і на масштабі дата-центру ця різниця означає значно менше охолодження та нижчі експлуатаційні витрати. Це не залишилося непоміченим: Meta намагалася викупити Furiosa AI за майже $1 млрд, але отримала відмову. Далі чіп почав з'являтися в реальних впровадженнях: OpenAI використала його для публічної демонстрації, а LG AI Research провела семимісячне тестування, яке підтвердило приблизно в 2,5 раза кращу продуктивність на ват порівняно з GPU-рішеннями, що призвело до комерційної угоди. Зараз найновіший чіп знаходиться в масовому виробництві, і технологія перейшла з лабораторії в реальну інфраструктуру.
Місце NPU в екосистемі: чи замінять вони GPU?
NPU — це не зовсім нова ідея. Нейронні двигуни вже давно використовуються в смартфонах (наприклад, для розпізнавання облич чи обробки голосу без втрати заряду акумулятора) та в ноутбуках (найвідоміший — Apple Neural Engine). Furiosa AI просто застосовує той самий принцип на рівні дата-центрів. Автор відео наголошує, що справжня конкуренція для Furiosa — це не GPU, а інші спеціалізовані чіпи, такі як тензорний процесор Google (TPU), чип Amazon Trainium, радикальний wafer-scale дизайн Cerebras або вже проданий компанії Nvidia Groq. Наступна фаза розвитку ШІ буде визначена не тим, хто навчить найбільшу модель, а тим, хто зможе робити це найефективніше та швидко масштабувати дата-центри. Для гіпермасштабувальників швидкість розгортання стає ключовим пріоритетом, а компанії, які переживуть цю фазу, будуть розглядати енергію як головне обмеження при проєктуванні. Чи замінять NPU GPU? Ні, GPU залишаться найкращими для масивного тренування. Але для інференції — особливо для ШІ, який ніколи не вимикається, — ці нові чіпи, що ставлять ефективність понад швидкість, дуже ймовірно, змінять ландшафт.