Протягом останніх двох років майже всі дискусії про штучний інтелект були зосереджені на обчислювальній потужності: недостатня кількість графічних процесорів, недостатня обчислювальна потужність і невеликі кластери.Складається враження, що збільшення обчислювальної потужності вирішить усі проблеми.
Але цей звіт знову і знову підкреслює один важливий момент: Що справді сповільнює ШІ, так це не нездатність обчислювати, а нездатність ефективно переміщувати дані.
Одна статистика прояснює проблему: Зчитування даних із DRAM споживає в сотні разів більше енергії, ніж із SRAM.Тим часом розрив у продуктивності між процесорами та пам’яттю щороку збільшується майже на 50%.
Значна частина обчислювальної потужності, яку ми шалено будуємо, просто чекає даних. У цю мить я зрозумів дещо вражаюче: Можливо, ми весь час шукали не те вузьке місце для ШІ.
Якщо проблема не в самих обчисленнях, а в розділенні обчислень і пам’яті, тоді справжньою відповіддю можуть бути не потужніші графічні процесори. Це дозволити сама пам'ять бере участь в обчисленнях. Це справжня історія, яку прагне розповісти цей звіт.
Справжнім вузьким місцем обчислювальної потужності штучного інтелекту є перехід від обчислень до пам’яті, і рішенням є перенесення обчислень у пам’ять.
Обчислення штучного інтелекту значною мірою покладаються на масивні операції MAC (множення-накопичування) і надзвичайно інтенсивно обробляють дані. Однак класична архітектура фон Неймана має фатальну ваду:
Висновок: штучний інтелект не може обчислити — йому не вдається переміщати дані доступно та досить швидко.
Розділення обчислень і пам’яті призводить до постійного переміщення даних, що спричиняє дві важливі проблеми:
Це саме те, що називається у звіті Вузьке місце фон Неймана.
Виникає чітка галузева тенденція: Мікросхеми розвиваються двома шляхами:
Тим часом виник революційний напрям: Обчислення в пам'яті (IMC).
Його основна ідея: Виконуйте логічні операції, арифметичні обчислення та множення матриць (ядро ШІ) безпосередньо в пам’яті.
Фундаментальна зміна: Пам'ять = Зберігання → Пам'ять = Compute Engine
У звіті описано кілька шляхів впровадження:
1. SRAM / eDRAM (традиційний шлях)
Обчислення в кеші, нейронний кеш
Плюси: зрілий, висока швидкість
Обмеження: велика площа, обмежена масштабованість
2. Розвиток пам'яті (основний напрямок)
в тому числі:
MRAM, PCM, ReRAM, FeRAM
Загальна мета: перетворити масиви пам’яті на матричні механізми множення та накопичення з обчисленнями на місці та аналоговими обчисленнями (наприклад, поточне підсумовування для векторного множення).
Суть: масив пам'яті = прискорювач ШІ
Але реальні виклики залишаються: точність і шум, варіація пристрою, дрейф ваги (особливо в ReRAM) і проблеми з утриманням. Шлях життєздатний, але надзвичайно складний з точки зору техніки.
У звіті наголошується, що одного апаратного забезпечення недостатньо — алгоритми також повинні розвиватися.
Ключовий висновок: Оптимізація ефективності ШІ вимагає спільного проектування архітектури, пристроїв і алгоритмів.
Вузьке місце штучного інтелекту змінюється від «недостатньої обчислювальної потужності» до «нездатності переміщувати дані достатньо швидко». Відповідь для чіпів наступного покоління полягає не в потужніших графічних процесорах, а пам'ять, яка може обчислювати сама по собі.