БудинокНовиниСправжнім вузьким місцем штучного інтелекту є не обчислювальна потужність, а переміщення даних — рішенням стає обчислення в пам’яті

Справжнім вузьким місцем штучного інтелекту є не обчислювальна потужність, а переміщення даних — рішенням стає обчислення в пам’яті

Справжнім вузьким місцем штучного інтелекту є не обчислювальна потужність, а переміщення даних — рішенням стає обчислення в пам’яті


Протягом останніх двох років майже всі дискусії про штучний інтелект були зосереджені на обчислювальній потужності: недостатня кількість графічних процесорів, недостатня обчислювальна потужність і невеликі кластери.Складається враження, що збільшення обчислювальної потужності вирішить усі проблеми.

Але цей звіт знову і знову підкреслює один важливий момент: Що справді сповільнює ШІ, так це не нездатність обчислювати, а нездатність ефективно переміщувати дані.

Одна статистика прояснює проблему: Зчитування даних із DRAM споживає в сотні разів більше енергії, ніж із SRAM.Тим часом розрив у продуктивності між процесорами та пам’яттю щороку збільшується майже на 50%.

Значна частина обчислювальної потужності, яку ми шалено будуємо, просто чекає даних. У цю мить я зрозумів дещо вражаюче: Можливо, ми весь час шукали не те вузьке місце для ШІ.

Якщо проблема не в самих обчисленнях, а в розділенні обчислень і пам’яті, тоді справжньою відповіддю можуть бути не потужніші графічні процесори. Це дозволити сама пам'ять бере участь в обчисленнях. Це справжня історія, яку прагне розповісти цей звіт.

Основне повідомлення звіту

Справжнім вузьким місцем обчислювальної потужності штучного інтелекту є перехід від обчислень до пам’яті, і рішенням є перенесення обчислень у пам’ять.

Справжня проблема: ефективність штучного інтелекту обмежена переміщенням даних

Обчислення штучного інтелекту значною мірою покладаються на масивні операції MAC (множення-накопичування) і надзвичайно інтенсивно обробляють дані. Однак класична архітектура фон Неймана має фатальну ваду:

  • Розрив у продуктивності між процесорами та DRAM продовжує збільшуватися (близько 50% на рік)
  • Вартість енергії доступу до пам’яті набагато вища, ніж витрати на самі обчислення (енергія читання DRAM ≈ 100 × енергії SRAM)

Висновок: штучний інтелект не може обчислити — йому не вдається переміщати дані доступно та досить швидко.

Основне протиріччя: вузьке місце фон Неймана

Розділення обчислень і пам’яті призводить до постійного переміщення даних, що спричиняє дві важливі проблеми:

  • Висока затримка
  • Вибухове споживання енергії

Це саме те, що називається у звіті Вузьке місце фон Неймана.

Ключова тенденція: пам'ять стає новим обчислювальним центром

Виникає чітка галузева тенденція: Мікросхеми розвиваються двома шляхами:

  • Пам'ять на кристалі (SRAM) постійно розширюється
  • Пропускна здатність пам'яті продовжує зростати

Тим часом виник революційний напрям: Обчислення в пам'яті (IMC).

Його основна ідея: Виконуйте логічні операції, арифметичні обчислення та множення матриць (ядро ШІ) безпосередньо в пам’яті.

Фундаментальна зміна: Пам'ять = Зберігання → Пам'ять = Compute Engine

Технічні шляхи: від SRAM до нових спогадів

У звіті описано кілька шляхів впровадження:

1. SRAM / eDRAM (традиційний шлях)
Обчислення в кеші, нейронний кеш
Плюси: зрілий, висока швидкість
Обмеження: велика площа, обмежена масштабованість

2. Розвиток пам'яті (основний напрямок)
в тому числі: MRAM, PCM, ReRAM, FeRAM

Загальна мета: перетворити масиви пам’яті на матричні механізми множення та накопичення з обчисленнями на місці та аналоговими обчисленнями (наприклад, поточне підсумовування для векторного множення).

Суть: масив пам'яті = прискорювач ШІ

Але реальні виклики залишаються: точність і шум, варіація пристрою, дрейф ваги (особливо в ReRAM) і проблеми з утриманням. Шлях життєздатний, але надзвичайно складний з точки зору техніки.

Системне рішення: спільна оптимізація апаратного забезпечення та алгоритму

У звіті наголошується, що одного апаратного забезпечення недостатньо — алгоритми також повинні розвиватися.

  • Стиснення моделі: обрізка, розрідженість, розкладання низького рангу
  • Низькоточні обчислення: фіксована кома, бінарні нейронні мережі
  • Навчання з урахуванням апаратного забезпечення: STE, розрідженість бітових фрагментів

Ключовий висновок: Оптимізація ефективності ШІ вимагає спільного проектування архітектури, пристроїв і алгоритмів.

Остаточний висновок

  1. Вбудована пам’ять стала основним ресурсом систем ШІ
  2. Нові спогади роблять інтеграцію пам’яті та комп’ютера основним напрямком
  3. Мікросхеми штучного інтелекту нового покоління вимагають міжрівневого спільного проектування від пристроїв до алгоритмів

Резюме

Вузьке місце штучного інтелекту змінюється від «недостатньої обчислювальної потужності» до «нездатності переміщувати дані достатньо швидко». Відповідь для чіпів наступного покоління полягає не в потужніших графічних процесорах, а пам'ять, яка може обчислювати сама по собі.