GPU теперь могут использовать память или SSD, подключенные через PCIe, для увеличения объема VRAM

Поделиться

GPU теперь могут использовать память или SSD, подключенные через PCIe, для увеличения объема VRAM

Современные GPU для ИИ и высокопроизводительных вычислений имеют ограниченный объем встроенной высокоскоростной памяти (HBM), что ограничивает их производительность в ИИ и других задачах. Однако новая технология позволит компаниям расширять объем памяти GPU, подключая дополнительную память через шину PCIe, а не ограничиваясь встроенной памятью GPU. Panmnesia — компания, поддерживаемая южнокорейским исследовательским институтом KAIST, разработала низколатентный CXL IP, который может использоваться для расширения памяти GPU с помощью CXL-расширителей памяти.

Требования к памяти для обучения ИИ на более сложных наборах данных быстро растут, что вынуждает компании либо покупать новые GPU, либо использовать менее сложные наборы данных, либо использовать память CPU в ущерб производительности. Хотя CXL — это протокол, работающий поверх PCIe-соединения, его интеграция в GPU сталкивается с рядом проблем, включая отсутствие логической структуры CXL и подсистем, поддерживающих конечные точки DRAM и/или SSD в GPU.

Для решения этой проблемы Panmnesia разработала корневой комплекс (RC), совместимый с CXL 3.1, оснащенный несколькими корневыми портами (RP), которые поддерживают внешнюю память через PCIe, и хост-мостом с декодером памяти, управляемой хостом (HDM), который подключается к системной шине GPU. Декодер HDM по сути заставляет подсистему памяти GPU "думать", что она имеет дело с системной памятью, но на самом деле подсистема использует DRAM или NAND, подключенные через PCIe.

Решение прошло обширное тестирование, показав двузначную наносекундную задержку в обе стороны, включая время, необходимое для преобразования протокола между стандартными операциями с памятью и передачами CXL flit. Оно было успешно интегрировано как в расширители памяти, так и в прототипы GPU/CPU на уровне аппаратного RTL, демонстрируя совместимость с различным оборудованием.

Тесты показали, что UVM работает хуже всего среди всех протестированных ядер GPU. При этом, CXL обеспечивает прямой доступ к расширенному хранилищу через инструкции загрузки/сохранения, устраняя эти проблемы.

В результате, время выполнения CXL-Proto в 1,94 раза короче, чем у UVM. CXL-Opt от Panmnesia дополнительно сокращает время выполнения в 1,66 раза, а оптимизированный контроллер достигает двузначной наносекундной задержки и минимизирует задержку чтения/записи. Это также отражается в значениях IPC, зарегистрированных во время выполнения ядра GPU, где CXL-Opt от Panmnesia достигает производительности в 3,22 и 1,65 раза быстрее, чем UVM и CXL-Proto соответственно.

Это интересно

Похожие новости