GPU теперь могут использовать память или SSD, подключенные через PCIe, для увеличения объема VRAM

Поделиться

GPU теперь могут использовать память или SSD, подключенные через PCIe, для увеличения объема VRAM

Современные GPU для ИИ и высокопроизводительных вычислений имеют ограниченный объем встроенной высокоскоростной памяти (HBM), что ограничивает их производительность в ИИ и других задачах. Однако новая технология позволит компаниям расширять объем памяти GPU, подключая дополнительную память через шину PCIe, а не ограничиваясь встроенной памятью GPU. Panmnesia — компания, поддерживаемая южнокорейским исследовательским институтом KAIST, разработала низколатентный CXL IP, который может использоваться для расширения памяти GPU с помощью CXL-расширителей памяти.

Требования к памяти для обучения ИИ на более сложных наборах данных быстро растут, что вынуждает компании либо покупать новые GPU, либо использовать менее сложные наборы данных, либо использовать память CPU в ущерб производительности. Хотя CXL — это протокол, работающий поверх PCIe-соединения, его интеграция в GPU сталкивается с рядом проблем, включая отсутствие логической структуры CXL и подсистем, поддерживающих конечные точки DRAM и/или SSD в GPU.

Для решения этой проблемы Panmnesia разработала корневой комплекс (RC), совместимый с CXL 3.1, оснащенный несколькими корневыми портами (RP), которые поддерживают внешнюю память через PCIe, и хост-мостом с декодером памяти, управляемой хостом (HDM), который подключается к системной шине GPU. Декодер HDM по сути заставляет подсистему памяти GPU "думать", что она имеет дело с системной памятью, но на самом деле подсистема использует DRAM или NAND, подключенные через PCIe.

Решение прошло обширное тестирование, показав двузначную наносекундную задержку в обе стороны, включая время, необходимое для преобразования протокола между стандартными операциями с памятью и передачами CXL flit. Оно было успешно интегрировано как в расширители памяти, так и в прототипы GPU/CPU на уровне аппаратного RTL, демонстрируя совместимость с различным оборудованием.

Тесты показали, что UVM работает хуже всего среди всех протестированных ядер GPU. При этом, CXL обеспечивает прямой доступ к расширенному хранилищу через инструкции загрузки/сохранения, устраняя эти проблемы.

В результате, время выполнения CXL-Proto в 1,94 раза короче, чем у UVM. CXL-Opt от Panmnesia дополнительно сокращает время выполнения в 1,66 раза, а оптимизированный контроллер достигает двузначной наносекундной задержки и минимизирует задержку чтения/записи. Это также отражается в значениях IPC, зарегистрированных во время выполнения ядра GPU, где CXL-Opt от Panmnesia достигает производительности в 3,22 и 1,65 раза быстрее, чем UVM и CXL-Proto соответственно.

Это интересно

Новий iPhone 17 Pro отримає технологію охолодження як у Android-флагманів

Нова флагманська лінійка iPhone 17 Pro буде оснащена інноваційною для Apple технологією — випарною камерою, що суттєво покращить теплорегуляцію пристроїв і зменшить проблеми з...

Похожие новости

Sony IMX09A в шаге от запуска: новаторский задел для монстр-перископов

В настоящее время самые крутые перископ-камеры в смартфонах базируются...

Майкл Сэйлор: биткоин-резерв поможет США погасить госдолг

Председатель совета директоров Strategy (ранее MicroStrategy) Майкл Сэйлор привёл...

В Xbox представили игрового ИИ-ассистента 

Компания Xbox анонсировала Copilot for Gaming — управляемого...

Семья Трампа покупает долю в криптобирже Binance US

Переговоры начались в прошлом году, в 2024 году, когда...