NVIDIA DGX 시스템
Nvidia DGX는 GPGPU를 사용하여 딥 러닝 애플리케이션을 가속화하는 Nvidia 제작 서버 및 워크스테이션입니다. DGX 시스템의 일반적인 디자인은 높은 성능의 x86 서버 CPU (일반적으로 인텔 제온)가 장착된 랙마운트 샤시와 마더보드를 기반으로 합니다. DGX A100 및 DGX Station A100을 제외하고는 대부분의 시스템이 인텔 제온을 사용합니다. DGX 시스템의 주요 구성 요소는 독립적인 시스템 보드에 장착된 4~16개의 Nvidia Tesla GPU 모듈입니다. GPU 모듈은 일반적으로 SXM 소켓의 버전을 사용하여 시스템에 통합됩니다. DGX 시스템은 수천 와트의 열 출력을 충분히 냉각하기 위해 대형 히트싱크와 강력한 팬을 갖추고 있습니다.
Backend.AI는 아시아 태평양 지역 최초 NVIDIA DGX-Ready 소프트웨어로 검증된 플랫폼입니다
Backend.AI와 DGX 패밀리의 통합
NVIDIA가 제공하는 컨테이너 런타임에서 부족한 기능 제공
- 다중 사용자를 위한 GPU 공유 및 할당
- 기계학습 파이프라인을 위한 기본 구성요소 제공
- CPU/GPU 토폴로지를 고려한 스케줄링