Amazon FSx for Lustre 通過支援 Elastic Fabric Adapter(EFA)和 NVIDIA GPUDirect Storage(GDS),實現了高達 12 倍的吞吐量提升,最高可達 1200 Gbps。這項改進適用於深度學習、藥物發現等高性能應用。EFA 優化數據傳輸,GDS 實現 GPU 內存與文件系統的直接數據傳輸,降低延遲並減少 CPU 負擔。
文章重點
【增強的吞吐量】
- 【性能提升】整合了 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect Storage (GDS) 技術,使得個別客戶實例的吞吐量最高可達 12 倍(高達 1200 Gbps),相比之前版本的 FSx for Lustre,其吞吐量僅限於 100 Gbps。
【應用案例】
- 【高性能場景】這項改進使 FSx for Lustre 能應用於高性能需求的領域,如深度學習、藥物發現、金融建模和自動駕駛開發等。
【技術細節】
- 【EFA】通過 AWS 可擴展可靠數據報文(SRD)協議,繞過操作系統以優化數據傳輸。
- 【GDS】促進文件系統與 GPU 內存之間的直接數據傳輸,消除 CPU 參與並減少內存拷貝。
【設置指南】
- 【逐步操作】文章提供了關於如何創建啟用了 EFA 的 FSx for Lustre 文件系統以及如何從 EC2 實例掛載它的詳細指引。
【兼容性】
- 【技術支持】EFA 和 GDS 支持無需額外費用,要求在 Ubuntu 22.04 或更高版本上運行 Lustre 2.15 客戶端。
- 【靈活適配】保持與 EFA 和非 EFA 工作負載的兼容性。
【部署考量】
- 【存儲需求】啟用了 EFA 的文件系統具有比未啟用 EFA 的系統更大的最小存儲容量增量。