Amazon SageMaker HyperPod 引入 Amazon EKS 支援的部落格文章討論了 Amazon Elastic Kubernetes Service (EKS) 與 Amazon SageMaker HyperPod 的整合。這個新功能通過提供可靠性、可觀察性和靈活性,增強了大型基礎模型 (FM) 的訓練基礎設施,最終將停機時間減少了多達 40%。
與 EKS 的整合:客戶現在可以使用基於 Kubernetes 的介面來管理 HyperPod 集群,實現了無縫切換 Slurm 和 Amazon EKS 以應對不同的工作負載,如訓練和推論。
增強的可觀察性:整合包括了 CloudWatch Observability EKS 插件,提供了對 CPU、網絡、磁盤和其他指標的全面監控。
韌性環境:HyperPod 可自動檢測和修復故障實例,實現了長時間的不間斷訓練。
可擴展性:該解決方案支持超過一千個 AI 加速器的擴展,提升了訓練和推論任務的資源利用率。
開發者體驗:整合允許數據科學家專注於模型開發而不是基礎架構管理,並提供了 Kubeflow 和 SageMaker 管理的 MLflow 等工具來進行實驗追蹤。
使用者可以通過 AWS 管理控制台或 AWS CLI 創建和管理 Amazon SageMaker HyperPod 集群,並按照博客中提供的特定設置說明來使用此功能。