雲端維運的關鍵:SAS如何撐起全球服務並面對影子AI挑戰

雲端維運的力量

你知道SAS嗎?這家成立於1960年代的數據分析老牌公司,最近可謂風頭正勁。除了提供資料分析平台,他們現在還轉型成為雲端AI的供應商。他們的客戶遍布140多個國家,從大銀行、大型醫院到零售巨頭,幾乎無所不包。

SAS的資訊長Jay Upchurch,自2019年加入以來,面臨的主要挑戰便是如何在雲端環境中維持服務的可靠性,確保企業客戶能夠即時獲得所需的分析和數據服務。這項挑戰的核心便是雲端維運工程。

雲端維運工程的實踐

在維運雲端服務方面,SAS採用了一套被廣泛接受的方法論——網站可靠性工程(SRE)。這是一套由Google提出的維運實踐方法論,旨在透過一系列實作、指標和管理方法來確保企業系統的可靠性。SRE的核心在於不斷優化系統架構和維運流程,例如開發自動化維運機制,提高工作效率的同時,確保系統的穩定性和擴充性。

然而,SAS並非數位原生企業,像Google那樣輕鬆套用SRE的方法對他們而言具有挑戰。SAS經過調整和改造,最終發展出了一套符合自身需求的雲端維運工程(Cloud Operation Engineering)。這套系統將內部資訊基礎設施、平臺、雲端應用和服務視為一整套IT服務來進行維運,涵蓋了網路維護、伺服器管理、服務可用性維持、風險管理和災難復原等方面。

在SAS的雲端維運工程中,IT維運工程師和研發工程師共同負責維運工作。研發工程師專注於系統程式的優化,擁有處理問題服務的權限。而IT維運工程師則負責基礎設施管理和自動化工具的開發。這樣的合作模式,實質上就像是SRE的一種實現方式,確保了系統的穩定性和效率。

基礎設施即程式碼(IaC)的應用

對SAS來說,基礎設施的彈性和靈活性是至關重要的。為了大規模提供穩定的AI資料分析服務,SAS早已決定將內部所有基礎設施視為程式碼(Infrastructure as Code, IaC)。這意味著,SAS透過程式碼來自動化管理基礎設施,包括作業系統、資料庫連結和儲存等,無需人工干預。

採用IaC模式不僅提升了管理效率,還顯著降低了成本。透過自動化處理,SAS能夠在使用者不再需要特定資源時,自動關閉預留的雲端資源,確保資源使用量與需求相匹配,進而節省成本。

從內部經驗到對外服務

除了內部的自動化管理,SAS也將這些經驗應用到對外服務中。最近,SAS在產品大會上推出了一款雲原生AI開發工具,這款工具能夠代管模型和運算基礎設施,實現自動調度、配置和終止,從而大幅降低基礎設施管理的需求。

此外,SAS還利用自家技術打造了一款內部專用的預防性維護平台,專門監控飛輪電池系統的運作狀態。這種新興能源技術具有高昂的維護成本,SAS運用AI模型預測系統狀態,以實現及早介入,降低維護成本。

CIO的新挑戰

隨著業務和產品逐步數位化,CIO的角色也在不斷演變。Jay Upchurch指出,CIO不僅要關注技術的發展,還需要在業務營運中發揮重要作用。他在SAS推動了業務關係經理(BRM)機制,使IT人員能夠與業務單位更緊密地合作,了解各部門的挑戰,並用IT技術解決實際問題。

此外,隨著影子IT和影子AI的問題越來越突出,SAS也採取了監管和治理措施,來降低風險,並鼓勵內部創新。

技術與商業策略的平衡

Jay Upchurch強調,CIO的核心職責是基於實際問題來尋找技術解決方案,而不是先發展技術再尋找應用場景。他認為,真正的策略應該是從業務需求出發,找出技術可以發揮作用的地方,最終形成有效的商業策略。

在這個快速變化的數位時代,SAS憑藉其雲端維運工程和先進的基礎設施管理方法,持續提供穩定的服務,同時也不斷挑戰自我,迎接新的技術挑戰。

參考資料:https://www.ithome.com.tw/people/163038

如果想知道更多雲端新知,加入我們LINE@官方號

感謝您的填寫,將有專人與您聯繫