📘 減少重複運算,節省 90% 成本
① Google Cloud 推出 Vertex AI context caching,可重複使用已處理的輸入 tokens,大幅降低重算開銷
② 使用 Gemini 2.5 以上模型時,快取 tokens 僅需原價 10% 成本
③ 可自動啟用(Implicit caching)或手動設定(Explicit caching),預測性節省開銷並降低延遲
🚀 兩種快取模式,彈性控制效能與安全
① Implicit caching:自動快取重複內容,無需更改 API,快取 24 小時內自動清除
② Explicit caching:可明確指定要快取的內容、設定 TTL,並支援自管加密金鑰(CMEK)
③ 支援多模態輸入(文字、PDF、影像、音訊、影片),快取容量最高可達 100 萬 tokens
💡 適用情境與最佳實踐
① 長文件查詢與分析:快取法規、研究或財報,重複查詢節省成本
② 客服與對話代理:快取角色設定與產品知識,提升回應一致性與速度
③ 程式開發與知識庫查詢:快取程式碼、企業內部文件,加速 Q&A 與自動補全
④ 建議監控 cachedContentTokenCount、合理設定 TTL、避免快取過小或常變動內容
🔗 原始連結:https://cloud.google.com/blog/products/ai-machine-learning/vertex-ai-context-caching


