GCP雲端

⚡ Gemini Context Caching 登場｜降低成本、提升延遲效能的新利器

📘 減少重複運算，節省 90% 成本
① Google Cloud 推出 Vertex AI context caching，可重複使用已處理的輸入 tokens，大幅降低重算開銷
② 使用 Gemini 2.5 以上模型時，快取 tokens 僅需原價 10% 成本
③ 可自動啟用（Implicit caching）或手動設定（Explicit caching），預測性節省開銷並降低延遲

🚀 兩種快取模式，彈性控制效能與安全
① Implicit caching：自動快取重複內容，無需更改 API，快取 24 小時內自動清除
② Explicit caching：可明確指定要快取的內容、設定 TTL，並支援自管加密金鑰（CMEK）
③ 支援多模態輸入（文字、PDF、影像、音訊、影片），快取容量最高可達 100 萬 tokens

💡 適用情境與最佳實踐
① 長文件查詢與分析：快取法規、研究或財報，重複查詢節省成本
② 客服與對話代理：快取角色設定與產品知識，提升回應一致性與速度
③ 程式開發與知識庫查詢：快取程式碼、企業內部文件，加速 Q&A 與自動補全
④ 建議監控 cachedContentTokenCount、合理設定 TTL、避免快取過小或常變動內容

🔗 原始連結：https://cloud.google.com/blog/products/ai-machine-learning/vertex-ai-context-caching

⚡ Gemini Context Caching 登場｜降低成本、提升延遲效能的新利器

最近貼文

★ AI 不會搶工作，而是重組工作方式：一人公司正在崛起

★AI 新十大建設啟動－打造主權 AI，「國網雲端算力中心」正式啟用

★ 迎向 AI 新局！政府擴大輔導與補助，加速商業服務業上雲轉型

文章分類

追蹤我們

如果想知道更多雲端新知，加入我們LINE@官方號

感謝您的填寫，將有專人與您聯繫