【原文出處】
https://reurl.cc/rrkyM1
【摘要】
一、技術介紹
- RAG工作流程管理:Amazon Bedrock管理端到端的RAG工作流程,包括指定數據位置、選擇嵌入模型轉換數據成向量嵌入,並在AWS帳戶中創建向量存儲。
- Amazon Bedrock知識庫概述: Amazon Bedrock是一個技術框架,提供知識庫功能,並支援基礎模型(Foundation Models)的連接,以進行檢索增強生成(Retrieval Augmented Generation,RAG)。
二、大綱介紹
1. 嵌入模型的額外選擇: – Cohere Embed v3:提供Amazon Titan Text Embeddings之外,還新增了Cohere Embed English和Cohere Embed Multilingual等兩個嵌入模型,每個支援1,024維度。
2. 向量存儲的額外選擇: – Amazon Aurora PostgreSQL-Compatible Edition:新增支援Amazon Aurora PostgreSQL,擴展了自定義向量存儲的選擇。 – Pinecone serverless:新增Pinecone serverless作為自定義向量存儲選項。
3. Amazon Aurora PostgreSQL的特點: – Aurora是一個相容於MySQL和PostgreSQL的關聯式數據庫服務,支援pgvector擴展,可存儲、索引和查詢向量嵌入。 – 提供高效的數據庫吞吐量、彈性伸縮、全球讀取、藍/綠部署等特點。
4. Pinecone serverless的降低成本: – 選擇Pinecone作為自定義向量存儲,可以提供Pinecone或Pinecone serverless配置,降低Amazon OpenSearch Serverless的開發和測試工作負擔。
三、重點整理
- 嵌入模型的擴展性: Amazon Bedrock支援多種嵌入模型,包括Cohere Embed和Amazon Titan Text Embeddings,提供更多數據轉換和語意捕捉的可能性。
- 向量存儲的多樣性:提供Amazon Aurora PostgreSQL-Compatible Edition和Pinecone serverless等多種向量存儲選擇,使得使用者可以根據需求進行選擇。
- 成本效益:引入Pinecone serverless和Amazon Aurora PostgreSQL等選項,旨在降低開發和測試工作負擔,提供更具成本效益的解決方案。
- AWS Region的可用性:知識庫功能現在在AWS Regions US East (N. Virginia) 和 US West (Oregon) 可用。
【詳細內容-中文版】
在 2023 年的 AWS re:Invent 大會上,我們宣布正式推出 Amazon Bedrock 知識庫。憑藉這個知識庫,您可以將 Amazon Bedrock 中的基本模型(FM)安全地連接到公司的數據,以進行檢索增強生成(RAG)。
在之前的一篇博客文章中,我介紹了 Amazon Bedrock 知識庫如何為您管理端到端的 RAG 工作流程。您只需指定數據位置,選擇一個嵌入模型將數據轉換為向量嵌入,然後讓 Amazon Bedrock 在您的 AWS 帳戶中創建一個向量存儲來存儲向量數據。
您還可以自定義 RAG 工作流程,例如指定自己的自定義向量存儲庫。自從我在 11 月的上一篇文章以來,知識庫已經多次更新,其中包括 Amazon Aurora PostgreSQL 兼容版作為附加向量引擎,除了 Amazon OpenSearch 無服務器、Pinecone 和 Redis Enterprise Cloud 自定義向量存儲選項之外(尚未全部列出),下面我將簡要介紹新功能。
更多的嵌入模型選擇
選擇一個嵌入模型將數據(如文檔)轉換為向量嵌入。向量嵌入涉及將文本數據轉換為數字形式,每個嵌入都旨在捕捉數據的語義或上下文含義。
Cohere Embed v3 – 除了 Amazon Titan 文本嵌入,您現在還可以選擇其他兩個嵌入模型,即 Cohere Embed English 和 Cohere Embed Multilingual,每個模型支持 1,024 維度。
更多的向量存儲選項
每個向量嵌入都被放置到一個向量存儲中,通常包括額外的元數據,例如指向嵌入的原始內容的引用,向量存儲索引存儲向量嵌入,允許快速檢索相關數據。
知識庫為您提供了完全托管的 RAG 體驗,包括在您的帳戶中創建向量存儲以存儲向量數據。您還可以從支持的選項列表中創建自定義向量存儲,並提供向量數據庫索引名稱以及索引字段和元數據字段映射。
至於向量存儲的更新,我想強調三個最近的更新:將 Amazon Aurora PostgreSQL 兼容版和 Pinecone 無服務器添加到支持的自定義向量存儲列表中,以及更新現有的 Amazon OpenSearch 無服務器集成,可幫助降低開發和測試工作負載的成本。
Amazon Aurora PostgreSQL – 除了 Amazon OpenSearch 無服務器、Pinecone 和 Redis Enterprise Cloud,您現在還可以選擇 Amazon Aurora PostgreSQL 作為知識庫的向量數據庫。
Aurora 是一個與 MySQL 和 PostgreSQL 完全兼容的關係型數據庫服務。因此,現有的應用程序和工具都可以不加以修改的運行。Aurora PostgreSQL 支持開源的 pgvector 擴展,該擴展使向量嵌入的存儲、索引和查詢成為可能。
許多 Aurora 的常規數據庫工作負載功能也適用於向量嵌入工作負載:
與開源 PostgreSQL 相比,Aurora 提供高達 3 倍的數據庫吞吐量,並支持 Amazon Bedrock 中的向量操作。
Aurora 無服務器 v2 通過根據來自 Amazon Bedrock 的實時查詢負載自動調整存儲和計算容量,確保了最佳的配置。
Aurora 全局數據庫在多個 AWS 區域提供全球低延遲讀取和災難恢復功能,藍綠部署將生產數據庫。
#AWS #Amazon Aurora #Amazon Bedrock #Generative AI