Meta 推出 Llama 3.2:多模態文本與圖像處理模型

Meta 在 Amazon Bedrock 推出 Llama 3.2 模型,具備多模態能力,可處理文本和圖像,並提供輕量級及 11B 和 90B 視覺專用模型,適用於圖像字幕生成、視覺問答等應用。所有模型支持 128K tokens 上下文,改進了多語言能力,並在超過 150 個基準數據集上表現出色。

廣告文案

Meta 在 Amazon Bedrock 推出 Llama 3.2 模型,具備多模態能力,可處理文本和圖像,並提供輕量級及 11B 和 90B 視覺專用模型,適用於圖像字幕生成、視覺問答等應用。所有模型支持 128K tokens 上下文,改進了多語言能力,並在超過 150 個基準數據集上表現出色。用戶可通過 Amazon Bedrock 控制台、AWS CLI 或 SDK 訪問,並提供微調選項。模型基於優化的 Transformer 架構,支持監督微調和強化學習,現於特定 AWS 區域提供,未來將擴大範圍。

文章重點


1. 模型概述:Llama 3.2 是大型語言模型(LLM)在多模態能力上的一個突破,能夠處理文字和圖像。該模型有不同的大小,包括適用於邊緣設備的輕量級選項。

2. 模型大小:
  – 1B 和 3B 參數模型:適用於邊緣應用的輕量級文字模型。
  – 11B 和 90B 參數模型:支持複雜的推理任務和多模態輸入,包括高分辨率圖像。

3. 能力:
  – 11B 和 90B 模型專為視覺任務設計,將圖像編碼器的表示集成到語言模型中。
  – 所有模型支持 128K tokens 的上下文長度,並在八種語言上具有改進的多語言能力。

4. 使用案例:
  – 這些模型可應用於各種應用,包括圖像標題生成、視覺問答、文本摘要和客戶服務應用。

5. 性能:Llama 3.2 模型在超過 150 個基準數據集上進行了測試,表現與其他領先模型相媲美。

6. 部署:用戶可以通過 Amazon Bedrock 控制台或通過 AWS CLI 和 SDK 以編程方式訪問這些模型。還提供了特定用例的微調選項。

7. 架構:該模型採用了優化的 Transformer 架構和先進的微調技術,包括監督微調和通過人類反饋進行的強化學習。

8. 可用性:這些模型在特定的 AWS 區域可用,未來計劃擴大訪問範圍。

原網址:https://aws.amazon.com/tw/blogs/aws/introducing-llama-3-2-models-from-meta-in-amazon-bedrock-a-new-generation-of-multimodal-vision-and-lightweight-models

如果想知道更多雲端新知,加入我們LINE@官方號

感謝您的填寫,將有專人與您聯繫