建立時間: 2024-07-25 | 最後修改時間: 2024-07-26 | 6 分鐘閱讀

Meta 推出 Llama 3.1：開源 AI 的新里程碑

Meta 推出了 Llama 3.1 系列模型，其中包括 405B 參數的旗艦模型，這是首個能與頂級閉源 AI 模型相媲美的開源模型。新模型擴展了上下文長度，支持多種語言，並提供了更強大的推理能力。

Llama 3.1 簡介

Llama 3.1 405B 是首個公開可用的模型，在通用知識、可控性、數學、工具使用和多語言翻譯方面可與頂級 AI 模型相媲美。這個版本還包括升級版的 8B 和 70B 模型，這些模型都是多語言的，具有顯著更長的 128K 上下文長度，最先進的工具使用能力，以及整體更強的推理能力。

這使得Meta最新的模型能夠支持高級用例，如長文本摘要、多語言對話代理和編碼助手。Meta還修改了許可證，允許開發者使用 Llama 模型的輸出來改進其他模型。

模型架構

訓練 Llama 3.1 405B 是一個重大挑戰，需要在超過 15 萬億個標記上進行訓練。為了在合理的時間內實現這一規模的訓練並達到Meta的結果，Meta顯著優化了Meta的完整訓練堆棧，並將Meta的模型訓練推至超過 16,000 個 H100 GPU。

Meta採用了標準的僅解碼器 transformer 模型架構，而不是專家混合模型，以最大化訓練穩定性。Meta採用了迭代的後訓練程序，每一輪都使用監督微調和直接偏好優化。

指令和聊天微調

在 Llama 3.1 405B 中，Meta努力提高模型對用戶指令的幫助性、質量和詳細指令遵循能力，同時確保高水平的安全性。Meta的最大挑戰是支持更多功能、128K 上下文窗口和增加的模型大小。

在後訓練中，Meta通過對預訓練模型進行多輪對齊來生成最終的聊天模型。每一輪都涉及監督微調（SFT）、拒絕採樣（RS）和直接偏好優化（DPO）。

Llama 系統

Llama 模型一直旨在作為整體系統的一部分工作，該系統可以協調多個組件，包括調用外部工具。Meta的願景是超越基礎模型，為開發者提供更廣泛的系統訪問權限，使他們能夠靈活設計和創建符合其願景的自定義產品。

作為Meta持續努力在模型層之外負責任地發展 AI 並幫助他人做同樣事情的一部分，Meta正在發布一個完整的參考系統，其中包括幾個示例應用程序和新組件，如 Llama Guard 3（一個多語言安全模型）和 Prompt Guard（一個提示注入過濾器）。

開放性推動創新

與閉源模型不同，Llama 模型權重可供下載。開發者可以完全根據自己的需求和應用定製模型，在新數據集上訓練，並進行額外的微調。這使得更廣泛的開發者社區和世界能夠更充分地實現生成式 AI 的力量。

使用 Llama 3.1 405B 構建

對於普通開發者來說，使用 405B 規模的模型具有挑戰性。雖然它是一個非常強大的模型，但Meta認識到它需要大量的計算資源和專業知識才能使用。Meta與社區進行了交流，Meta意識到生成式 AI 開發遠不止提示模型那麼簡單。

Meta希望讓每個人都能充分利用 405B，包括：實時和批量推理、監督微調、特定應用的模型評估、持續預訓練、檢索增強生成（RAG）、函數調用和合成數據生成。

立即嘗試 Llama 3.1 模型系列

Meta迫不及待地想看到社區用這項工作做些什麼。利用多語言性和增加的上下文長度，有很多潛力可以構建有用的新體驗。隨著 Llama Stack 和新的安全工具的推出，Meta期待繼續與開源社區一起負責任地構建。

在發布模型之前，Meta通過幾項措施來識別、評估和減輕潛在風險，包括通過紅隊進行部署前風險發現演習和安全微調。例如，Meta與外部和內部專家進行廣泛的紅隊測試，以壓力測試模型並找出可能被使用的意外方式。

雖然這是Meta迄今為止最大的模型，但Meta相信未來還有很多新的領域可以探索，包括更適合設備的規模、額外的模態，以及對代理平台層的更多投資。一如既往，Meta期待看到社區將用這些模型構建的所有令人驚嘆的產品和體驗。

Share on:

DMflow.chat

微軟 BitNet b1.58 震撼登場：跑更快、更省電的 1 位元 AI 模型來了

微軟 BitNet b1.58 震撼登場：跑更快、更省電的 1 位元 AI 模型來了？ AI 發展快到讓人眼花撩亂，但模型的「食量」也越來越驚人？來看看微軟最新的 BitNet b1.5...

6 April 2025

秘密武器登場？OpenRouter 無預警釋出百萬級長上下文模型 Quasar Alpha

秘密武器登場？OpenRouter 無預警釋出百萬級長上下文模型 Quasar Alpha！ AI 界又有新玩具了！OpenRouter 悄悄推出了一款名為 Quasar Alpha 的...

Mistral Small 3：開創效能與開放性兼具的 AI 模型

1 February 2025

Meta 推出 Llama 3.1：開源 AI 的新里程碑

Llama 3.1 簡介

模型架構

指令和聊天微調

Llama 系統

開放性推動創新

使用 Llama 3.1 405B 構建

立即嘗試 Llama 3.1 模型系列

DMflow.chat

廣告

微軟 BitNet b1.58 震撼登場：跑更快、更省電的 1 位元 AI 模型來了

秘密武器登場？OpenRouter 無預警釋出百萬級長上下文模型 Quasar Alpha

Mistral Small 3：開創效能與開放性兼具的 AI 模型

DeepSeek V3：突破性的開源大型語言模型，超越 GPT-4 與 Claude 3

Meta 推出開源 Llama 3.3 70B，將強大的模型縮小為更小的尺寸

Mistral 發佈 Pixtral 12B：突破性多模態 AI 模型處理文字與圖像

Google面臨新挑戰：反壟斷壓力與 OpenAI 瀏覽器衝擊

GPT-4o-2024 震撼登場：OpenAI 最新人工智能模型帶來革命性突破

創作者福音！YouTube測試Google Gemini助力影片創意發想

Communeify

Links