Meta 推出 Llama 3.1:開源 AI 的新里程碑

Meta 推出了 Llama 3.1 系列模型,其中包括 405B 參數的旗艦模型,這是首個能與頂級閉源 AI 模型相媲美的開源模型。新模型擴展了上下文長度,支持多種語言,並提供了更強大的推理能力。

Meet llama 3.1 圖片轉自 Meet llama 3.1

Llama 3.1 簡介

Llama 3.1 405B 是首個公開可用的模型,在通用知識、可控性、數學、工具使用和多語言翻譯方面可與頂級 AI 模型相媲美。這個版本還包括升級版的 8B 和 70B 模型,這些模型都是多語言的,具有顯著更長的 128K 上下文長度,最先進的工具使用能力,以及整體更強的推理能力。

這使得Meta最新的模型能夠支持高級用例,如長文本摘要、多語言對話代理和編碼助手。Meta還修改了許可證,允許開發者使用 Llama 模型的輸出來改進其他模型。

模型架構

訓練 Llama 3.1 405B 是一個重大挑戰,需要在超過 15 萬億個標記上進行訓練。為了在合理的時間內實現這一規模的訓練並達到Meta的結果,Meta顯著優化了Meta的完整訓練堆棧,並將Meta的模型訓練推至超過 16,000 個 H100 GPU。

Meta採用了標準的僅解碼器 transformer 模型架構,而不是專家混合模型,以最大化訓練穩定性。Meta採用了迭代的後訓練程序,每一輪都使用監督微調和直接偏好優化。

指令和聊天微調

在 Llama 3.1 405B 中,Meta努力提高模型對用戶指令的幫助性、質量和詳細指令遵循能力,同時確保高水平的安全性。Meta的最大挑戰是支持更多功能、128K 上下文窗口和增加的模型大小。

在後訓練中,Meta通過對預訓練模型進行多輪對齊來生成最終的聊天模型。每一輪都涉及監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO)。

Llama 系統

Llama 模型一直旨在作為整體系統的一部分工作,該系統可以協調多個組件,包括調用外部工具。Meta的願景是超越基礎模型,為開發者提供更廣泛的系統訪問權限,使他們能夠靈活設計和創建符合其願景的自定義產品。

作為Meta持續努力在模型層之外負責任地發展 AI 並幫助他人做同樣事情的一部分,Meta正在發布一個完整的參考系統,其中包括幾個示例應用程序和新組件,如 Llama Guard 3(一個多語言安全模型)和 Prompt Guard(一個提示注入過濾器)。

開放性推動創新

與閉源模型不同,Llama 模型權重可供下載。開發者可以完全根據自己的需求和應用定製模型,在新數據集上訓練,並進行額外的微調。這使得更廣泛的開發者社區和世界能夠更充分地實現生成式 AI 的力量。

使用 Llama 3.1 405B 構建

對於普通開發者來說,使用 405B 規模的模型具有挑戰性。雖然它是一個非常強大的模型,但Meta認識到它需要大量的計算資源和專業知識才能使用。Meta與社區進行了交流,Meta意識到生成式 AI 開發遠不止提示模型那麼簡單。

Meta希望讓每個人都能充分利用 405B,包括:實時和批量推理、監督微調、特定應用的模型評估、持續預訓練、檢索增強生成(RAG)、函數調用和合成數據生成。

立即嘗試 Llama 3.1 模型系列

Meta迫不及待地想看到社區用這項工作做些什麼。利用多語言性和增加的上下文長度,有很多潛力可以構建有用的新體驗。隨著 Llama Stack 和新的安全工具的推出,Meta期待繼續與開源社區一起負責任地構建。

在發布模型之前,Meta通過幾項措施來識別、評估和減輕潛在風險,包括通過紅隊進行部署前風險發現演習和安全微調。例如,Meta與外部和內部專家進行廣泛的紅隊測試,以壓力測試模型並找出可能被使用的意外方式。

雖然這是Meta迄今為止最大的模型,但Meta相信未來還有很多新的領域可以探索,包括更適合設備的規模、額外的模態,以及對代理平台層的更多投資。一如既往,Meta期待看到社區將用這些模型構建的所有令人驚嘆的產品和體驗。

Share on:
Previous: Mistral Large 2:突破性的人工智能語言模型
Next: OpenAI 提供 GPT-4o mini 模型限時免費微調服務
DMflow.chat

DMflow.chat

一站式整合Facebook、Instagram、Telegram、LINE和網站的聊天機器人,支持ChatGPT和Gemini模型,具備保留歷史紀錄、推播通知、行銷活動和客服轉接功能。

29 July 2024

Llama 3.1 405B:開源人工智能的新紀元

Llama 3.1 405B:開源人工智能的新紀元 簡介 人工智能領域正在經歷一場革命,而Meta公司的Llama 3.1 405B模型正站在這場革命的最前沿。本文將深入探討這個開創性的大型...

25 July 2024

Mistral Large 2:突破性的人工智能語言模型

Mistral Large 2:突破性的人工智能語言模型 Mistral Large 2 是一款新一代的大型語言模型,具有卓越的成本效益、速度和性能。它支持多種語言和編程語言,並在多個基準測試...