DMflow.chat
一站式整合Facebook、Instagram、Telegram、LINE和網站的聊天機器人,支持ChatGPT和Gemini模型,具備保留歷史紀錄、推播通知、行銷活動和客服轉接功能。
Meta 推出了 Llama 3.1 系列模型,其中包括 405B 參數的旗艦模型,這是首個能與頂級閉源 AI 模型相媲美的開源模型。新模型擴展了上下文長度,支持多種語言,並提供了更強大的推理能力。
圖片轉自 Meet llama 3.1
Llama 3.1 405B 是首個公開可用的模型,在通用知識、可控性、數學、工具使用和多語言翻譯方面可與頂級 AI 模型相媲美。這個版本還包括升級版的 8B 和 70B 模型,這些模型都是多語言的,具有顯著更長的 128K 上下文長度,最先進的工具使用能力,以及整體更強的推理能力。
這使得Meta最新的模型能夠支持高級用例,如長文本摘要、多語言對話代理和編碼助手。Meta還修改了許可證,允許開發者使用 Llama 模型的輸出來改進其他模型。
訓練 Llama 3.1 405B 是一個重大挑戰,需要在超過 15 萬億個標記上進行訓練。為了在合理的時間內實現這一規模的訓練並達到Meta的結果,Meta顯著優化了Meta的完整訓練堆棧,並將Meta的模型訓練推至超過 16,000 個 H100 GPU。
Meta採用了標準的僅解碼器 transformer 模型架構,而不是專家混合模型,以最大化訓練穩定性。Meta採用了迭代的後訓練程序,每一輪都使用監督微調和直接偏好優化。
在 Llama 3.1 405B 中,Meta努力提高模型對用戶指令的幫助性、質量和詳細指令遵循能力,同時確保高水平的安全性。Meta的最大挑戰是支持更多功能、128K 上下文窗口和增加的模型大小。
在後訓練中,Meta通過對預訓練模型進行多輪對齊來生成最終的聊天模型。每一輪都涉及監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO)。
Llama 模型一直旨在作為整體系統的一部分工作,該系統可以協調多個組件,包括調用外部工具。Meta的願景是超越基礎模型,為開發者提供更廣泛的系統訪問權限,使他們能夠靈活設計和創建符合其願景的自定義產品。
作為Meta持續努力在模型層之外負責任地發展 AI 並幫助他人做同樣事情的一部分,Meta正在發布一個完整的參考系統,其中包括幾個示例應用程序和新組件,如 Llama Guard 3(一個多語言安全模型)和 Prompt Guard(一個提示注入過濾器)。
與閉源模型不同,Llama 模型權重可供下載。開發者可以完全根據自己的需求和應用定製模型,在新數據集上訓練,並進行額外的微調。這使得更廣泛的開發者社區和世界能夠更充分地實現生成式 AI 的力量。
對於普通開發者來說,使用 405B 規模的模型具有挑戰性。雖然它是一個非常強大的模型,但Meta認識到它需要大量的計算資源和專業知識才能使用。Meta與社區進行了交流,Meta意識到生成式 AI 開發遠不止提示模型那麼簡單。
Meta希望讓每個人都能充分利用 405B,包括:實時和批量推理、監督微調、特定應用的模型評估、持續預訓練、檢索增強生成(RAG)、函數調用和合成數據生成。
Meta迫不及待地想看到社區用這項工作做些什麼。利用多語言性和增加的上下文長度,有很多潛力可以構建有用的新體驗。隨著 Llama Stack 和新的安全工具的推出,Meta期待繼續與開源社區一起負責任地構建。
在發布模型之前,Meta通過幾項措施來識別、評估和減輕潛在風險,包括通過紅隊進行部署前風險發現演習和安全微調。例如,Meta與外部和內部專家進行廣泛的紅隊測試,以壓力測試模型並找出可能被使用的意外方式。
雖然這是Meta迄今為止最大的模型,但Meta相信未來還有很多新的領域可以探索,包括更適合設備的規模、額外的模態,以及對代理平台層的更多投資。一如既往,Meta期待看到社區將用這些模型構建的所有令人驚嘆的產品和體驗。
一站式整合Facebook、Instagram、Telegram、LINE和網站的聊天機器人,支持ChatGPT和Gemini模型,具備保留歷史紀錄、推播通知、行銷活動和客服轉接功能。
Mistral 發佈 Pixtral 12B:突破性多模態 AI 模型處理文字與圖像 法國 AI 新星推出首款圖文處理模型,展現強大實力 法國 AI 新創公司 Mistral 最近推出了一款...
OpenAI o1 模型:解決複雜問題的全新思考型 AI 突破性的 AI 推理能力,為科學、編程和數學領域帶來革命性進展 OpenAI 最近推出了一系列全新的 AI 模型,旨在解決複雜問題並...
超長上下文窗口:人工智慧的新境界與 Magic 公司的突破性進展 探索 Magic 公司在 100M 代幣上下文窗口的突破性研究,以及與 Google Cloud 的合作。了解超長上下文模型如...
xAI推出Grok-2測試版:X平台的全新AI革命 xAI最新推出的Grok-2和Grok-2 mini語言模型為X平台帶來了革命性的變革。本文深入探討這些先進AI模型的特點、性能及其對用戶體...
Gemma 2 2B:超越GPT-3.5的革命性小型AI模型 Google最新發布的Gemma 2 2B模型在性能上超越了GPT-3.5和Mixtral 8x7B等大型模型,僅以2.6B參數就...
2024年免費商用授權AI大模型:基礎大模型全面分析 本文全面分析了2024年發布的多個免費商用授權基礎大模型,包括Gemma 2、Phi-3-small、Llama3系列、Grok-1等。我...