中文優化嵌入式AI大模型:免費商用授權清單

本文介紹了幾個優秀的中文優化嵌入式AI大模型,包括BGE系列和E5系列。這些模型都支持中文處理,並提供免費商用授權,適合各類應用場景。我們將詳細分析每個模型的特點、參數和應用價值。

BGE-M3-Embedding: 多語言多功能嵌入模型

BGE-M3-Embedding是由BAAI (北京智源人工智能研究院) 發布的最新嵌入模型,具有以下特點:

  • 發布日期: 2024年1月30日
  • 模型大小: 2.27GB
  • 參數數量: 1.13億
  • 最大上下文長度: 8K
  • 支持語言: 多語言,包括中文優化
  • 開源協議: MIT License (免費商用)
  • dim: 1024

BGE-M3採用了自知識蒸餾技術,實現了多語言、多功能和多粒度的文本嵌入。它不僅支持中文,還能處理多種語言,適用於跨語言場景。8K的上下文長度使其能夠處理較長文本,在文檔分析和語義搜索等任務中表現出色。

BGE-M3-Embedding GitHub鏈接

BGE-Large-zh系列: 專注中文的大型嵌入模型

BGE-Large-zh系列包括兩個版本:

1. BGE-Large-zh-noinstruct

  • 發布日期: 2023年8月2日
  • 模型大小: 1.3GB
  • 最大上下文長度: 512
  • 開源協議: MIT License (免費商用)
  • dim: 1024

2. BGE-Large-zh

  • 發布日期: 2023年8月2日
  • 模型大小: 1.3GB
  • 參數數量: 3億
  • 最大上下文長度: 512
  • 開源協議: MIT License (免費商用)
  • dim: 1024

這兩個模型專門針對中文進行了優化,適合各種中文NLP任務。相比BGE-M3,它們的模型體積較小,更適合資源受限的場景。

BGE-Large-zh GitHub鏈接

BGE-M3-Embedding-Unsupervised: 無監督學習版本

BGE-M3-Embedding-Unsupervised是BGE-M3的無監督學習版本:

  • 發布日期: 2024年1月30日
  • 模型大小: 2.27GB
  • 參數數量: 1.13億
  • 最大上下文長度: 8K
  • 開源協議: MIT License (免費商用)
  • dim: 1024

這個版本特別適合那些缺乏標註數據的場景,可以從原始文本中學習有效的表示。

Multilingual-E5-Large: 微軟的多語言嵌入模型

Multilingual-E5-Large是微軟發布的多語言嵌入模型:

  • 發布日期: 2022年12月7日
  • 模型大小: 2.24GB
  • 參數數量: 3億
  • 最大上下文長度: 512
  • 開源協議: MIT License (免費商用)
  • dim: 1024

E5採用了弱監督對比學習方法,在多語言任務上表現出色。它支持包括中文在內的多種語言,適合跨語言應用場景。

Multilingual-E5-Large GitHub鏈接

large另有,base以及small

Jina embeddings v2 base zh

  • 發布日期: 2024年1月10日
  • 模型大小: 321MB
  • 參數數量: 1.61億
  • 最大上下文長度: 8K
  • dim: 768
  • 開源協議: apache-2.0
  • 此版本只支援中文和英文,另可以找到其他特定語言之版本。

jina-embeddings-v2-base-zh

結論

這些中文優化的嵌入式AI大模型為各種NLP應用提供了強大的支持。從專注中文的BGE-Large-zh到多語言的BGE-M3和E5,開發者可以根據具體需求選擇合適的模型。最重要的是,這些模型都提供了免費的商用授權,大大降低了應用門檻。

在選擇模型時,可以考慮以下因素:

  1. 語言需求: 是否需要多語言支持
  2. 上下文長度: 處理的文本長度
  3. 模型大小: 考慮部署環境的資源限制
  4. 特定任務性能: 在目標任務上的表現

隨著這些模型的不斷更新和優化,我們可以期待中文NLP應用的進一步發展和創新。

  • 若不考慮上下文長度: Multilingual-E5>BGE-M3>JINA-V2-BASE-ZH
  • 若考慮上下文長度: BGE-M3>JINA-V2-BASE-ZH>Multilingual-E5
  • 若考慮速度: JINA-V2-BASE-ZH>BGE-M3>=Multilingual-E5(速度由左而右越慢)
Share on:
Previous: 2024年免費商用授權AI大模型:基礎大模型全面分析
Next: 微軟Azure AI平台更新:Phi-3微調、新生成式AI模型及其他重要進展
DMflow.chat

DMflow.chat

一站式整合Facebook、Instagram、Telegram、LINE和網站的聊天機器人,支持ChatGPT和Gemini模型,具備保留歷史紀錄、推播通知、行銷活動和客服轉接功能。

11 June 2024

RAG即服務:釋放企業生成式AI潛力

RAG即服務:釋放企業生成式AI潛力 隨著大型語言模型(LLMs)和生成式AI趨勢的崛起,將生成式AI解決方案整合到企業中可以極大地提升工作效率。如果您是生成式AI的新手,大量的術語可能會...