建立時間: 2024-07-30 | 最後修改時間: 2024-08-12 | 6 分鐘閱讀

檢索-生成

中文優化嵌入式AI大模型:免費商用授權清單

本文介紹了幾個優秀的中文優化嵌入式AI大模型，包括BGE系列和E5系列。這些模型都支持中文處理，並提供免費商用授權，適合各類應用場景。我們將詳細分析每個模型的特點、參數和應用價值。

BGE-M3-Embedding: 多語言多功能嵌入模型

BGE-M3-Embedding是由BAAI (北京智源人工智能研究院) 發布的最新嵌入模型，具有以下特點:

發布日期: 2024年1月30日
模型大小: 2.27GB
參數數量: 1.13億
最大上下文長度: 8K
支持語言: 多語言，包括中文優化
開源協議: MIT License (免費商用)
dim: 1024

BGE-M3採用了自知識蒸餾技術，實現了多語言、多功能和多粒度的文本嵌入。它不僅支持中文，還能處理多種語言，適用於跨語言場景。8K的上下文長度使其能夠處理較長文本，在文檔分析和語義搜索等任務中表現出色。

BGE-M3-Embedding GitHub鏈接

BGE-Large-zh系列: 專注中文的大型嵌入模型

BGE-Large-zh系列包括兩個版本:

1. BGE-Large-zh-noinstruct

發布日期: 2023年8月2日
模型大小: 1.3GB
最大上下文長度: 512
開源協議: MIT License (免費商用)
dim: 1024

2. BGE-Large-zh

發布日期: 2023年8月2日
模型大小: 1.3GB
參數數量: 3億
最大上下文長度: 512
開源協議: MIT License (免費商用)
dim: 1024

這兩個模型專門針對中文進行了優化，適合各種中文NLP任務。相比BGE-M3，它們的模型體積較小，更適合資源受限的場景。

BGE-Large-zh GitHub鏈接

BGE-M3-Embedding-Unsupervised: 無監督學習版本

BGE-M3-Embedding-Unsupervised是BGE-M3的無監督學習版本:

發布日期: 2024年1月30日
模型大小: 2.27GB
參數數量: 1.13億
最大上下文長度: 8K
開源協議: MIT License (免費商用)
dim: 1024

這個版本特別適合那些缺乏標註數據的場景，可以從原始文本中學習有效的表示。

Multilingual-E5-Large: 微軟的多語言嵌入模型

Multilingual-E5-Large是微軟發布的多語言嵌入模型:

發布日期: 2022年12月7日
模型大小: 2.24GB
參數數量: 3億
最大上下文長度: 512
開源協議: MIT License (免費商用)
dim: 1024

E5採用了弱監督對比學習方法，在多語言任務上表現出色。它支持包括中文在內的多種語言，適合跨語言應用場景。

Multilingual-E5-Large GitHub鏈接

large另有，base以及small

Jina embeddings v2 base zh

發布日期: 2024年1月10日
模型大小: 321MB
參數數量: 1.61億
最大上下文長度: 8K
dim: 768
開源協議: apache-2.0
此版本只支援中文和英文，另可以找到其他特定語言之版本。

jina-embeddings-v2-base-zh

結論

這些中文優化的嵌入式AI大模型為各種NLP應用提供了強大的支持。從專注中文的BGE-Large-zh到多語言的BGE-M3和E5，開發者可以根據具體需求選擇合適的模型。最重要的是，這些模型都提供了免費的商用授權，大大降低了應用門檻。

在選擇模型時，可以考慮以下因素:

語言需求: 是否需要多語言支持
上下文長度: 處理的文本長度
模型大小: 考慮部署環境的資源限制
特定任務性能: 在目標任務上的表現

隨著這些模型的不斷更新和優化，我們可以期待中文NLP應用的進一步發展和創新。

若不考慮上下文長度: Multilingual-E5>BGE-M3>JINA-V2-BASE-ZH
若考慮上下文長度: BGE-M3>JINA-V2-BASE-ZH>Multilingual-E5
若考慮速度: JINA-V2-BASE-ZH>BGE-M3>=Multilingual-E5(速度由左而右越慢)

Share on:

中文優化嵌入式AI大模型:免費商用授權清單

BGE-M3-Embedding: 多語言多功能嵌入模型

BGE-Large-zh系列: 專注中文的大型嵌入模型

1. BGE-Large-zh-noinstruct

2. BGE-Large-zh

BGE-M3-Embedding-Unsupervised: 無監督學習版本

Multilingual-E5-Large: 微軟的多語言嵌入模型

Jina embeddings v2 base zh

結論

DMflow.chat

廣告

告別 RAG 建置惡夢！Cloudflare AutoRAG 讓你的 AI 更懂你

GraphRAG：利用知識圖譜增強自然語言生成的創新方法

RAG即服務：釋放企業生成式AI潛力

Meta Motivo：突破性的人工智慧全身人形控制模型 | 完整解析與應用

AI風險資料庫：全面了解人工智慧的潛在威脅

英國O2電信推出AI反詐騙機器人「黛西」：讓詐騙者空等40分鐘的智慧奶奶

Communeify

Hello, we want to use some third-party cookies and scripts to enhance the functionality of this website.

中文優化嵌入式AI大模型:免費商用授權清單

BGE-M3-Embedding: 多語言多功能嵌入模型

BGE-Large-zh系列: 專注中文的大型嵌入模型

1. BGE-Large-zh-noinstruct

2. BGE-Large-zh

BGE-M3-Embedding-Unsupervised: 無監督學習版本

Multilingual-E5-Large: 微軟的多語言嵌入模型

Jina embeddings v2 base zh

結論

DMflow.chat

廣告

告別 RAG 建置惡夢！Cloudflare AutoRAG 讓你的 AI 更懂你

GraphRAG：利用知識圖譜增強自然語言生成的創新方法

RAG即服務：釋放企業生成式AI潛力

Meta Motivo：突破性的人工智慧全身人形控制模型 | 完整解析與應用

AI風險資料庫：全面了解人工智慧的潛在威脅

英國O2電信推出AI反詐騙機器人「黛西」：讓詐騙者空等40分鐘的智慧奶奶

Communeify

Links