
DMflow.chat
廣告
全能 DMflow.chat:支援多平台整合與持久記憶,客製欄位靈活運用,無需額外開發即可連接資料庫與表單,網頁互動+API 輸出,一步到位!
近來,AI 技術的進步讓大型語言模型(LLM)變得愈發強大,然而,這些模型在處理資訊時產生「幻覺」(hallucination)——即生成錯誤或虛假的資訊——仍是一大挑戰。為了評估不同模型在資訊準確性上的表現,Vectara 推出了「幻覺排行榜」(Hallucination Leaderboard),並使用 Hughes 幻覺評估模型(HHEM-2.1)來測試 LLM 在摘要文件時產生錯誤資訊的頻率。
圖片來源: https://github.com/vectara/hallucination-leaderboard
最新排行榜顯示,Google 的 Gemini 2.0 Flash-001 模型表現卓越,幻覺率僅 0.7%,幾乎不會在文件處理過程中引入錯誤資訊。這意味著,它能夠以極高的準確度生成內容,為用戶提供可靠的摘要。
緊隨其後的則是 Gemini-2.0-Pro-Exp 與 OpenAI 的 o3-mini-high-reasoning,這兩款模型的幻覺率同為 0.8%。這一結果顯示,頂尖 LLM 已經在資訊準確性方面取得重大突破。
該報告不僅關注幻覺率,還評估了其他關鍵指標,包括:
以下是排行榜中的部分數據:
模型名稱 | 幻覺率 | 事實一致性率 | 回答率 | 平均摘要長度(字數) |
---|---|---|---|---|
Google Gemini-2.0-Flash-001 | 0.7% | 99.3% | 100.0% | 65.2 |
Google Gemini-2.0-Pro-Exp | 0.8% | 99.2% | 99.7% | 61.5 |
OpenAI o3-mini-high-reasoning | 0.8% | 99.2% | 100.0% | 79.5 |
Google Gemini-2.0-Flash-Lite-Preview | 1.2% | 98.8% | 99.5% | 60.9 |
Zhipu AI GLM-4-9B-Chat | 1.3% | 98.7% | 100.0% | 58.1 |
OpenAI o1-mini | 1.4% | 98.6% | 100.0% | 78.3 |
GPT-4o | 1.5% | 98.5% | 100.0% | 77.8 |
從這份數據可以看出,Google 的 Gemini 系列與 OpenAI 的新一代模型在減少幻覺方面均表現優異。其中,Gemini 2.0 Flash-001 無疑成為新一代 LLM 的領頭羊。
大型語言模型被廣泛應用於新聞摘要、醫學資訊、法律分析等領域,確保資訊的準確性至關重要。如果 LLM 無法提供可靠的資訊,可能會導致錯誤的決策或誤導公眾。因此,降低幻覺率是未來 AI 研究與應用的一大核心目標。
隨著 AI 技術的不斷進步,幻覺率的降低無疑是一個好消息。然而,LLM 仍然無法完全消除錯誤,開發者仍需持續改進模型的資訊過濾能力。同時,用戶也應該對 AI 生成的內容保持一定的批判性,透過多方驗證來確保資訊的真實性。
想要查看完整排行榜?請點擊這裡查看 Vectara 的官方數據。
這份最新的「幻覺排行榜」為研究人員、開發者以及普通用戶提供了有價值的參考,幫助大家了解當前 LLM 的表現,並為未來的 AI 發展方向提供指引。
全能 DMflow.chat:支援多平台整合與持久記憶,客製欄位靈活運用,無需額外開發即可連接資料庫與表單,網頁互動+API 輸出,一步到位!
xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止 xAI 今日正式發布其最新 AI 模型 Grok3,並聲稱其為 世界上最聰明的 AI。該公司宣布,Grok3 現已免費開放試用,直...
xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度 2025 年 2 月 18 日,Elon Musk 旗下的 xAI 平台正式推出旗艦模型 Grok3。想要使用這...
OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制 近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告...
DeepSeek 的開源週:五個倉庫,一個使命——社群創新 人工智慧的世界發展迅速——稍不留神,你可能就錯過了下一個重大突破。DeepSeek,一個精簡但充滿抱負的 AGI 探索團隊,最...
開發者們,準備好了嗎?Trae AI 編程工具正式登陸 Windows x64! 字節跳動旗下的 AI 編程工具 Trae,終於迎來眾所期盼的 Windows x64 版本!對於長期苦於...
Perplexity 免費推出 Deep Research 工具:科技人員的研究利器 你聽說了嗎?Perplexity AI 最近搞出大新聞——他們推出了一款名為 “Deep Resea...
2024年Manychat全面評測:功能、優缺點與價格分析 Manychat是領先的聊天機器人平台,但它真的適合你的業務嗎?本文深入分析Manychat的功能、優缺點和定價,幫助你做出明智選擇...
OpenAI Day9: 向全球開發者致敬:提升開發者體驗 開場介紹 歡迎致辭 by Olivia Gar Olivia Gar,OpenAI 的平台產品負責人,以滿滿的熱情開啟了第九天的活動...
低成本 AI 推理模型 S1 震撼登場 近期,來自史丹佛大學和華盛頓大學的研究團隊成功訓練了一款名為 S1 的 AI 推理模型,訓練成本竟然低於 50 美元,且雲端計算資源需求極低。這項...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.