Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶
Meta 最新 AI 模型 Llama 4 一推出就引發軒然大波!被指控在訓練過程中「作弊」以美化評測成績。Meta 生成式 AI 副總裁親自澄清,但為何仍有疑點?本文深入探討 Llama 4 訓練爭議、官方回應,以及 AI 模型評測背後的複雜性。
最近科技圈好像又不太平靜了,對吧?主角是 Meta,也就是大家熟知的臉書母公司。他們家最新推出的 AI 大模型 Llama 4 系列,本來是備受期待的明日之星,沒想到一發布就立刻捲入了「訓練過程不當」的風暴裡。
社群媒體上吵得沸沸揚揚,核心指控是說 Meta 為了讓新發表的 Llama4Maverick 和 Llama4Scout 這兩個模型,在某些特定的基準測試(就是 AI 界的期末考啦)上看起來分數特別亮眼,竟然偷偷用了這些測試的「考題」(也就是所謂的測試集)來進行訓練。
風暴核心:Llama 4 被指控「偷看」標準答案?
等等,用「測試集」來訓練模型,這聽起來好像有點專業?讓我解釋一下。
想像一下,這就像是學生在大考前,偷偷拿到了完整的考卷和標準答案,然後拼命練習這些題目。等到真正考試的時候,分數當然會高得嚇人,對吧?但這樣的分數,能代表他真正的實力嗎?顯然不行。
在 AI 領域,用測試集來訓練模型,就是類似這樣的作弊行為。測試集是用來「評估」模型訓練完成後的表現好壞,看看它在面對從未見過的資料時,能不能舉一反三。如果你把答案都直接餵給它學習了,那評測就失去了意義,模型的分數也會被嚴重灌水,看起來比實際強大得多。這在業界被認為是非常不道德的行為,根本就是破壞了遊戲規則。
Meta 高層急滅火:「絕對沒這回事!」
面對這樣的指控,Meta 當然不能坐視不管。
Meta 的生成式 AI 副總裁 Ahmad Al-Dahle 立刻就在 X(就是以前的 Twitter)上親自上陣,語氣堅定地表示,這些關於 Llama 4 訓練作弊的說法「完全沒有根據」。
他強調,測試集是用來「驗收成果」的,不是拿來「當教材」的。如果真的在測試集上訓練模型,那模型表現肯定會好得不真實,這完全違背了建立可信賴 AI 的初衷。Al-Dahle 的回應很明確:Meta 沒有做這種違反學術和業界倫理的事情。
等等,那 LM Arena 上的高分是怎麼回事?
不過,事情好像總是有那麼點曲折。
雖然 Meta 強力否認了「用測試集訓練」這項最嚴重的指控,但他們也承認,在某些任務上,公開發布的 Llama4Maverick 和 Llama4Scout 表現確實不如預期。
更有趣的是,Meta 自己也坦承,他們曾在知名的 AI 模型對戰平台 LM Arena 上,使用了一個「尚未發布的 Maverick 實驗版本」來進行測試,而這個實驗版本確實獲得了比較高的分數。嗯…這操作就有點微妙了。雖然這不完全等於用「測試集」作弊,但使用一個未公開、可能經過特別調整的「內部版本」去刷榜,無疑是為之前的作弊傳聞提供了一些「間接證據」,也難怪會引發外界的猜疑。
有眼尖的研究人員就發現,公開下載的 Maverick 版本和在 LM Arena 上運行的那個版本,在行為和反應上存在著顯著的差異。這就讓人更好奇了,這個「實驗版」到底做了什麼調整呢?
版本不同步?雲端上的 Llama 4 表現飄忽不定
除了 LM Arena 的插曲,還有另一個讓使用者感到困惑的問題。
有些開發者反應,他們從不同的雲端服務供應商(像是 AWS、Google Cloud 或 Azure)那邊取用 Llama 4 模型時,發現模型的表現品質不太穩定,時好時壞。這又是怎麼回事呢?
Al-Dahle 對此也做出了解釋。他說:「因為我們在模型準備好之後,很快就將它們發布了,所以可以預期的是,需要幾天時間才能讓所有公開可用的版本達成一致。」他表示,團隊會持續進行 bug 修復,並與合作夥伴溝通,確保各個平台的版本能盡快同步。
這聽起來就像是我們更新手機 App 或電腦軟體一樣,剛更新完總會有些小毛病或不穩定的地方,需要一點時間讓開發者修復和優化。看來 Meta 這次發布 Llama 4 可能真的有點趕,導致版本同步上出了點小狀況。
所以,Meta 到底有沒有「偷吃步」?
那麼,回到最初的問題:Meta 這次到底算不算「作弊」或「偷吃步」呢?
從 Meta 官方的回應來看,他們堅決否認了最核心的指控——也就是直接使用測試集進行訓練。但他們也承認了在 LM Arena 使用了未公開的實驗版本,以及目前版本在不同雲端平台上可能存在不一致的問題。
Meta 的這番澄清,一方面是想努力維護公司在 AI 領域值得信賴的道德形象,告訴大家他們還是遵守遊戲規則的。另一方面,這次的風波也血淋淋地提醒了我們所有人:
- AI 模型的表現並非一成不變: 同一個模型,不同的版本、不同的部署環境(比如不同的雲端平台或硬體)、甚至不同的調用方式,都可能導致結果出現顯著差異。
- 評測的複雜性: 如何公平、透明地評估一個 AI 模型的能力,本身就是一個複雜的議題。這次 LM Arena 的事件,也凸顯了基準測試平台可能遇到的挑戰。
這次 Llama 4 的訓練爭議,或許最終會隨著 Meta 持續的更新和溝通而平息。但它也確實給整個 AI 社群帶來了思考:在追求更高性能的同時,如何確保過程的透明度和結果的公信力?這恐怕是所有 AI 開發者都需要面對的課題。
常見問題解答 (FAQ) 整理:
- Q: Meta 是否承認 Llama 4 的訓練過程有問題?
- A: Meta 強力否認了使用「測試集」進行訓練這項核心指控,認為這是作弊行為。但他們承認曾在 LM Arena 基準測試平台上使用了未公開的「實驗版本」Maverick,且公開版本在不同雲端平台上線初期可能存在表現不一致的問題,需要時間同步和修復。
- Q: 在測試集上訓練 AI 模型有何不妥?
- A: 這就像考試前拿到答案一樣,會讓模型在該測試上的分數異常地高,無法真實反映其面對新問題的泛化能力。這嚴重違反了 AI 評測的公平性和學術倫理,讓評測失去意義。
- Q: LM Arena 上的 Llama 4 Maverick 和公開版本有何不同?
- A: Meta 承認在 LM Arena 上使用的是一個未公開的「實驗版本」。研究人員發現,這個版本與公開發布的版本在行為模式上存在顯著差異,但具體調整細節 Meta 未詳細說明。
- Q: 為何 Llama 4 在不同雲端平台上的表現會不一樣?
- A: Meta 解釋說,由於模型發布速度較快,不同雲端服務供應商的版本同步需要一些時間。他們正在進行 bug 修復並與夥伴溝通,以確保各平台版本的一致性。這類似於軟體更新後需要時間穩定和修復錯誤。