OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告,詳細評估了 AI 在軟體開發中的實際表現,並透過一個價值 100 萬美元的真實開發專案進行測試。這項基準測試名為 SWE-Lancer,涵蓋 1,400 個來自 Upwork 的真實專案,並從兩大核心方面——直接開發與專案管理——來評估 AI 的能力。

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

圖片擷取自: https://arxiv.org/abs/2502.12115

Claude 3.5 Sonnet 表現最佳,成功率達 26.2%

測試結果顯示,在目前公開可用的 AI 模型中,Anthropic 推出的 Claude 3.5 Sonnet 表現最優秀,其在純編碼任務的成功率達到了 26.2%,而在專案管理決策上的正確率則達到 44.9%。

這意味著,在程式設計的某些部分,AI 確實可以發揮作用,尤其是處理相對單純的任務,例如修復 API 調用錯誤或簡單的程式碼優化。然而,對於需要更深入理解和創意解決方案的複雜專案(例如開發跨平台影音播放功能),AI 仍然顯得力不從心。事實上,測試中發現 AI 雖然能辨識出問題區塊,但經常無法理解問題的根本原因,更別說提供完整的解決方案。

AI 在開發市場的經濟價值

從經濟效益角度來看,數據顯示,在公開的 Diamond 資料集中,AI 能夠完成價值約 208,050 美元的開發工作。如果擴展至完整數據集,則 AI 預計可處理超過 40 萬美元的專案工作量。這表明,AI 在軟體開發中的應用已經具備一定的經濟價值,尤其是對於企業來說,AI 可能能夠大幅降低人力成本,並提升部分開發效率。

為何 GPT-4o 未被納入測試?

值得注意的是,OpenAI 並未在這次測試中納入最新的 GPT-4o(內部代號 o3)。目前唯一的參考點來自去年 8 月 OpenAI 釋出的 SWE-Bench Verified 測試結果,當時 GPT-4o 取得了 33% 的分數,而更新後的 o3 推理模型更是達到了 72%(OpenAI, 2024b)。這樣看來,GPT-4o 可能已經遠超 SWE-Lancer 測試中的所有模型,那麼為何不納入比較?

有幾種可能性:

  1. 數據時效性——這次 SWE-Lancer 測試可能基於較舊的數據,而 GPT-4o 可能尚未經過最佳化,因此未被納入。
  2. 策略性考量——如果 GPT-4o 表現明顯領先 OpenAI 競爭對手,可能會對市場預期產生影響,甚至影響 OpenAI 未來新模型的推出時機。
  3. 測試範圍適配性——GPT-4o 的設計可能更適用於即時推理與多模態處理,而 SWE-Lancer 偏重純粹的程式設計能力。

無論原因為何,這次測試結果確實讓 Claude 3.5 Sonnet 站上了舞台,成為目前最被關注的 AI 程式設計模型之一。

AI 程式設計的未來發展方向

雖然 AI 目前在軟體開發中仍有諸多限制,但它的潛力不容小覷。未來 AI 在這個領域的發展,可能會聚焦於以下幾點:

  • 增強對程式碼語境的理解能力——AI 需要更深入地理解程式碼的整體架構,而不只是表面上的錯誤修正。
  • 更強的推理與決策能力——目前 AI 主要依賴統計模式,但未來可能會結合更複雜的邏輯推理機制。
  • 人機協作的最佳化——AI 可能不會完全取代人類開發者,而是作為輔助工具,幫助工程師更高效地完成專案。

總的來說,這場 AI 與人類開發者的競賽還遠未結束。無論 OpenAI 是否刻意避開 GPT-4o 的比較,SWE-Lancer 的結果已經證明 AI 正在以驚人的速度提升。或許,是時候重新審視 Anthropic 的技術進展了!

資料來源

Share on:
Previous: xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度
Next: Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:支援多平台整合與持久記憶,客製欄位靈活運用,無需額外開發即可連接資料庫與表單,網頁互動+API 輸出,一步到位!

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止
21 February 2025

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止 xAI 今日正式發布其最新 AI 模型 Grok3,並聲稱其為 世界上最聰明的 AI。該公司宣布,Grok3 現已免費開放試用,直...

xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度
21 February 2025

xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度

xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度 2025 年 2 月 18 日,Elon Musk 旗下的 xAI 平台正式推出旗艦模型 Grok3。想要使用這...

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
21 February 2025

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌 近來,AI 技術的進步讓大型語言模型(LLM)變得愈發強大,然而,這些模型在處理資訊時產生「幻覺」(h...

DeepSeek 的開源週:五個倉庫,一個使命——社群創新
21 February 2025

DeepSeek 的開源週:五個倉庫,一個使命——社群創新

DeepSeek 的開源週:五個倉庫,一個使命——社群創新 人工智慧的世界發展迅速——稍不留神,你可能就錯過了下一個重大突破。DeepSeek,一個精簡但充滿抱負的 AGI 探索團隊,最...

開發者們,準備好了嗎?Trae AI 編程工具正式登陸 Windows x64
18 February 2025

開發者們,準備好了嗎?Trae AI 編程工具正式登陸 Windows x64

開發者們,準備好了嗎?Trae AI 編程工具正式登陸 Windows x64! 字節跳動旗下的 AI 編程工具 Trae,終於迎來眾所期盼的 Windows x64 版本!對於長期苦於...

Perplexity 免費推出 Deep Research 工具:科技人員的研究利器
18 February 2025

Perplexity 免費推出 Deep Research 工具:科技人員的研究利器

Perplexity 免費推出 Deep Research 工具:科技人員的研究利器 你聽說了嗎?Perplexity AI 最近搞出大新聞——他們推出了一款名為 “Deep Resea...

Reddit將推出AI驅動搜尋結果頁面:革新用戶體驗與內容探索
8 August 2024

Reddit將推出AI驅動搜尋結果頁面:革新用戶體驗與內容探索

Reddit將推出AI驅動搜尋結果頁面:革新用戶體驗與內容探索 Reddit即將推出一項重大更新,為用戶帶來由人工智能(AI)生成的搜尋結果摘要。這項新功能旨在幫助用戶更深入地探索內容並發現新...

Claude.ai 全新分析工具登場:AI 數據分析能力再進化
25 October 2024

Claude.ai 全新分析工具登場:AI 數據分析能力再進化

Claude.ai 全新分析工具登場:AI 數據分析能力再進化 📊 重點摘要 Claude.ai 推出內建分析工具功能 支援 JavaScript 代碼執行與數據處理 所有 Cl...

Claude 3.5對比Haiku:效能升級,價格定位引發熱議
5 November 2024

Claude 3.5對比Haiku:效能升級,價格定位引發熱議

Claude 3.5對比Haiku:效能升級,價格定位引發熱議 文章摘要 本文深入分析Anthropic最新發布的Claude 3.5模型,探討其性能提升、價格變化及市場定位。通過與Gemi...