OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告,詳細評估了 AI 在軟體開發中的實際表現,並透過一個價值 100 萬美元的真實開發專案進行測試。這項基準測試名為 SWE-Lancer,涵蓋 1,400 個來自 Upwork 的真實專案,並從兩大核心方面——直接開發與專案管理——來評估 AI 的能力。

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

圖片擷取自: https://arxiv.org/abs/2502.12115

Claude 3.5 Sonnet 表現最佳,成功率達 26.2%

測試結果顯示,在目前公開可用的 AI 模型中,Anthropic 推出的 Claude 3.5 Sonnet 表現最優秀,其在純編碼任務的成功率達到了 26.2%,而在專案管理決策上的正確率則達到 44.9%。

這意味著,在程式設計的某些部分,AI 確實可以發揮作用,尤其是處理相對單純的任務,例如修復 API 調用錯誤或簡單的程式碼優化。然而,對於需要更深入理解和創意解決方案的複雜專案(例如開發跨平台影音播放功能),AI 仍然顯得力不從心。事實上,測試中發現 AI 雖然能辨識出問題區塊,但經常無法理解問題的根本原因,更別說提供完整的解決方案。

AI 在開發市場的經濟價值

從經濟效益角度來看,數據顯示,在公開的 Diamond 資料集中,AI 能夠完成價值約 208,050 美元的開發工作。如果擴展至完整數據集,則 AI 預計可處理超過 40 萬美元的專案工作量。這表明,AI 在軟體開發中的應用已經具備一定的經濟價值,尤其是對於企業來說,AI 可能能夠大幅降低人力成本,並提升部分開發效率。

為何 GPT-4o 未被納入測試?

值得注意的是,OpenAI 並未在這次測試中納入最新的 GPT-4o(內部代號 o3)。目前唯一的參考點來自去年 8 月 OpenAI 釋出的 SWE-Bench Verified 測試結果,當時 GPT-4o 取得了 33% 的分數,而更新後的 o3 推理模型更是達到了 72%(OpenAI, 2024b)。這樣看來,GPT-4o 可能已經遠超 SWE-Lancer 測試中的所有模型,那麼為何不納入比較?

有幾種可能性:

  1. 數據時效性——這次 SWE-Lancer 測試可能基於較舊的數據,而 GPT-4o 可能尚未經過最佳化,因此未被納入。
  2. 策略性考量——如果 GPT-4o 表現明顯領先 OpenAI 競爭對手,可能會對市場預期產生影響,甚至影響 OpenAI 未來新模型的推出時機。
  3. 測試範圍適配性——GPT-4o 的設計可能更適用於即時推理與多模態處理,而 SWE-Lancer 偏重純粹的程式設計能力。

無論原因為何,這次測試結果確實讓 Claude 3.5 Sonnet 站上了舞台,成為目前最被關注的 AI 程式設計模型之一。

AI 程式設計的未來發展方向

雖然 AI 目前在軟體開發中仍有諸多限制,但它的潛力不容小覷。未來 AI 在這個領域的發展,可能會聚焦於以下幾點:

  • 增強對程式碼語境的理解能力——AI 需要更深入地理解程式碼的整體架構,而不只是表面上的錯誤修正。
  • 更強的推理與決策能力——目前 AI 主要依賴統計模式,但未來可能會結合更複雜的邏輯推理機制。
  • 人機協作的最佳化——AI 可能不會完全取代人類開發者,而是作為輔助工具,幫助工程師更高效地完成專案。

總的來說,這場 AI 與人類開發者的競賽還遠未結束。無論 OpenAI 是否刻意避開 GPT-4o 的比較,SWE-Lancer 的結果已經證明 AI 正在以驚人的速度提升。或許,是時候重新審視 Anthropic 的技術進展了!

資料來源

Share on:
Previous: xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度
Next: Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!

OpenAI 即將發布開源推理o3-mini模型?
1 April 2025

OpenAI 即將發布開源推理o3-mini模型?

OpenAI 即將發布開源推理o3-mini模型? OpenAI 即將發布一款具備推理能力的開源模型,這是自 GPT-2 之後,公司再次推出的重要開源模型。這次發布吸引了全球開發者的關注...

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代?
1 April 2025

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代?

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代? AI 圖像生成功能悄然擴展,免費用戶也能玩! OpenAI 最近釋出的 ChatGPT 圖片生成功能,在社群媒體上掀...

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權
30 March 2025

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權? 科技巨頭馬斯克震撼宣布旗下 AI 新創 xAI 與社群平台 X 正式合併!全股票交易推升 ...

Vecto3D:將你的 SVG 轉換成 3D 模型的超簡單工具
29 March 2025

Vecto3D:將你的 SVG 轉換成 3D 模型的超簡單工具

Vecto3D:將你的 SVG 轉換成 3D 模型的超簡單工具 Vecto3D 是一款簡單易用的線上工具,專門用來將簡單的 SVG(主要是標誌)轉換為 3D 模型。你可以在 Vecto3...

開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏
29 March 2025

開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏

開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏 YuE:AI 音樂創作新時代的來臨 由 香港科技大學 與 DeepSeek 共同研發的 開源音樂生成模型 YuE 正式發布,...

Manus 正式推出付費方案:Starter 套餐每月 $39 美元
29 March 2025

Manus 正式推出付費方案:Starter 套餐每月 $39 美元

Manus 正式推出付費方案:Starter 套餐每月 $39 美元 Manus 進軍付費市場,從免費試用轉向商業模式 在 AI 服務競爭日益激烈的市場中,Manus 正式宣布推出其首個付費...

吉卜力風格免費玩!EasyControl_Ghibli 模型橫空出世,照片秒變動畫感
2 April 2025

吉卜力風格免費玩!EasyControl_Ghibli 模型橫空出世,照片秒變動畫感

吉卜力風格免費玩!EasyControl_Ghibli 模型橫空出世,照片秒變動畫感 厭倦了 AI 繪圖工具的付費牆和限制嗎?最近 Hugging Face 上出現了一款名為 EasyC...

ChatGPT重磅更新:即時網路搜尋功能完整解析!原來Google搜尋可以這樣用
16 November 2024

ChatGPT重磅更新:即時網路搜尋功能完整解析!原來Google搜尋可以這樣用

ChatGPT重磅更新:即時網路搜尋功能完整解析!原來Google搜尋可以這樣用 文章摘要 ChatGPT最新推出的即時網路搜尋功能,不只是簡單的搜尋升級,更徹底改變了我們使用AI助手的方式。...

Manus AI 系統被破解?官方正式回應來了
11 March 2025

Manus AI 系統被破解?官方正式回應來了

Manus AI 系統被破解?官方正式回應來了 Manus 是什麼?為什麼會引發這麼大的關注? 最近,一款名為 Manus 的全能型 AI 代理人產品橫空出世,不僅技術表現亮眼,還因採取邀請...