
DMflow.chat
廣告
全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!
近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告,詳細評估了 AI 在軟體開發中的實際表現,並透過一個價值 100 萬美元的真實開發專案進行測試。這項基準測試名為 SWE-Lancer,涵蓋 1,400 個來自 Upwork 的真實專案,並從兩大核心方面——直接開發與專案管理——來評估 AI 的能力。
圖片擷取自: https://arxiv.org/abs/2502.12115
測試結果顯示,在目前公開可用的 AI 模型中,Anthropic 推出的 Claude 3.5 Sonnet 表現最優秀,其在純編碼任務的成功率達到了 26.2%,而在專案管理決策上的正確率則達到 44.9%。
這意味著,在程式設計的某些部分,AI 確實可以發揮作用,尤其是處理相對單純的任務,例如修復 API 調用錯誤或簡單的程式碼優化。然而,對於需要更深入理解和創意解決方案的複雜專案(例如開發跨平台影音播放功能),AI 仍然顯得力不從心。事實上,測試中發現 AI 雖然能辨識出問題區塊,但經常無法理解問題的根本原因,更別說提供完整的解決方案。
從經濟效益角度來看,數據顯示,在公開的 Diamond 資料集中,AI 能夠完成價值約 208,050 美元的開發工作。如果擴展至完整數據集,則 AI 預計可處理超過 40 萬美元的專案工作量。這表明,AI 在軟體開發中的應用已經具備一定的經濟價值,尤其是對於企業來說,AI 可能能夠大幅降低人力成本,並提升部分開發效率。
值得注意的是,OpenAI 並未在這次測試中納入最新的 GPT-4o(內部代號 o3)。目前唯一的參考點來自去年 8 月 OpenAI 釋出的 SWE-Bench Verified 測試結果,當時 GPT-4o 取得了 33% 的分數,而更新後的 o3 推理模型更是達到了 72%(OpenAI, 2024b)。這樣看來,GPT-4o 可能已經遠超 SWE-Lancer 測試中的所有模型,那麼為何不納入比較?
有幾種可能性:
無論原因為何,這次測試結果確實讓 Claude 3.5 Sonnet 站上了舞台,成為目前最被關注的 AI 程式設計模型之一。
雖然 AI 目前在軟體開發中仍有諸多限制,但它的潛力不容小覷。未來 AI 在這個領域的發展,可能會聚焦於以下幾點:
總的來說,這場 AI 與人類開發者的競賽還遠未結束。無論 OpenAI 是否刻意避開 GPT-4o 的比較,SWE-Lancer 的結果已經證明 AI 正在以驚人的速度提升。或許,是時候重新審視 Anthropic 的技術進展了!
全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!
OpenAI 即將發布開源推理o3-mini模型? OpenAI 即將發布一款具備推理能力的開源模型,這是自 GPT-2 之後,公司再次推出的重要開源模型。這次發布吸引了全球開發者的關注...
ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代? AI 圖像生成功能悄然擴展,免費用戶也能玩! OpenAI 最近釋出的 ChatGPT 圖片生成功能,在社群媒體上掀...
馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權? 科技巨頭馬斯克震撼宣布旗下 AI 新創 xAI 與社群平台 X 正式合併!全股票交易推升 ...
Vecto3D:將你的 SVG 轉換成 3D 模型的超簡單工具 Vecto3D 是一款簡單易用的線上工具,專門用來將簡單的 SVG(主要是標誌)轉換為 3D 模型。你可以在 Vecto3...
開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏 YuE:AI 音樂創作新時代的來臨 由 香港科技大學 與 DeepSeek 共同研發的 開源音樂生成模型 YuE 正式發布,...
Manus 正式推出付費方案:Starter 套餐每月 $39 美元 Manus 進軍付費市場,從免費試用轉向商業模式 在 AI 服務競爭日益激烈的市場中,Manus 正式宣布推出其首個付費...
吉卜力風格免費玩!EasyControl_Ghibli 模型橫空出世,照片秒變動畫感 厭倦了 AI 繪圖工具的付費牆和限制嗎?最近 Hugging Face 上出現了一款名為 EasyC...
ChatGPT重磅更新:即時網路搜尋功能完整解析!原來Google搜尋可以這樣用 文章摘要 ChatGPT最新推出的即時網路搜尋功能,不只是簡單的搜尋升級,更徹底改變了我們使用AI助手的方式。...
Manus AI 系統被破解?官方正式回應來了 Manus 是什麼?為什麼會引發這麼大的關注? 最近,一款名為 Manus 的全能型 AI 代理人產品橫空出世,不僅技術表現亮眼,還因採取邀請...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.