
DMflow.chat
廣告
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
OpenAI 推出了最新的 o 系列 AI 模型:o3 和 o4-mini。它們不僅更聰明、更強大,還具備更深入的推理能力和工具使用技巧,甚至能「看懂」圖片並與之互動。來看看這次的 AI 進化,又將如何改變我們的生活和工作吧!
嘿,聊到 AI,是不是感覺每天都有新花樣?就在昨天 (2025 年 4 月 16 日),科技界的領頭羊 OpenAI 又給我們帶來了驚喜,正式推出了他們 o 系列的最新成員:OpenAI o3 和 o4-mini。
這次可不是小打小鬧,這兩個新模型被訓練得更懂得「三思而後行」,在回答你之前,會進行更長時間的思考和推理。OpenAI 說,這是他們迄今為止發布過最聰明、能力最強的模型,代表著 ChatGPT 能力的一次大躍進,對所有人來說都是如此。
聽起來很厲害,對吧?那我們就來看看,這次到底「變」在哪裡?
簡單來說,o3 和 o4-mini 的核心升級在於它們的推理能力和工具整合。它們不只能瀏覽網頁、分析你上傳的檔案(用 Python 喔!)、深入理解圖片內容,甚至還能自己生成圖片。
更關鍵的是,它們被訓練得知道什麼時候以及如何使用這些工具,來給出更詳細、更有深度的答案,而且通常在一分鐘內就能搞定比較複雜的問題。這讓它們處理起多面向的提問更加得心應手,也朝著能獨立為你執行任務的「代理人式」ChatGPT 邁進了一大步。
這種頂尖的推理能力加上全面的工具使用權限,讓它們在學術評測和實際應用場景中都表現得更強,可以說是在智慧和實用性上都立下了新的標竿。
OpenAI o3 可以說是目前 OpenAI 推理能力的巔峰之作。它在寫程式、數學、科學、視覺感知等領域都把標準往前推進了一大截。在像是 Codeforces(程式競賽平台)、SWE-bench(軟體工程評測)和 MMMU(大型多模態理解評測)等指標上都創下了新紀錄。
它特別擅長處理那些需要多方面分析、答案沒那麼顯而易見的複雜問題。尤其是在視覺任務上,比如分析圖片、圖表和圖形,表現更是搶眼。根據外部專家的評估,在困難的、真實世界的任務中,o3 犯的重大錯誤比之前的 o1 少了 20%!尤其在程式設計、商業諮詢和創意發想等領域更是表現突出。
不少早期測試者都說,o3 的分析能力超強,就像個思考夥伴,特別是在生物、數學和工程領域,它生成和評估新假設的能力讓人印象深刻。
相較之下,OpenAI o4-mini 是一個更小巧、更注重速度和成本效益的模型。但你可別小看它!以它的體積和成本來說,表現非常驚人,特別是在數學、程式碼和視覺任務上。它在 2024 和 2025 年的 AIME(美國數學邀請賽)評測中是表現最好的模型。
專家評估也顯示,在非理工科任務和數據科學等領域,它的表現也超越了它的前身 o3-mini。因為效率高,o4-mini 的使用限制比 o3 寬鬆得多,對於那些需要大量、高頻率推理的問答場景來說,它絕對是個強而有力的選擇。CP 值真的很高!
除了硬核的推理能力,這次 o3 和 o4-mini 在跟你互動時,也會感覺更自然、更像在聊天。這得益於它們改進的智慧和整合網路資訊的能力。跟之前的模型比起來,它們更能記住之前的對話內容,讓回應更加個人化和貼切。
這絕對是這次更新的一大亮點!o3 和 o4-mini 首次能夠將圖片直接整合到它們的「思考鏈」中。它們不只是「看到」圖片,而是能用圖片來思考。
這開啟了一種全新的解決問題模式,融合了視覺和文字的推理能力。你可以上傳一張白板照、課本裡的圖表,或是一張隨手畫的草圖,即使圖片有點模糊、顛倒或是品質不高,模型也能理解。
更厲害的是,透過工具,模型還能即時操作圖片——旋轉、縮放或進行其他轉換,作為推理過程的一部分。想了解更多關於這方面的技術細節,可以參考他們的視覺推理研究部落格。
前面提到,模型學會了使用工具,但更重要的是,它們是透過強化學習來學會「判斷」何時以及如何使用這些工具。
這種根據期望結果來部署工具的能力,讓它們在開放式情境中更加能幹,特別是那些涉及視覺推理和多步驟工作流程的場景。
舉個例子吧,你可以問:「加州今年的夏季能源用量跟去年比起來會怎麼樣?」模型可能會這樣做:
過程中,如果遇到新資訊,模型能夠即時反應和調整策略,例如多次搜尋、查看結果,如果覺得資訊不足,還會嘗試用新的方式搜尋。這種靈活的策略讓模型能處理需要最新資訊、超越內建知識庫的任務。
從 OpenAI 公布的圖表來看 (詳情可見原文),o3 和 o4-mini 不僅在智慧上超越了前代(如 o1 和 o3-mini),在成本效益上也更有優勢。
例如,在 AIME 2025 數學競賽的表現上,o3 的性價比曲線完全優於 o1,同樣地,o4-mini 的曲線也優於 o3-mini。簡單來說,在多數實際應用場景中,我們預期 o3 和 o4-mini 會比 o1 和 o3-mini 更聰明,同時也可能更便宜。數據會說話,這次升級確實讓人感覺很有誠意。
OpenAI 強調他們對這兩個模型進行了迄今為止最嚴格的安全測試。根據他們更新的「準備框架」(Preparedness Framework),o3 和 o4-mini 在生物與化學、網路安全、AI 自我改進這三個被追蹤的能力領域,其風險評估結果都低於框架定義的「高」風險閾值。
他們也增加了針對生物風險、惡意軟體生成和「越獄」(jailbreaks) 等領域的拒絕提示。同時,還訓練了一個基於人類編寫和可解釋安全規範的推理大型語言模型 (LLM) 監控器,用於標記危險提示。據稱,在針對生物風險的人工紅隊演練中,這個監控器成功標記了大約 99% 的對話。詳細的評估結果可以在隨附的系統卡。
OpenAI 還分享了一個新實驗:Codex CLI。這是一個輕量級的程式碼代理程式,可以直接在你的終端機 (terminal) 運行。它的設計目標是最大化利用像 o3 和 o4-mini 這類模型的推理能力,未來還會支援像 GPT-4.1 等更多 API 模型。
你可以透過傳送螢幕截圖或低擬真度的草圖給模型,結合它存取你本地程式碼的能力,直接在命令列享受多模態推理的好處。OpenAI 把它視為連接模型與使用者及其電腦的最小化介面。好消息是,Codex CLI 今天已經在 github.com/openai/codex 完全開源了。
此外,OpenAI 還啟動了一項 100 萬美元的計畫,用來支持使用 Codex CLI 和 OpenAI 模型的專案。
別急,馬上來了!
OpenAI 也預計在幾週內推出支援完整工具的 OpenAI o3-pro。目前,Pro 用戶仍然可以使用 o1-pro。
對於開發者來說,o3 和 o4-mini 今天也已經可以透過 Chat Completions API 和 Responses API 使用(部分開發者可能需要驗證其組織才能存取)。Responses API 支援推理摘要、保留函數呼叫周圍的推理 token 以獲得更好性能,並將很快支援網頁搜尋、檔案搜尋和程式碼解釋器等內建工具。
model | tier |
---|---|
o4-mini | 1-5 |
o3 | 4-5 |
如果tier 1-3想使用o3可以前往API Organization Verification
這次的更新清楚地揭示了 OpenAI 模型發展的方向:他們正在整合 o 系列專業的推理能力,以及 GPT 系列更自然的對話能力和工具使用方式。透過結合這些優勢,未來的模型將能夠支援無縫、自然的對話,同時具備主動的工具使用能力和高階的問題解決技巧。
總之,OpenAI 這次端出的 o3 和 o4-mini 看起來是 AI 能力的一次顯著提升。它們更聰明、更會推理、更能幹,甚至還學會了「看圖說話」和主動使用工具。對於我們這些每天都在使用 AI 的人來說,這無疑是個令人興奮的消息。接下來就讓我們期待,這些更強大的 AI 將如何在各個領域帶來新的變革吧!
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
OpenAI 推出 GPT-4o 圖像生成功能,支援多輪對話編輯 OpenAI 於 2025 年 3 月 25 日宣布,最新的 GPT-4o 模型現已支援圖像生成與多輪對話編輯,帶來更強大的 ...
OpenAI Codex CLI:你的終端機 AI 程式碼夥伴,上手指南與實用技巧 厭倦了在寫程式、解 Bug 或理解陌生程式碼時不斷切換視窗嗎?來認識 OpenAI Codex CLI...
精通 GPT-4.1 提示詞:釋放下一代 AI 潛能的實戰指南 探索 OpenAI 最新的 GPT-4.1 模型,學習如何透過優化提示詞 (Prompt) 來駕馭其強大的程式編寫、指令遵...
OpenAI GPT-4.1 API 震撼登場:更快、更強、更懂你的指令! OpenAI 推出全新 GPT-4.1 系列模型 API,在程式編寫、指令遵循和長文本處理能力上大幅躍進,更有...
再見 GPT-4!OpenAI 宣布重大更新,GPT-4o 全面接棒時代來臨 人工智慧的浪潮一波接一波!OpenAI 投下震撼彈,宣布將於 2025 年 4 月 30 日讓 GPT-4 ...
告別金魚腦!ChatGPT 推出記憶功能,讓你的 AI 對話體驗大升級 OpenAI 為 ChatGPT Plus/Pro 用戶悄悄推出「記憶」功能,讓 AI 不再健忘,能記住你的偏好,...
Claude 團隊放福利!免費 Prompt 工程指南,點燃 No-Code 開發新火花 Anthropic 的 Claude 團隊釋出了一份超詳盡的 Prompt 工程指南,不只技術高...
Llama-OCR:革新影像辨識技術,將文件完美轉換為Markdown格式 文章摘要 探索最新推出的開源OCR工具Llama-OCR,這款基於Llama 3.2 Vision的智慧影像辨...
Devin AI 推出開發者助手,每月 $500 即可享有全面代碼支援 描述 Cognition 正式推出其 AI 驅動的開發者助手 Devin,為工程團隊提供每月 $500 的訂閱服務。這款...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.