OpenAI 再出招！全新 o3、o4-mini 模型登場，讓 AI 不只會答，更會「想」！

OpenAI 推出了最新的 o 系列 AI 模型：o3 和 o4-mini。它們不僅更聰明、更強大，還具備更深入的推理能力和工具使用技巧，甚至能「看懂」圖片並與之互動。來看看這次的 AI 進化，又將如何改變我們的生活和工作吧！

嘿，聊到 AI，是不是感覺每天都有新花樣？就在昨天 (2025 年 4 月 16 日)，科技界的領頭羊 OpenAI 又給我們帶來了驚喜，正式推出了他們 o 系列的最新成員：OpenAI o3 和 o4-mini。

這次可不是小打小鬧，這兩個新模型被訓練得更懂得「三思而後行」，在回答你之前，會進行更長時間的思考和推理。OpenAI 說，這是他們迄今為止發布過最聰明、能力最強的模型，代表著 ChatGPT 能力的一次大躍進，對所有人來說都是如此。

聽起來很厲害，對吧？那我們就來看看，這次到底「變」在哪裡？

這次更新，到底強在哪？

簡單來說，o3 和 o4-mini 的核心升級在於它們的推理能力和工具整合。它們不只能瀏覽網頁、分析你上傳的檔案（用 Python 喔！）、深入理解圖片內容，甚至還能自己生成圖片。

更關鍵的是，它們被訓練得知道什麼時候以及如何使用這些工具，來給出更詳細、更有深度的答案，而且通常在一分鐘內就能搞定比較複雜的問題。這讓它們處理起多面向的提問更加得心應手，也朝著能獨立為你執行任務的「代理人式」ChatGPT 邁進了一大步。

這種頂尖的推理能力加上全面的工具使用權限，讓它們在學術評測和實際應用場景中都表現得更強，可以說是在智慧和實用性上都立下了新的標竿。

o3：那個「最聰明」的學霸來了

OpenAI o3 可以說是目前 OpenAI 推理能力的巔峰之作。它在寫程式、數學、科學、視覺感知等領域都把標準往前推進了一大截。在像是 Codeforces（程式競賽平台）、SWE-bench（軟體工程評測）和 MMMU（大型多模態理解評測）等指標上都創下了新紀錄。

它特別擅長處理那些需要多方面分析、答案沒那麼顯而易見的複雜問題。尤其是在視覺任務上，比如分析圖片、圖表和圖形，表現更是搶眼。根據外部專家的評估，在困難的、真實世界的任務中，o3 犯的重大錯誤比之前的 o1 少了 20%！尤其在程式設計、商業諮詢和創意發想等領域更是表現突出。

不少早期測試者都說，o3 的分析能力超強，就像個思考夥伴，特別是在生物、數學和工程領域，它生成和評估新假設的能力讓人印象深刻。

o4-mini：快狠準的效率王

相較之下，OpenAI o4-mini 是一個更小巧、更注重速度和成本效益的模型。但你可別小看它！以它的體積和成本來說，表現非常驚人，特別是在數學、程式碼和視覺任務上。它在 2024 和 2025 年的 AIME（美國數學邀請賽）評測中是表現最好的模型。

專家評估也顯示，在非理工科任務和數據科學等領域，它的表現也超越了它的前身 o3-mini。因為效率高，o4-mini 的使用限制比 o3 寬鬆得多，對於那些需要大量、高頻率推理的問答場景來說，它絕對是個強而有力的選擇。CP 值真的很高！

不只變聰明，聊天也更自然了

除了硬核的推理能力，這次 o3 和 o4-mini 在跟你互動時，也會感覺更自然、更像在聊天。這得益於它們改進的智慧和整合網路資訊的能力。跟之前的模型比起來，它們更能記住之前的對話內容，讓回應更加個人化和貼切。

AI 不只「讀」懂你，還能「看」懂你？首次實現圖像思考整合

這絕對是這次更新的一大亮點！o3 和 o4-mini 首次能夠將圖片直接整合到它們的「思考鏈」中。它們不只是「看到」圖片，而是能用圖片來思考。

這開啟了一種全新的解決問題模式，融合了視覺和文字的推理能力。你可以上傳一張白板照、課本裡的圖表，或是一張隨手畫的草圖，即使圖片有點模糊、顛倒或是品質不高，模型也能理解。

更厲害的是，透過工具，模型還能即時操作圖片——旋轉、縮放或進行其他轉換，作為推理過程的一部分。想了解更多關於這方面的技術細節，可以參考他們的視覺推理研究部落格。

不只是聽指令，還會自己「喬」事情？邁向更有主動性的工具應用

前面提到，模型學會了使用工具，但更重要的是，它們是透過強化學習來學會「判斷」何時以及如何使用這些工具。

這種根據期望結果來部署工具的能力，讓它們在開放式情境中更加能幹，特別是那些涉及視覺推理和多步驟工作流程的場景。

舉個例子吧，你可以問：「加州今年的夏季能源用量跟去年比起來會怎麼樣？」模型可能會這樣做：

上網搜尋公共事業的數據。
寫一段 Python 程式碼來建立預測模型。
生成一個圖表或圖片來視覺化結果。
解釋預測背後的關鍵因素。

過程中，如果遇到新資訊，模型能夠即時反應和調整策略，例如多次搜尋、查看結果，如果覺得資訊不足，還會嘗試用新的方式搜尋。這種靈活的策略讓模型能處理需要最新資訊、超越內建知識庫的任務。

又變聰明又變省？這科學嗎？進化的成本效益

從 OpenAI 公布的圖表來看 (詳情可見原文)，o3 和 o4-mini 不僅在智慧上超越了前代（如 o1 和 o3-mini），在成本效益上也更有優勢。

例如，在 AIME 2025 數學競賽的表現上，o3 的性價比曲線完全優於 o1，同樣地，o4-mini 的曲線也優於 o3-mini。簡單來說，在多數實際應用場景中，我們預期 o3 和 o4-mini 會比 o1 和 o3-mini 更聰明，同時也可能更便宜。數據會說話，這次升級確實讓人感覺很有誠意。

能力越強，責任越大… 安全嗎？

OpenAI 強調他們對這兩個模型進行了迄今為止最嚴格的安全測試。根據他們更新的「準備框架」(Preparedness Framework)，o3 和 o4-mini 在生物與化學、網路安全、AI 自我改進這三個被追蹤的能力領域，其風險評估結果都低於框架定義的「高」風險閾值。

他們也增加了針對生物風險、惡意軟體生成和「越獄」(jailbreaks) 等領域的拒絕提示。同時，還訓練了一個基於人類編寫和可解釋安全規範的推理大型語言模型 (LLM) 監控器，用於標記危險提示。據稱，在針對生物風險的人工紅隊演練中，這個監控器成功標記了大約 99% 的對話。詳細的評估結果可以在隨附的系統卡。

開發者福音：讓 AI 直接在你電腦「動手」的 Codex CLI

OpenAI 還分享了一個新實驗：Codex CLI。這是一個輕量級的程式碼代理程式，可以直接在你的終端機 (terminal) 運行。它的設計目標是最大化利用像 o3 和 o4-mini 這類模型的推理能力，未來還會支援像 GPT-4.1 等更多 API 模型。

你可以透過傳送螢幕截圖或低擬真度的草圖給模型，結合它存取你本地程式碼的能力，直接在命令列享受多模態推理的好處。OpenAI 把它視為連接模型與使用者及其電腦的最小化介面。好消息是，Codex CLI 今天已經在 github.com/openai/codex 完全開源了。

此外，OpenAI 還啟動了一項 100 萬美元的計畫，用來支持使用 Codex CLI 和 OpenAI 模型的專案。

那… 什麼時候輪到我玩玩看？

別急，馬上來了！

ChatGPT Plus、Pro 和 Team 用戶：從今天 (2025/4/17) 開始，就能在模型選擇器中看到 o3、o4-mini 和 o4-mini-high，它們將取代之前的 o1、o3-mini 和 o3-mini-high。
ChatGPT Enterprise 和 Edu 用戶：預計在一週內獲得存取權限。
免費版用戶：可以在提交查詢前，在編輯器中選擇「思考」(Think) 來試用 o4-mini。
所有方案的使用頻率限制目前保持不變。

OpenAI 也預計在幾週內推出支援完整工具的 OpenAI o3-pro。目前，Pro 用戶仍然可以使用 o1-pro。

對於開發者來說，o3 和 o4-mini 今天也已經可以透過 Chat Completions API 和 Responses API 使用（部分開發者可能需要驗證其組織才能存取）。Responses API 支援推理摘要、保留函數呼叫周圍的推理 token 以獲得更好性能，並將很快支援網頁搜尋、檔案搜尋和程式碼解釋器等內建工具。

model	tier
o4-mini	1-5
o3	4-5

如果tier 1-3想使用o3可以前往API Organization Verification

下一步？打造更全能的 AI 夥伴

這次的更新清楚地揭示了 OpenAI 模型發展的方向：他們正在整合 o 系列專業的推理能力，以及 GPT 系列更自然的對話能力和工具使用方式。透過結合這些優勢，未來的模型將能夠支援無縫、自然的對話，同時具備主動的工具使用能力和高階的問題解決技巧。

總之，OpenAI 這次端出的 o3 和 o4-mini 看起來是 AI 能力的一次顯著提升。它們更聰明、更會推理、更能幹，甚至還學會了「看圖說話」和主動使用工具。對於我們這些每天都在使用 AI 的人來說，這無疑是個令人興奮的消息。接下來就讓我們期待，這些更強大的 AI 將如何在各個領域帶來新的變革吧！

OpenAI 再出招！全新 o3、o4-mini 模型登場，讓 AI 不只會答，更會「想」！