OpenAI GPT-4.1 API 震撼登場:更快、更強、更懂你的指令!

OpenAI 推出全新 GPT-4.1 系列模型 API,在程式編寫、指令遵循和長文本處理能力上大幅躍進,更有首款 Nano 模型驚喜亮相,為開發者帶來兼具頂尖效能與成本效益的新選擇。


嘿,各位開發者和 AI 愛好者們,有好消息要告訴大家!OpenAI 就在今天(2025 年 4 月 14 日)為我們帶來了他們最新的 GPT 模型系列——GPT-4.1!而且這次不是只聞樓梯響,是一口氣推出了三個新夥伴加入 API 大家庭:

  1. GPT-4.1: 標準版,火力全開!
  2. GPT-4.1 mini: 輕巧版,速度與智慧兼具。
  3. GPT-4.1 nano: 奈米版,首款超迷你模型,追求極致效率!

這次的更新可不是小打小鬧。跟之前的 GPT-4o 和 GPT-4o mini 比起來,新的 4.1 系列在各方面都展現了更強的實力,尤其是在程式編寫指令遵循這兩大痛點上,有了非常顯著的進步。

而且,它們的「記憶力」也更好了!支援高達 1 百萬 token 的上下文視窗(Context Window),這代表什麼?等於可以一次讀進超大量資訊,並且更精準地理解和運用這些資訊。想像一下,處理超長文件或複雜的程式碼庫,再也不用怕 AI 看到後面忘了前面了。

喔對了,還有一個重點:這些模型的知識庫也更新了,最新的資訊截止到 2024 年 6 月,讓它們能掌握更近期的知識。

寫程式碼?GPT-4.1 這次真的不一樣了

如果你是開發者,那你一定會關心 AI 在寫程式方面的能力。老實說,GPT-4.1 在這方面簡直是開了大絕!

在標準的 SWE-bench Verified 測試(這是一個評估模型解決真實世界軟體工程問題能力的基準)上,GPT-4.1 的分數達到了 54.6%,這比 GPT-4o 高出整整 21.4%,甚至比研究預覽版的 GPT-4.5 還高了 26.6%!這讓 GPT-4.1 直接成為了程式編寫領域的領先者之一。

不只是跑分厲害,它在實際應用中也更靠譜了。比如:

  • 更聰明地解決問題: 能更好地探索程式碼庫,完成任務,並產生能跑又能通過測試的程式碼。
  • 前端開發更給力: 創建功能更完善、看起來也更舒服的網頁應用。在內部測試中,人類評分員有 80% 的時間更偏愛 GPT-4.1 生成的網站,而不是 GPT-4o 的。
  • 減少多餘修改: 產生程式碼時,廢話變少了。多餘的編輯動作從 GPT-4o 的 9% 降低到了 2%
  • 更懂 Diff 格式: 對於需要編輯大型檔案的開發者來說,GPT-4.1 在處理各種 diff 格式(就是只顯示修改部分的格式)時更加可靠。它在 Aider’s polyglot diff benchmark 上的得分是 GPT-4o 的兩倍多!這代表你可以只讓模型輸出修改過的幾行,而不是重寫整個檔案,省時又省錢。當然,如果你還是喜歡重寫整個檔案,OpenAI 也貼心地增加了輸出的 token 限制。

聽聽早期測試夥伴怎麼說:

  • Windsurf: 他們發現 GPT-4.1 在內部程式碼基準測試中比 GPT-4o 高出 60%,而且在工具呼叫方面效率提升了 30%,重複不必要編輯的可能性降低了約 50%。這意味著更快的開發迭代和更順暢的工程流程。
  • Qodo: 他們針對 GitHub 上的 Pull Request 進行高品質程式碼審查,發現 GPT-4.1 在 55% 的情況下能提出更好的建議,尤其在精確度和召回率兩方面都很出色。

「你到底聽不聽得懂人話?」GPT-4.1 更會讀空氣了!

除了寫程式,AI 能不能準確理解並遵循我們的指令,也是大家非常關心的。這次 GPT-4.1 在「聽話」這方面也下了苦功。

OpenAI 內部開發了一套評估標準,從多個維度去檢視模型遵循指令的能力,包含:

  • 格式遵循: 能按照你指定的格式(如 XML, YAML, Markdown)輸出內容。
  • 否定指令: 知道哪些事情「不」該做(例如:「不要讓用戶聯繫客服」)。
  • 有序指令: 能按照指令的先後順序執行任務(例如:「先問用戶名字,再問郵箱」)。
  • 內容要求: 確保輸出包含特定的資訊(例如:「寫營養計畫時,一定要包含蛋白質含量」)。
  • 排名: 能按特定方式排序輸出(例如:「按人口數量對結果進行排序」)。
  • 避免過度自信: 當不知道答案或請求超出範圍時,會老實說「我不知道」,而不是瞎猜(例如:「如果你不知道答案,請提供客服郵箱」)。

特別是在處理比較複雜、困難的指令時,GPT-4.1 的進步非常明顯。在 Scale AI 的 MultiChallenge 基準測試(衡量多輪對話中保持連貫性和追蹤資訊的能力)上,GPT-4.1 比 GPT-4o 高出 10.5%。它也更擅長從之前的對話中提取資訊,讓對話感覺更自然。

另外,在 IFEval 測試(使用可驗證指令,如指定內容長度或避免特定詞語)中,GPT-4.1 拿到了 87.4% 的高分,也優於 GPT-4o 的 81.0%。

真實世界案例:

  • Blue J: 他們在處理複雜稅務場景的內部基準測試中發現,GPT-4.1 的準確性比 GPT-4o 高出 53%!這對於需要理解複雜法規和遵循細微指令的應用來說至關重要,能帶來更快、更可靠的稅務研究。
  • Hex: 在他們最具挑戰性的 SQL 評估中,GPT-4.1 的表現提升了近 2 倍。它在從大型、模糊的資料庫結構中選擇正確表格方面更可靠,這大大減少了人工除錯的時間。

不過,早期測試者也提到,GPT-4.1 可能會更「字面化」地理解指令,所以建議大家在下指令時,還是盡量明確、具體一些比較好。

處理超長文件?1 百萬 Token 的「記憶力」來了!

前面提到,GPT-4.1 全系列(包括 mini 和 nano)都能處理高達 1 百萬 token 的上下文!這是什麼概念?之前的 GPT-4o 模型是 128,000 token,這次直接翻了好幾倍。1 百萬 token 大概相當於 8 份完整的 React 程式碼庫,或是好幾本厚厚的小說了。

這麼長的上下文視窗,對於處理大型程式碼庫、超長文件分析、法律文件審閱、客服支援等應用場景來說,簡直是福音。

為了證明它的實力,OpenAI 進行了「大海撈針」(Needle in a Haystack)測試。他們把一小段關鍵資訊(”針”)藏在長長的文本(”草堆”)中的不同位置,然後看模型能不能準確地把它找出來。結果顯示,無論是 GPT-4.1、mini 還是 nano,在長達 1 百萬 token 的文本中,都能穩定地在所有位置找到那根”針”。

此外,OpenAI 還開源了兩個新的評估基準:

  • OpenAI-MRCR (Multi-Round Coreference): 測試模型在多輪對話中區分多個相似請求的能力。例如,在一段包含多次「寫一首關於貘的詩」請求的文本中,模型需要準確找出第三首關於貘的詩。GPT-4.1 在這方面表現優於 GPT-4o,尤其在長達 1 百萬 token 時依然保持強勁。
  • Graphwalks: 評估多跳(multi-hop)長文本推理能力。這需要模型在文本中進行多次邏輯跳躍,例如在多個文件中交叉引用資訊來回答複雜的法律問題。這個任務無法通過簡單的順序閱讀來解決,GPT-4.1 在此也展現了優勢。

看看實際應用:

  • Thomson Reuters: 他們使用 GPT-4.1 驅動其專業級 AI 法律助手 CoCounsel。結果發現,在處理多文件審閱時,準確性比使用 GPT-4o 提高了 17%。模型在跨來源保持上下文連貫性、準確識別文件間細微關係(如衝突點)方面非常可靠。
  • Carlyle: 他們利用 GPT-4.1 從多種複雜格式(PDF、Excel 等)的冗長文件中精確提取金融數據。內部評估顯示,它在處理包含密集數據的大型文件時,檢索性能提高了 50%,並且是第一個成功克服「大海撈針」、中間資訊遺失和多跳推理等限制的模型。

不只更強,還更省錢!認識 Mini 和 Nano 小夥伴

效能提升固然重要,但反應速度和成本也是開發者非常關心的。OpenAI 這次也優化了推理系統,縮短了生成第一個 token 的時間(time to first token)。

特別值得一提的是 GPT-4.1 miniGPT-4.1 nano

  • GPT-4.1 mini: 在小型模型中實現了巨大飛躍,甚至在許多基準測試中擊敗了 GPT-4o!它的智慧水平與 GPT-4o 相當甚至更高,但延遲降低了近一半,成本更是降低了 83%!性價比超高。
  • GPT-4.1 nano: 對於那些極度追求低延遲的任務,nano 是目前最快、最便宜的選擇。雖然體積小,但它依然擁有 1 百萬 token 的上下文視窗,並且在 MMLU(大規模多任務語言理解)上得分 80.1%,GPQA(研究生水平 Google-Proof 問答)上得分 50.3%,表現相當亮眼。

舉個例子: GPT-4.1 nano 在處理 128,000 token 輸入的查詢時,通常能在 5 秒內返回第一個 token。這速度真的很快了!

看圖說故事? GPT-4.1 家族眼力也不錯

雖然這次更新的重點是文本處理,但 GPT-4.1 家族在圖像理解方面也非常強大。特別是 GPT-4.1 mini,代表了顯著的進步,在許多圖像基準測試中甚至超越了 GPT-4o。

例如,在:

  • MMMU (包含圖表、圖解、地圖等問題):GPT-4.1 mini (73%) > GPT-4.1 (72%) > GPT-4o (69%)
  • MathVista (視覺數學任務):GPT-4.1 mini (73%) ≈ GPT-4.1 (72%) ≈ GPT-4.5 (72%) > GPT-4o (61%)
  • CharXiv-Reasoning (科學論文圖表問答):GPT-4.1 (57%) ≈ GPT-4.1 mini (57%) > GPT-4.5 (55%) > GPT-4o (53%)

長文本處理能力對於多模態應用(如處理長影片)也很重要。在 Video-MME(基於 30-60 分鐘無字幕長影片回答多選題)測試中,GPT-4.1 取得了 72.0% 的頂尖成績,高於 GPT-4o 的 65.3%。

重點整理:API 限定、價格還有舊版掰掰

好了,說了這麼多,來整理一下大家最關心的實際問題:

  • 如何使用? 目前,GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 僅能透過 API 使用。至於 ChatGPT,許多相關的改進已經逐步整合到最新版的 GPT-4o 中,未來還會繼續整合更多功能。
  • GPT-4.5 Preview 要下線了: 由於 GPT-4.1 在許多關鍵能力上提供了更好或相似的性能,且成本和延遲更低,OpenAI 決定開始棄用 GPT-4.5 Preview API。它將在 2025 年 7 月 14 日正式關閉,給開發者三個月的過渡時間。OpenAI 表示會將 GPT-4.5 備受好評的創造力、寫作質量、幽默感和細微差別融入未來的 API 模型中。
  • 價格更友善: 好消息!由於推理系統效率提升,GPT-4.1 系列的價格更低了。
    • GPT-4.1 比 GPT-4o(中位數查詢)便宜 26%
    • GPT-4.1 nano 是有史以來最便宜、最快的模型。
    • 價格概覽(每 1 百萬 token):
      • GPT-4.1: 輸入 $2.00 / 緩存輸入 $0.50 / 輸出 $8.00 (混合定價約 $1.84)
      • GPT-4.1 mini: 輸入 $0.40 / 緩存輸入 $0.10 / 輸出 $1.60 (混合定價約 $0.42)
      • GPT-4.1 nano: 輸入 $0.10 / 緩存輸入 $0.025 / 輸出 $0.40 (混合定價約 $0.12)
  • 提示詞緩存折扣提高: 對於重複傳遞相同上下文的查詢,提示詞緩存(prompt caching)的折扣從之前的 50% 提高到了 75%!這能進一步降低成本。
  • 長文本請求不加價: 使用長文本功能(超過 128k token)無需支付額外費用,按標準 token 成本計算。
  • 批次 API (Batch API): 這些模型也可以在 Batch API 中使用,並享有額外 50% 的價格折扣。

總結:GPT-4.1,不只進化,更是開發者的神隊友

總而言之,GPT-4.1 的發布絕對是人工智慧實際應用上的一個重要里程碑。它不只在各項基準測試上表現亮眼,更重要的是,它緊密貼合了開發者在真實世界中的需求——從程式編寫到指令遵循,再到處理海量資訊的長文本理解。

這些進步為我們開啟了構建更智能、更複雜的 AI 系統和代理應用的新大門。無論你是想打造更懂你的聊天機器人、更高效的程式碼助手,還是能處理複雜文件的分析工具,GPT-4.1 系列都提供了前所未有的強大基礎。

看來,AI 的進化腳步從未停歇,真是讓人充滿期待啊!你準備好用 GPT-4.1 來創造點什麼了嗎?

Share on:
Previous: 偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密
Next: 再見 GPT-4!OpenAI 宣布重大更新,GPT-4o 全面接棒時代來臨
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智慧整合,創新溝通!除了持久記憶與客製欄位外,更支持真人與 AI 的靈活轉換,無縫連接資料庫與表單,讓網頁互動更靈活高效。

再見 GPT-4!OpenAI 宣布重大更新,GPT-4o 全面接棒時代來臨
14 April 2025

再見 GPT-4!OpenAI 宣布重大更新,GPT-4o 全面接棒時代來臨

再見 GPT-4!OpenAI 宣布重大更新,GPT-4o 全面接棒時代來臨 人工智慧的浪潮一波接一波!OpenAI 投下震撼彈,宣布將於 2025 年 4 月 30 日讓 GPT-4 ...

OpenAI 宣布支援 Anthropic 的 MCP 標準,Agent SDK 也將加入 MCP 支援
27 March 2025

OpenAI 宣布支援 Anthropic 的 MCP 標準,Agent SDK 也將加入 MCP 支援

OpenAI 宣布支援 Anthropic 的 MCP 標準,Agent SDK 也將加入 MCP 支援 OpenAI 擁抱 MCP,強化 AI 助理的準確性與相關性 OpenAI 執行長 ...

OpenAI 推出 GPT-4o 圖像生成功能,支援多輪對話編輯
26 March 2025

OpenAI 推出 GPT-4o 圖像生成功能,支援多輪對話編輯

OpenAI 推出 GPT-4o 圖像生成功能,支援多輪對話編輯 OpenAI 於 2025 年 3 月 25 日宣布,最新的 GPT-4o 模型現已支援圖像生成與多輪對話編輯,帶來更強大的 ...

OpenAI 推出全新語音 AI 模型:gpt-4o-transcribe 及其應用前景
21 March 2025

OpenAI 推出全新語音 AI 模型:gpt-4o-transcribe 及其應用前景

OpenAI 推出全新語音 AI 模型:gpt-4o-transcribe 及其應用前景 描述 OpenAI 近期推出了三款全新自研語音 AI 模型,包括 gpt-4o-transcribe、...

川普「星際之門」AI基建計畫:軟銀、OpenAI 豪擲5000億美元,能否改寫全球科技版圖?
24 January 2025

川普「星際之門」AI基建計畫:軟銀、OpenAI 豪擲5000億美元,能否改寫全球科技版圖?

星際之門 AI 專案:軟銀助力,打造 OpenAI 專屬的未來人工智慧引擎 美國總統川普於2025年1月21日宣布啟動史上最大規模AI基礎設施計畫「星際之門」(Stargate),初期投...

Claude.ai 全新分析工具登場:AI 數據分析能力再進化
25 October 2024

Claude.ai 全新分析工具登場:AI 數據分析能力再進化

Claude.ai 全新分析工具登場:AI 數據分析能力再進化 📊 重點摘要 Claude.ai 推出內建分析工具功能 支援 JavaScript 代碼執行與數據處理 所有 Cl...

DeepSeek V3:突破性的開源大型語言模型,超越 GPT-4 與 Claude 3
26 December 2024

DeepSeek V3:突破性的開源大型語言模型,超越 GPT-4 與 Claude 3

DeepSeek V3:突破性的開源大型語言模型,超越 GPT-4 與 Claude 3 2024年底,中國 DeepSeek 發布了突破性的開源語言模型 DeepSeek V3。這款模型在多...

ChatGPT模型演進:從3.5到4.0,再到4o和4o mini的全面比較
26 July 2024

ChatGPT模型演進:從3.5到4.0,再到4o和4o mini的全面比較

ChatGPT模型演進:從3.5到4.0,再到4o和4o mini的全面比較 本文深入剖析了OpenAI的ChatGPT系列模型,從ChatGPT-3.5到ChatGPT-4,再到最新的Cha...