Claude 3.7 Sonnet:前沿推理與實用性的完美結合

全新升級的 Claude 3.7 Sonnet

Anthropic 最新發布的 Claude 3.7 Sonnet,標誌著 AI 邏輯推理與實用性的一次重大突破。作為首款具備 混合推理能力 的模型,Claude 3.7 Sonnet 不僅可以即時生成答案,也能在延展思維模式下進行深度推理,根據使用者需求,在速度與精確度之間達成微妙平衡。

本次更新特別針對程式開發與推理能力進行優化,並同步推出 Claude Code——一款專為代理式程式設計打造的命令列工具。這項工具目前處於研究預覽階段,可讓開發者直接透過終端機與 Claude 協作,處理從程式碼檢索到版本控制等一系列工程任務。

Benchmark:超越前代模型與競爭對手

從最新的 Benchmark 測試結果來看,Claude 3.7 Sonnet 在多項指標上的表現相較於 Claude 3.5 以及其他競爭模型,都展現了卓越的進步與領先地位。

🎯 推理與理解能力

  • 研究生級推理測試 (GPQA Diamond):標準模式下達到 78.2% 的正確率,而在延展思維模式下則提升至 84.8%,超越 OpenAI 的 GPT-4 系列模型。
  • 多語言問答測試 (MMLU):取得 86.1% 的成績,展現 Claude 3.7 在跨語言理解與推理上的穩健表現。

🧑‍💻 程式設計與代理能力

  • 代理式程式設計測試 (SWE-bench Verified):Claude 3.7 Sonnet 於代理程式碼撰寫任務中達到 62.3% / 70.3% 的準確度,遠高於 Claude 3.5。
  • 工具使用評估 (TAU-bench):在零售與航空領域的代理測試中,分別取得 81.2%58.4% 的成績,證明了其在複雜工具與環境互動上的強大能力。

📚 數理與邏輯推理

  • 數學解題測試 (Math 500):在標準模式下正確率為 96.2%,延展模式更提升至 82.2%,顯示其在數學與邏輯推理上的深厚實力。
  • 高中數學競賽測試 (AIME 2024):從標準模式的 61.3% 一舉突破至延展思維的 80.0%,進一步鞏固了 Claude 3.7 在高難度數學問題上的競爭優勢。

Claude 3.7 Sonnet:前沿推理與實用性的完美結合

圖片來源: https://www.anthropic.com/news/claude-3-7-sonnet

Claude Code:打造更智慧的程式設計夥伴

除了模型本身的強化,Claude 3.7 Sonnet 也同步推出 Claude Code,專為代理式開發設計。Claude Code 能夠協助開發者:

  • 搜尋與閱讀程式碼
  • 編輯與重構檔案
  • 撰寫與執行測試案例
  • 提交並推送程式碼至 GitHub
  • 使用命令列工具整合開發流程

在內部測試中,Claude Code 能夠在單次執行下完成過往需要 45 分鐘以上人工處理 的開發任務,大幅減少開發週期與工作量。

未來展望

Claude 3.7 Sonnet 與 Claude Code 不僅提升了 AI 模型的推理與程式設計能力,更朝向 智慧化代理系統 邁進。Anthropic 的核心理念是讓 AI 不僅成為快速生成內容的工具,更是能夠協作思考、主動解決問題的夥伴。

隨著 Claude 3.7 的發布,我們期待這款模型在企業應用、研究開發與技術創新等領域帶來嶄新的可能性。

想了解更多?歡迎體驗 Claude 3.7 Sonnet,探索 AI 在推理與代理領域的無限潛能。

參考文章

Share on:
Previous: DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
Next: 推理模型與 GPT 模型的差異
DMflow.chat

DMflow.chat

廣告

一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。

Claude AI 重大更新:新增網頁搜尋功能,提升即時資訊獲取能力
21 March 2025

Claude AI 重大更新:新增網頁搜尋功能,提升即時資訊獲取能力

Claude AI 重大更新:新增網頁搜尋功能,提升即時資訊獲取能力 Claude AI 進入即時資訊時代 Anthropic 最近宣布,旗下 AI 聊天機器人 Claude 現已具備網頁搜...

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明
24 January 2025

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明 探索 Anthropic 最新推出的 Citations API,這項功能讓 Claude A...

AI 的「內心戲」:他們如何偷看 Claude 的思考
2 April 2025

AI 的「內心戲」:他們如何偷看 Claude 的思考

AI 的「內心戲」:他們如何偷看 Claude 的思考? 你有沒有好奇過,像 Claude 這樣的人工智慧是怎麼「思考」的?他們正在開發一種像「AI 顯微鏡」的技術,試圖一窺它數十億計算...

OpenAI 即將發布開源推理o3-mini模型?
1 April 2025

OpenAI 即將發布開源推理o3-mini模型?

OpenAI 即將發布開源推理o3-mini模型? OpenAI 即將發布一款具備推理能力的開源模型,這是自 GPT-2 之後,公司再次推出的重要開源模型。這次發布吸引了全球開發者的關注...

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代?
1 April 2025

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代?

ChatGPT 原生圖片生成功能開放免費用戶使用!AI 創作邁入新時代? AI 圖像生成功能悄然擴展,免費用戶也能玩! OpenAI 最近釋出的 ChatGPT 圖片生成功能,在社群媒體上掀...

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權
30 March 2025

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權

馬斯克的 AI 大棋局:xAI 與 X 正式合併,估值飆升 800 億美元,劍指 AI 霸權? 科技巨頭馬斯克震撼宣布旗下 AI 新創 xAI 與社群平台 X 正式合併!全股票交易推升 ...

阿里巴巴通義實驗室 LHM:單張照片秒速變身 3D 動畫人物!未來已來?
30 March 2025

阿里巴巴通義實驗室 LHM:單張照片秒速變身 3D 動畫人物!未來已來?

阿里巴巴通義實驗室 LHM:單張照片秒速變身 3D 動畫人物!未來已來? 還在煩惱 3D 人體建模的複雜嗎?阿里巴巴通義實驗室 LHM 技術橫空出世,只需一張照片,就能快速生成逼真的 3...

ChatGPT升級語音互動:OpenAI推出高級語音模式,為AI對話體驗帶來革新
27 September 2024

ChatGPT升級語音互動:OpenAI推出高級語音模式,為AI對話體驗帶來革新

ChatGPT升級語音互動:OpenAI推出高級語音模式,為AI對話體驗帶來革新 摘要 OpenAI最新推出的高級語音模式(Advanced Voice Mode, AVM)為ChatGPT ...

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
21 February 2025

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌

Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌 近來,AI 技術的進步讓大型語言模型(LLM)變得愈發強大,然而,這些模型在處理資訊時產生「幻覺」(h...