
GPT 家族再添新成員。GPT-4.1 性能全面超越 GPT-4o,編碼、指令跟蹤及長上下文能力顯著優(yōu)化。
作者丨洪雨欣、梁丙鑒
編輯丨陳彩嫻
就在今天,OpenAI API 中推出了三個(gè)新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的性能全面超越 GPT-4o 和 GPT-4o mini,在編碼和指令跟蹤方面均有顯著提升。除此之外,它們還擁有更大的上下文窗口,支持多達(dá) 100 萬個(gè)上下文tokens。
GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ,比 GPT-4o提高了21.4% ,比 GPT-4.5 提高了 26.6%,使其成為領(lǐng)先的編碼模型。
在衡量指令遵循能力的標(biāo)準(zhǔn)當(dāng)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提高了10.5%。
在 Video-MME 多模態(tài)長上下文理解的基準(zhǔn)中,GPT-4.1 創(chuàng)造了新的先進(jìn)成果——在長篇無字幕類別中得分為 72.0%,比 GPT-4o 提高了6.7%。
針對(duì)模型的優(yōu)化,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個(gè)點(diǎn)上都實(shí)現(xiàn)了性能的提升。

同日,智譜開源了其32B/9B 系列 GLM 模型,在代碼生成、指令遵循等方面與GPT4.1短兵相接。
該批模型涵蓋基座、推理、沉思模型,現(xiàn)已通過全新平臺(tái) Z.ai 免費(fèi)開放體驗(yàn),并同步上線智譜 MaaS 平臺(tái)。
此次開源,OpenAI和智譜均干勁十足。GPT-4.1在代碼任務(wù)、指令遵循、長上下文理解等多項(xiàng)領(lǐng)域均擊敗 GPT-4o。Z.ai 在指令微調(diào)和搜索代碼上的基準(zhǔn)指標(biāo)上已接近甚至超越 GPT-4o。
1
代碼生成
GPT-4.1 在各種代碼任務(wù)上都比 GPT-4o 表現(xiàn)得更好,包括代理解決編碼任務(wù)、前端編碼、減少無關(guān)編輯、遵循差異格式、確保一致的工具使用等等。
在衡量真實(shí)世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務(wù),而 GPT-4o 的完成率為 33.2%。這反映了模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行并通過測試的代碼方面的能力有所提升。

對(duì)于需要編輯大型文件的 API 開發(fā)者來說,GPT-4.1 在跨多種格式的代碼差異分析方面更加準(zhǔn)確。在Aider 的多語言差異基準(zhǔn)測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 還高出 8%。OpenAI專門訓(xùn)練了 GPT-4.1遵循差異格式的能力,開發(fā)人員無需重寫整個(gè)文件,從而節(jié)省成本和延遲。

GPT-4.1 在前端代碼方面也比 GPT-4o 有了顯著提升,能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在我們的面對(duì)面對(duì)比中,付費(fèi)人工評(píng)分員 80% 的評(píng)分結(jié)果顯示,GPT-4.1 的網(wǎng)站比 GPT-4o 的網(wǎng)站更受歡迎。
除了上述基準(zhǔn)測試之外,GPT-4.1 在遵循格式方面表現(xiàn)更佳,準(zhǔn)確性更高,并且減少了無關(guān)編輯的頻率。在OpenAI的內(nèi)部評(píng)估中,代碼中的無關(guān)編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。
2
指令遵循
OpenAI開發(fā)了一個(gè)內(nèi)部教學(xué)跟蹤評(píng)估系統(tǒng),將每個(gè)類別分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

GPT-4.1 能夠更好地從過往對(duì)話中識(shí)別信息,從而實(shí)現(xiàn)更自然的對(duì)話。在 MultiChallenge 的基準(zhǔn)測試中,GPT-4.1 的表現(xiàn)比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也為 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗(yàn)證指令的提示(例如,指定內(nèi)容長度或避免使用某些術(shù)語或格式)。

智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現(xiàn)優(yōu)異,以84.5%的分?jǐn)?shù)和GPT o1-mini分庭抗禮。

3
長上下文理解
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個(gè)上下文tokens,而之前的 GPT-4o 型號(hào)最多可以處理 128,000 個(gè)。100 萬個(gè)tokens相當(dāng)于整個(gè) React 代碼庫的 8 個(gè)以上副本,因此長上下文非常適合處理大型代碼庫或大量長文檔。
GPT-4.1 能夠準(zhǔn)確地處理長達(dá) 100 萬個(gè)上下文中的信息。此外,它能比 GPT-4o 更準(zhǔn)確地識(shí)別相關(guān)文本,并忽略長短上下文中的干擾項(xiàng)。長上下文理解是法律、編碼、客戶支持以及許多其他領(lǐng)域應(yīng)用的關(guān)鍵能力。
下圖是 GPT-4.1 檢索位于上下文窗口內(nèi)各個(gè)位置的隱藏信息(“針”)的能力。GPT-4.1 能夠始終如一地準(zhǔn)確檢索所有位置和所有上下文長度的針,最大檢索tokens數(shù)可達(dá) 100 萬個(gè)。無論這些tokens在輸入中的位置如何,它都能有效地提取與當(dāng)前任務(wù)相關(guān)的細(xì)節(jié)。

為了進(jìn)一步展示信息理解的能力,OpenAI開源了一個(gè)新的評(píng)估平臺(tái):OpenAI-MRCR(多輪共指,上下文中發(fā)現(xiàn)并區(qū)分隱藏的多個(gè)針頭的能力)。
GPT-4.1 在上下文長度高達(dá) 128K 個(gè) token 時(shí)的表現(xiàn)優(yōu)于 GPT-4o,并且即使長度高達(dá) 100 萬個(gè) token 時(shí)也能保持強(qiáng)勁的性能。

在 Graphwalks (一個(gè)用于評(píng)估多跳長上下文推理的數(shù)據(jù)集)的基準(zhǔn)測試中,GPT-4.1 達(dá)到了 61.7% 的準(zhǔn)確率,與 o1 的性能相當(dāng),并輕松擊敗了 GPT-4o。
值得注意的是,智譜此番在小模型性能上也有所突破。尺寸僅為9B的GLM-Z1-9B-0414雖然參數(shù)量更少,但在數(shù)學(xué)推理及通用任務(wù)上依然表現(xiàn)出色。在AIME的基準(zhǔn)測試中,以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。

4
圖像理解
GPT-4.1 系列在圖像理解方面非常強(qiáng)大,尤其是 GPT-4.1 mini 代表了重大的飛躍,在圖像基準(zhǔn)測試中經(jīng)常擊敗 GPT-4o。

在Video -MME(長篇無字幕)的測試中,模型會(huì)根據(jù) 30-60 分鐘長的無字幕視頻回答多項(xiàng)選擇題。GPT-4.1 的表現(xiàn)達(dá)到了最佳水平,得分為 72.0%,高于 GPT-4o 的 65.3%。

5
定價(jià)
GPT-4.1 的成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。除了標(biāo)準(zhǔn)per-token 的成本外,還提供了無需額外付費(fèi)的長上下文請(qǐng)求。

定價(jià)方面,智譜 Z.ai 整體低于GPT4.1。本次上線的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414兩個(gè)版本,其中后者完全免費(fèi)。推理模型分為三個(gè)版本,分別滿足不同場景需求:
GLM-Z1-AirX(極速版):定位國內(nèi)最快推理模型,推理速度可達(dá)200 tokens/秒,比常規(guī)快 8 倍;
GLM-Z1-Air(高性價(jià)比版):價(jià)格僅為DeepSeek-R1 的 1/30,適合高頻調(diào)用場景;
GLM-Z1-Flash(免費(fèi)版):支持免費(fèi)使用,旨在進(jìn)一步降低模型使用門檻。





更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

基座大模型「六進(jìn)二」:南階躍,北智譜

智譜 AI 狂飆:與商業(yè)化博弈的一年

價(jià)格戰(zhàn)之后,智譜來到商業(yè)化的下一站
熱門跟貼