GPT-4.1 來了。

北京時間4 月 15 號凌晨,OpenAI 直播發(fā)布了名為 GPT-4.1 的多模態(tài)系列模型。

它有三個版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低,但犧牲了準(zhǔn)確性。

圖 | GPT-4.1 與 GPT-4o 系列對比(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | GPT-4.1 與 GPT-4o 系列對比(來源:OpenAI)

OpenAI 表示,“它們編碼和指令遵循方面取得了重大進(jìn)展。完整的GPT-4.1 模型在幾乎所有維度上均優(yōu)于 GPT-4o 系列模型?!?/p>

僅從基準(zhǔn)測試成績來看,GPT-4.1 的紙面性能雖然比自家前輩有所提升,但如果跟谷歌、Anthropic 等競爭對手的旗艦?zāi)P拖啾?,還是有一定的差距。

看來想要完全超越競爭對手,OpenAI 只能盡快拿出 o3 完全體了。

(來源:evalarena.ai)
打開網(wǎng)易新聞 查看精彩圖片
(來源:evalarena.ai)

值得注意的是,GPT-4.1 系列模型目前只能通過 OpenAI 的 API 獲取,無法在 ChatGPT 上使用。

與此同時OpenAI 還宣布,將很快停止通過 API 提供其有史以來最大的 AI 模型 GPT-4.5。該模型是今年 2 月剛剛發(fā)布的,其運行成本十分昂貴,API 定價也高達(dá)每百萬輸入 75 美元,每百萬輸出 150 美元。

今年7 月 14 日之后,API 開發(fā)者必須將 GPT-4.5 服務(wù)轉(zhuǎn)移到 OpenAI 的其他模型,首選替代方案是 GPT-4.1。這暫時不會影響通過 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 萬 token(包含文本、圖像或視頻的組合),這意味著它們可以一次性輸入大約 75 萬個單詞。此前的 GPT-4o 最多支持 12.8 萬 token。

但OpenAI 也承認(rèn),GPT-4.1 處理的輸入 token 越多,可靠性就越低,更容易出錯。

在該公司自己的測試OpenAI-MRCR 中,隨著 token 的數(shù)量從 8000 增長到 100 萬,模型的準(zhǔn)確率從 84% 左右下降到了不足 50%。該公司表示,GPT-4.1 也比 GPT-4o 更“直接”,有時需要更具體、更明確的提示。

圖 | GPT-4.1 系列模型定價(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | GPT-4.1 系列模型定價(來源:OpenAI)

定價方面,GPT-4.1 每百萬輸入 token 成本為 2 美元,每百萬輸出 token 成本為 8 美元。GPT-4.1 mini 每百萬輸入 token 成本為 0.4 美元,每百萬輸出 token 成本為 1.6 美元;GPT-4.1 nano 每百萬輸入 token 成本為 0.1 美元,每百萬輸出 token 成本為 0.4 美元。

綜合來看,GPT-4.1 的成本比 GPT-4o 低 26%。同時,OpenAI 還將新模型的即時緩存折扣輸入提高到了 75%(之前為 50%)。

性能方面,GPT-4.1 可以一次性生成比 GPT-4o 更多的 token(最多 32768 個 token),在最受程序員關(guān)心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之間。這個成績低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

對于需要編輯大型文件的API 開發(fā)者來說,GPT-4.1 在跨多種格式的代碼差異分析方面更加可靠。在 Aider 的多語言差異基準(zhǔn)測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 還高出 8%。

“我們專門訓(xùn)練了GPT-4.1,使其能夠更可靠地遵循差異格式,這使得開發(fā)人員只需讓模型輸出更改的行,而無需重寫整個文件,從而節(jié)省成本和延遲?!監(jiān)penAI 寫道。

圖 | 多模態(tài)性能對比(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 多模態(tài)性能對比(來源:OpenAI)

這一點在指令遵循上也有所體現(xiàn)。

OpenAI 在博客中介紹稱,GPT-4.1 能更可靠地遵循指令,并且“已經(jīng)在各種指令遵循評估中測量到了顯著的改進(jìn)”。

OpenAI 開發(fā)了一個內(nèi)部教學(xué)跟蹤評估系統(tǒng),以跟蹤模型在多個維度和幾個關(guān)鍵教學(xué)跟蹤類別中的表現(xiàn),包括格式遵循、避免負(fù)面指示、有序遵循指令、遵守內(nèi)容要求、排序和過度自信。

這些類別是根據(jù)開發(fā)人員的反饋得出的,這些反饋是關(guān)于哪些指令遵循方面對他們來說最相關(guān)且最重要。在每個類別中,OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

圖 | OpenAI 內(nèi)部指令遵循測試結(jié)果(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | OpenAI 內(nèi)部指令遵循測試結(jié)果(來源:OpenAI)

多輪指令遵循對許多開發(fā)者來說至關(guān)重要。對于模型而言,在對話中保持連貫性并跟蹤用戶之前輸入的內(nèi)容至關(guān)重要。

“我們已經(jīng)訓(xùn)練了GPT-4.1,使其能夠更好地從對話中的過往消息中識別信息,從而實現(xiàn)更自然的對話。Scale 的 MultiChallenge 基準(zhǔn)測試是衡量這一能力的有效指標(biāo),GPT-4.1 的表現(xiàn)比 GPT-4o 提高了 10.5%?!監(jiān)penAI 表示。

GPT-4.1 在前端編碼方面也比 GPT-4o 有了顯著提升,能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在 OpenAI 的評估中,相比 GPT-4o,測試人員更喜歡 GPT-4.1 創(chuàng)建的網(wǎng)站。

在另一項評估中,OpenAI 使用 Video-MME 測試了 GPT-4.1,該模型旨在衡量模型“理解”視頻內(nèi)容的能力。

OpenAI 聲稱,GPT-4.1 在“長篇無字幕”視頻類別中達(dá)到了72% 的最高準(zhǔn)確率,高于 GPT-4o 的 65.3%。

圖 | 視頻長內(nèi)容測試成績(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 視頻長內(nèi)容測試成績(來源:OpenAI)

在衡量真實世界軟件工程技能的SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務(wù),而 GPT-4o(2024-11-20)的完成率為 33.2%。這反映了模型在探索代碼庫、完成任務(wù)以及生成可運行并通過測試的代碼方面的能力有所提升。

OpenAI 還表示,除了上述基準(zhǔn)測試之外,GPT-4.1 在遵循代碼格式方面表現(xiàn)更佳,可靠性更高,并且減少了無關(guān)編輯的頻率。在內(nèi)部評估中,代碼中的無關(guān)編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

圖 | SWE-bench Verified 測試成績(來源:OpenAI)
打開網(wǎng)易新聞 查看精彩圖片
圖 | SWE-bench Verified 測試成績(來源:OpenAI)

此外,根據(jù)OpenAI 不久前發(fā)布的更新日志,OpenAI 將很快從 ChatGPT 中淘汰其兩年多前推出的 AI 模型 GPT-4。

OpenAI 表示,自今年 4 月 30 日起,GPT-4 將被 ChatGPT 當(dāng)前的默認(rèn)模型 GPT-4o 完全取代。如有需要,GPT-4 仍可通過 OpenAI 的 API 訪問。

GPT-4o 最初于 2024 年 5 月作為旗艦?zāi)P屯瞥觯蓪崟r推理音頻、視覺和文本。

OpenAI 在更新日志中寫道:“在針對性評估中,GPT-4o 在寫作、編碼、STEM 等方面始終超越 GPT-4。最近的升級進(jìn)一步提高了 GPT-4o 的指令遵循、問題解決和對話流程,使其成為 GPT-4 的自然繼承者。”

GPT-4 于 2023 年 3 月推出,適用于 ChatGPT 和微軟的 Copilot 聊天機(jī)器人,具備多模態(tài)功能,能夠同時理解圖像和文本,是廣泛部署的 OpenAI 模型的首個版本。

如今,隨著OpenAI 剛剛發(fā)布的 GPT-4.1 系列模型,以及傳聞中待發(fā)布的 o3 和 o4-mini 推理模型,GPT-4 的正式退役也在情理之中。

不過,如今OpenAI 面對的競爭壓力遠(yuǎn)遠(yuǎn)大于 GPT-4 初亮相的時候。在 Gemini 2.5 Pro、Claude 3.7 Sonnet 和 DeepSeek 的夾擊之下,新 GPT 和 o 系列模型任重而道遠(yuǎn)。

參考資料:

https://openai.com/index/gpt-4-1/

https://techcrunch.com/2025/04/14/openai-plans-to-wind-down-gpt-4-5-its-largest-ever-ai-model-in-its-api/

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/