來源:機(jī)器之心

今天凌晨,OpenAI 的新系列模型 GPT-4.1 如約而至。

打開網(wǎng)易新聞 查看精彩圖片

該系列包含了三個(gè)模型,分別是GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它們僅通過 API 調(diào)用,并已向所有開發(fā)者開放。

隨著該系列模型在很多關(guān)鍵功能上提供了類似或更強(qiáng)的性能,并且成本和延遲更低,因此OpenAI 將開始在 API 中棄用 GPT-4.5 預(yù)覽版。棄用時(shí)間為三個(gè)月后(2025 年 7 月 14 日),從而為開發(fā)者提供時(shí)間過渡。

OpenAI 表示,這三個(gè)模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在編程和指令遵循方面均有顯著提升。它們還擁有更大的上下文窗口 ——支持高達(dá) 100 萬個(gè)上下文 token,并且能夠通過改進(jìn)的長上下文理解更好地利用這些上下文。知識截止日期已更新至 2024 年 6 月。

總的來說,GPT-4.1 在以下行業(yè)標(biāo)準(zhǔn)指標(biāo)上表現(xiàn)出色:

  • 編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領(lǐng)先的編程模型。

  • 指令遵循:在 Scale 的 MultiChallenge 基準(zhǔn)測試(衡量指令遵循能力的指標(biāo))中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。

  • 長上下文:在多模態(tài)長上下文理解基準(zhǔn)測試 Video-MME 中,GPT-4.1 創(chuàng)下了新的最高紀(jì)錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。

雖然基準(zhǔn)測試成績非常不錯(cuò),但 OpenAI 在訓(xùn)練這些模型時(shí)重點(diǎn)關(guān)注了實(shí)際效用。通過與開發(fā)者社區(qū)的密切合作和伙伴關(guān)系,OpenAI 針對開發(fā)者應(yīng)用最相關(guān)的任務(wù)優(yōu)化來這些模型。

為此,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個(gè)點(diǎn)上都實(shí)現(xiàn)了性能的提升。

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.1 mini 在小型模型性能上實(shí)現(xiàn)了顯著飛躍,甚至在多項(xiàng)基準(zhǔn)測試中超越了 GPT-4o。該模型在智能評估方面與 GPT-4o 旗鼓相當(dāng)甚至超越,同時(shí)將延遲降低了近一半,成本降低了 83%。

對于要求低延遲的任務(wù),GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。該模型擁有 100 萬 token 上下文窗口,在小規(guī)模下仍能提供卓越的性能,在 MMLU 測試中得分達(dá) 80.1%、在 GPQA 測試中得分達(dá) 50.3%、在 Aider 多語言編碼測試中得分達(dá) 9.8%,甚至高于 GPT-4o mini。該模型是分類或自動補(bǔ)全等任務(wù)的理想選擇。

在指令遵循可靠性和長上下文理解方面的改進(jìn),也使 GPT-4.1 模型在驅(qū)動智能體(即能夠代表用戶獨(dú)立完成任務(wù)的系統(tǒng))方面更加高效。結(jié)合 Responses API 等原語,開發(fā)者現(xiàn)在可以構(gòu)建在實(shí)際軟件工程中更有用、更可靠的智能體,從大型文檔中提取洞見,以最少的手動操作解決客戶請求,以及執(zhí)行其他復(fù)雜任務(wù)。

同時(shí),通過提升推理系統(tǒng)的效率,OpenAI 得以降低 GPT-4.1 系列的價(jià)格。GPT-4.1 的中等規(guī)模查詢成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。

對于重復(fù)傳遞相同上下文的查詢,OpenAI 將新系列模型的即時(shí)緩存折扣從之前的 50% 提升至 75%。此外,除了標(biāo)準(zhǔn)的每 token 成本外,OpenAI 還提供長上下文請求,并且無需額外付費(fèi)。

打開網(wǎng)易新聞 查看精彩圖片

OpenAI CEO 山姆?奧特曼表示,GPT-4.1 不僅基準(zhǔn)測試成績優(yōu)異,并且專注真實(shí)世界的實(shí)用性,應(yīng)該會令開發(fā)者開心的。

打開網(wǎng)易新聞 查看精彩圖片

看起來,OpenAI 實(shí)現(xiàn)了自家模型能力上的「4.10﹥4.5」。

打開網(wǎng)易新聞 查看精彩圖片

圖源:https://x.com/stevenheidel/status/1911833398588719274

編程

GPT-4.1 在各種編碼任務(wù)上都顯著優(yōu)于 GPT-4o,包括智能體解決編碼任務(wù)、前端編程、減少無關(guān)編輯、可靠遵循 diff 格式、確保工具使用一致性等任務(wù)。

在衡量真實(shí)世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務(wù),而 GPT-4o(2024-11-20)完成了 33.2%。這反映了該模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行和通過測試的代碼方面的能力提升。

打開網(wǎng)易新聞 查看精彩圖片

對于需要編輯大型文件的 API 開發(fā)者來說,GPT-4.1 在處理各種格式的代碼 diff 時(shí)更可靠。在 Aider 的多語言差異基準(zhǔn)測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 高出 8%。這項(xiàng)評估既衡量了跨多種編程語言的編碼能力,也衡量了模型在整體和 diff 格式下生成更改的能力。

OpenAI 專門訓(xùn)練了 GPT-4.1,使其能夠更可靠地遵循 diff 格式,這使得開發(fā)者只需輸出更改的行,而無需重寫整個(gè)文件,節(jié)省成本和延遲。同時(shí),對于喜歡重寫整個(gè)文件的開發(fā)者,OpenAI 將 GPT-4.1 的輸出 token 限制增加到 32,768 個(gè) token(高于 GPT-4o 的 16,384 個(gè) token)。OpenAI 還建議使用預(yù)測輸出來減少完整文件重寫的延遲。

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.1 在前端編程方面也較 GPT-4o 有了顯著提升,能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在 head-to-head 對比中,付費(fèi)人工評分員 80% 的評分結(jié)果顯示,GPT-4.1 的網(wǎng)站比 GPT-4o 的網(wǎng)站更受歡迎。

除了上述基準(zhǔn)測試之外,GPT-4.1 在遵循格式方面表現(xiàn)更佳,可靠性更高,并且減少了無關(guān)編輯的頻率。在 OpenAI 內(nèi)部評估中,代碼中的無關(guān)編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

GPT-4.1 能夠更可靠地遵循指令,并在各種指令遵循評估中實(shí)現(xiàn)了顯著的改進(jìn)。OpenAI 開發(fā)了一個(gè)內(nèi)部指令遵循評估系統(tǒng),用于跟蹤模型在多個(gè)維度和幾個(gè)關(guān)鍵指令執(zhí)行類別中的表現(xiàn),包括:

  • 格式遵循。提供指令,指定模型響應(yīng)的自定義格式,例如 XML、YAML、Markdown 等。

  • 負(fù)面指令。指定模型應(yīng)避免的行為,例如:「不要要求用戶聯(lián)系支持人員」。

  • 有序指令。提供一組模型必須按給定順序遵循的指令,例如:「首先詢問用戶的姓名,然后詢問他們的電子郵件地址」。

  • 內(nèi)容要求。輸出包含特定信息的內(nèi)容,例如:「編寫營養(yǎng)計(jì)劃時(shí),務(wù)必包含蛋白質(zhì)含量」。

  • 排序。以特定方式對輸出進(jìn)行排序,例如:「按人口數(shù)量對響應(yīng)進(jìn)行排序」。

  • 過度自信。指示模型在請求的信息不可用或請求不屬于給定類別時(shí)回答「我不知道」或類似的內(nèi)容,例如:「如果您不知道答案,請?zhí)峁┲С致?lián)系電子郵件地址」。

這些類別是根據(jù)開發(fā)者的反饋得出的,表明了哪些指令遵循對他們來說最相關(guān)且最重要。在每個(gè)類別中,OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

打開網(wǎng)易新聞 查看精彩圖片

多輪指令遵循對許多開發(fā)者來說至關(guān)重要。對于模型來說,在對話中保持連貫性并跟蹤用戶之前輸入的內(nèi)容至關(guān)重要。GPT-4.1 能夠更好地從對話中的過往消息中識別信息,從而實(shí)現(xiàn)了更自然的對話。Scale 的 MultiChallenge基準(zhǔn)測試是衡量這一能力的有效指標(biāo),GPT-4.1 的表現(xiàn)比 GPT-4o 提高了 10.5%。

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.1 在 IFEval 上也得到了 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗(yàn)證指令的提示,例如指定內(nèi)容長度或避免使用某些術(shù)語或格式。

打開網(wǎng)易新聞 查看精彩圖片

更佳的指令遵循能力使現(xiàn)有應(yīng)用程序更加可靠,并支持此前受可靠性低下限制的新應(yīng)用程序。早期測試人員指出,GPT-4.1 可以更加直觀,因此 OpenAI 建議在提示中更加明確和具體。

長上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可處理 100 萬個(gè)上下文 token,而之前的 GPT-4o 模型最多可處理 12.8 萬個(gè)。100 萬個(gè) token 相當(dāng)于 8 個(gè)完整的 React 代碼庫,因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠可靠地處理 100 萬 token 上下文長度的信息,并在注意相關(guān)文本和忽略長短上下文干擾項(xiàng)方面比 GPT-4o 更加可靠。長上下文理解是法律、編程、客戶支持以及許多其他領(lǐng)域應(yīng)用的關(guān)鍵能力。

打開網(wǎng)易新聞 查看精彩圖片

OpenAI 演示了 GPT-4.1 檢索位于上下文窗口內(nèi)各個(gè)點(diǎn)的隱藏小信息(needle)的能力。GPT-4.1 能夠持續(xù)準(zhǔn)確地檢索所有位置和所有上下文長度的 needle,最大檢索量可達(dá) 100 萬個(gè) token。無論這些 token 在輸入中的位置如何,GPT-4.1 都能有效地提取與當(dāng)前任務(wù)相關(guān)的細(xì)節(jié)。

然而,現(xiàn)實(shí)世界中很少有任務(wù)像檢索一個(gè)顯而易見的「needle 」答案那樣簡單。OpenAI 發(fā)現(xiàn)用戶經(jīng)常需要模型檢索和理解多條信息,并理解這些信息之間的相互關(guān)聯(lián)。為了展示這一能力,OpenAI 開源了一項(xiàng)新的評估:OpenAI-MRCR(多輪共指)。

OpenAI-MRCR 測試模型識別并消除上下文中隱藏的多個(gè)「needle 」的能力。評估包括用戶和助手之間的多輪合成對話,用戶要求助手撰寫一篇關(guān)于某個(gè)主題的文章,例如「寫一首關(guān)于貘的詩」或「寫一篇關(guān)于巖石的博客文章」,接著會在整個(gè)上下文中插入兩個(gè)、四個(gè)或八個(gè)相同的請求,最后模型必須檢索與特定實(shí)例對應(yīng)的響應(yīng)(例如「給我第三首關(guān)于貘的詩」)。

挑戰(zhàn)在于這些請求與上下文其余部分的相似性,模型很容易被細(xì)微的差異誤導(dǎo),例如關(guān)于貘的短篇故事而不是詩歌,或者關(guān)于青蛙的詩歌而不是貘。OpenAI 發(fā)現(xiàn),GPT-4.1 在上下文長度高達(dá) 128K 個(gè) token 時(shí)的表現(xiàn)優(yōu)于 GPT-4o,并且即使長度高達(dá) 100 萬個(gè) token 時(shí)也能保持強(qiáng)勁的性能。

打開網(wǎng)易新聞 查看精彩圖片

OpenAI 還發(fā)布了Graphwalks?,這是一個(gè)用于評估多跳長上下文推理的數(shù)據(jù)集。許多開發(fā)者在長上下文用例中需要在上下文中進(jìn)行多次邏輯跳躍,例如在編寫代碼時(shí)在多個(gè)文件之間跳轉(zhuǎn),或在回答復(fù)雜的法律問題時(shí)交叉引用文檔。

理論上,模型(甚至人類)可以通過一遍遍閱讀提示詞來解決 OpenAI-MRCR 問題,但 Graphwalks 的設(shè)計(jì)要求在上下文中的多個(gè)位置進(jìn)行推理,并且無法按順序求解。

Graphwalks 會用由十六進(jìn)制哈希值組成的有向圖填充上下文窗口,然后要求模型從圖中的隨機(jī)節(jié)點(diǎn)開始執(zhí)行廣度優(yōu)先搜索 (BFS)。然后要求它返回一定深度的所有節(jié)點(diǎn)。結(jié)果顯示,GPT-4.1 在此基準(zhǔn)測試中達(dá)到了 61.7% 的準(zhǔn)確率,與 o1 的性能相當(dāng),并輕松擊敗了 GPT-4o。

打開網(wǎng)易新聞 查看精彩圖片

視覺

GPT-4.1 系列模型在圖像理解方面同樣非常強(qiáng)大,尤其是 GPT-4.1 mini 實(shí)現(xiàn)了重大的飛躍,在圖像基準(zhǔn)測試中經(jīng)常擊敗 GPT-4o。

以下為 MMMU(回答包含圖表、圖解、地圖等的問題)、MathVista?(解決視覺數(shù)學(xué)問題)、CharXiv-Reasoning(回答科學(xué)論文中關(guān)于圖表的問題)等基準(zhǔn)上的表現(xiàn)對比。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

長上下文性能對于多模態(tài)用例(例如處理長視頻)也至關(guān)重要。在 Video-MME(長視頻無字幕)中,模型基于 30-60 分鐘長的無字幕視頻回答多項(xiàng)選擇題。GPT-4.1 達(dá)到了最佳性能,得分為 72.0%,高于 GPT-4o 的 65.3%

打開網(wǎng)易新聞 查看精彩圖片

更多測試指標(biāo)請參考 OpenAI 原博客。

博客地址:https://openai.com/index/gpt-4-1/

? THE END