又爽又硬又粗又长视频在线观看,国产大胆福利视频在线观看,黄色成人在线免费观看,国产精品视频日韩欧美,亚洲国产aⅴ精品一区99

GPT 家族再添新成員。GPT-4.1 性能全面超越 GPT-4o，編碼、指令跟蹤及長上下文能力顯著優(yōu)化。

作者丨洪雨欣、梁丙鑒

編輯丨陳彩嫻

就在今天，OpenAI API 中推出了三個(gè)新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的性能全面超越 GPT-4o 和 GPT-4o mini，在編碼和指令跟蹤方面均有顯著提升。除此之外，它們還擁有更大的上下文窗口，支持多達(dá) 100 萬個(gè)上下文tokens。

GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ，比 GPT-4o提高了21.4% ，比 GPT-4.5 提高了 26.6%，使其成為領(lǐng)先的編碼模型。

在衡量指令遵循能力的標(biāo)準(zhǔn)當(dāng)中，GPT-4.1 得分為 38.3%，比 GPT-4o 提高了10.5%。

在 Video-MME 多模態(tài)長上下文理解的基準(zhǔn)中，GPT-4.1 創(chuàng)造了新的先進(jìn)成果——在長篇無字幕類別中得分為 72.0%，比 GPT-4o 提高了6.7%。

針對(duì)模型的優(yōu)化，GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個(gè)點(diǎn)上都實(shí)現(xiàn)了性能的提升。

同日，智譜開源了其32B/9B 系列 GLM 模型，在代碼生成、指令遵循等方面與GPT4.1短兵相接。

該批模型涵蓋基座、推理、沉思模型，現(xiàn)已通過全新平臺(tái) Z.ai 免費(fèi)開放體驗(yàn)，并同步上線智譜 MaaS 平臺(tái)。

此次開源，OpenAI和智譜均干勁十足。GPT-4.1在代碼任務(wù)、指令遵循、長上下文理解等多項(xiàng)領(lǐng)域均擊敗 GPT-4o。Z.ai 在指令微調(diào)和搜索代碼上的基準(zhǔn)指標(biāo)上已接近甚至超越 GPT-4o。

代碼生成

GPT-4.1 在各種代碼任務(wù)上都比 GPT-4o 表現(xiàn)得更好，包括代理解決編碼任務(wù)、前端編碼、減少無關(guān)編輯、遵循差異格式、確保一致的工具使用等等。

在衡量真實(shí)世界軟件工程技能的 SWE-bench Verified 測試中，GPT-4.1 完成了 54.6% 的任務(wù)，而 GPT-4o 的完成率為 33.2%。這反映了模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行并通過測試的代碼方面的能力有所提升。

對(duì)于需要編輯大型文件的 API 開發(fā)者來說，GPT-4.1 在跨多種格式的代碼差異分析方面更加準(zhǔn)確。在Aider 的多語言差異基準(zhǔn)測試中，GPT-4.1 的得分是 GPT-4o 的兩倍多，甚至比 GPT-4.5 還高出 8%。OpenAI專門訓(xùn)練了 GPT-4.1遵循差異格式的能力，開發(fā)人員無需重寫整個(gè)文件，從而節(jié)省成本和延遲。

GPT-4.1 在前端代碼方面也比 GPT-4o 有了顯著提升，能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在我們的面對(duì)面對(duì)比中，付費(fèi)人工評(píng)分員 80% 的評(píng)分結(jié)果顯示，GPT-4.1 的網(wǎng)站比 GPT-4o 的網(wǎng)站更受歡迎。

除了上述基準(zhǔn)測試之外，GPT-4.1 在遵循格式方面表現(xiàn)更佳，準(zhǔn)確性更高，并且減少了無關(guān)編輯的頻率。在OpenAI的內(nèi)部評(píng)估中，代碼中的無關(guān)編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

OpenAI開發(fā)了一個(gè)內(nèi)部教學(xué)跟蹤評(píng)估系統(tǒng)，將每個(gè)類別分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

GPT-4.1 能夠更好地從過往對(duì)話中識(shí)別信息，從而實(shí)現(xiàn)更自然的對(duì)話。在 MultiChallenge 的基準(zhǔn)測試中，GPT-4.1 的表現(xiàn)比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也為 87.4%，而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗(yàn)證指令的提示（例如，指定內(nèi)容長度或避免使用某些術(shù)語或格式）。

智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現(xiàn)優(yōu)異，以84.5%的分?jǐn)?shù)和GPT o1-mini分庭抗禮。

長上下文理解

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個(gè)上下文tokens，而之前的 GPT-4o 型號(hào)最多可以處理 128,000 個(gè)。100 萬個(gè)tokens相當(dāng)于整個(gè) React 代碼庫的 8 個(gè)以上副本，因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠準(zhǔn)確地處理長達(dá) 100 萬個(gè)上下文中的信息。此外，它能比 GPT-4o 更準(zhǔn)確地識(shí)別相關(guān)文本，并忽略長短上下文中的干擾項(xiàng)。長上下文理解是法律、編碼、客戶支持以及許多其他領(lǐng)域應(yīng)用的關(guān)鍵能力。

下圖是 GPT-4.1 檢索位于上下文窗口內(nèi)各個(gè)位置的隱藏信息（“針”）的能力。GPT-4.1 能夠始終如一地準(zhǔn)確檢索所有位置和所有上下文長度的針，最大檢索tokens數(shù)可達(dá) 100 萬個(gè)。無論這些tokens在輸入中的位置如何，它都能有效地提取與當(dāng)前任務(wù)相關(guān)的細(xì)節(jié)。

為了進(jìn)一步展示信息理解的能力，OpenAI開源了一個(gè)新的評(píng)估平臺(tái)：OpenAI-MRCR（多輪共指，上下文中發(fā)現(xiàn)并區(qū)分隱藏的多個(gè)針頭的能力）。

GPT-4.1 在上下文長度高達(dá) 128K 個(gè) token 時(shí)的表現(xiàn)優(yōu)于 GPT-4o，并且即使長度高達(dá) 100 萬個(gè) token 時(shí)也能保持強(qiáng)勁的性能。

在 Graphwalks （一個(gè)用于評(píng)估多跳長上下文推理的數(shù)據(jù)集）的基準(zhǔn)測試中，GPT-4.1 達(dá)到了 61.7% 的準(zhǔn)確率，與 o1 的性能相當(dāng)，并輕松擊敗了 GPT-4o。

值得注意的是，智譜此番在小模型性能上也有所突破。尺寸僅為9B的GLM-Z1-9B-0414雖然參數(shù)量更少，但在數(shù)學(xué)推理及通用任務(wù)上依然表現(xiàn)出色。在AIME的基準(zhǔn)測試中，以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。