昨晚,OpenAI 推出了名為 GPT-4.1 的新模型,該系列優(yōu)先提升了編碼能力和指令跟隨能力,同時(shí)將上下文窗口擴(kuò)展到了100萬個(gè)tokens,大約相當(dāng)于75萬個(gè)單詞。所有這些模型的知識(shí)截止日期為2024年6月,能提供更貼合當(dāng)下的上下文理解。
該系列包括標(biāo)準(zhǔn)的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,所有版本都可以通過API使用,但無法在ChatGPT中使用。
目前,已經(jīng)有不少用戶在體驗(yàn)GPT-4.1的效果了。一位網(wǎng)友在試用后表示,“GPT-4.1可以處理所有其他OpenAI模型無法應(yīng)對(duì)的大篇幅上下文?!边€有網(wǎng)友用GPT-4.1模型繪制一只鵜鶘,并將其與Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成結(jié)果進(jìn)行比較,被評(píng)Gemini做得更好。 Box AI則分享了用GPT-4.1模型來研讀一份冗長的收益報(bào)告文檔、從中提取出數(shù)據(jù)字段的例子,并表示其“能夠大規(guī)模查詢、整合、分析和總結(jié)任何數(shù)據(jù)類型”。
此外,GPT 4.1現(xiàn)已接入ChatLLM。在代碼處理方面,它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。
OpenAI 聲稱,在包括SWE-bench在內(nèi)的編碼基準(zhǔn)測試中,完整的GPT-4.1模型的表現(xiàn)優(yōu)于其GPT-4o和GPT-4o mini模型。其中,GPT-4.1 mini和nano更高效、更快速,但也犧牲了一定準(zhǔn)確性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之間,不過略低于谷歌和Anthropic在同一基準(zhǔn)測試中報(bào)告的、分別為Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%)的分?jǐn)?shù)。
并且,GPT-4.1在Video-MME的長視頻理解測試中達(dá)到了72%的準(zhǔn)確率,相比GPT-4o的65.3%有了顯著提升。
OpenAI還宣布,將在7月14日之前從 API 訪問中淘汰GPT-4.5。該公司稱,GPT-4.1能夠以低成本提供“相當(dāng)或更優(yōu)的性能”。有網(wǎng)友表示,在SimpleQA基準(zhǔn)測試中,GPT-4.5 仍比 GPT-4.1 好得多。
也有不少網(wǎng)友調(diào)侃OpenAI的命名方式,“難道是擲骰子嗎?4.1怎么能算是4.5的升級(jí)版?”“為什么不直接用4.1更新4.5?這會(huì)比倒回去更新更合理?!?/p>






熱門跟貼