OpenAI于2025年4月15日通過技術(shù)直播發(fā)布了GPT-4.1系列模型。這次發(fā)布不僅僅是對GPT-4o的簡單升級,而是推出了一套完整的模型系列,包括三個不同規(guī)模的版本。

OpenAI首席執(zhí)行官奧特曼在發(fā)布會上表示:"GPT-4.1系列現(xiàn)已在API中可用。"值得注意的是,由于GPT-4.1的發(fā)布,OpenAI宣布將會淘汰剛發(fā)布不久的GPT-4.5。

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.1系列的定位非常明確:專注于提升開發(fā)者在編碼和指令跟隨任務(wù)中的效率。OpenAI的官方博客中提到,GPT-4.1能更可靠地遵循指令,并且"已經(jīng)在各種指令遵循評估中測量到了顯著的改進(jìn)"。

這一定位表明,GPT-4.1系列主要通過API提供,面向的是構(gòu)建智能系統(tǒng)和代理應(yīng)用的開發(fā)者社區(qū),而不是直接面向普通用戶。

核心功能與技術(shù)亮點(diǎn)

超長上下文處理能力

GPT-4.1系列最引人注目的特點(diǎn)是其高達(dá)百萬token的上下文理解能力。這是OpenAI首次發(fā)布支持超長上下文窗口的模型,其上下文窗口大小是GPT-4o的8倍。

在多模態(tài)長上下文理解基準(zhǔn)測試Video-MME中,GPT-4.1創(chuàng)下了新的最高紀(jì)錄,在長篇無字幕測試中得分為72.0%,比GPT-4o提升了6.7%。

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)大的編程能力

GPT-4.1在編程能力方面實(shí)現(xiàn)了質(zhì)的飛躍。在衡量真實(shí)世界軟件工程技能的SWE-bench Verified基準(zhǔn)測試中,GPT-4.1得分為54.6%,相比GPT-4o的分?jǐn)?shù)提高了21.4%,相比GPT-4.5強(qiáng)了26.6%。這一顯著提升使其在代碼生成、代碼優(yōu)化和版本管理等方面表現(xiàn)得更加出色。

打開網(wǎng)易新聞 查看精彩圖片

指令遵循能力的提升

GPT-4.1在指令遵循能力方面也有顯著提升。OpenAI開發(fā)了一個內(nèi)部教學(xué)跟蹤評估系統(tǒng),用于跟蹤模型在多個維度和幾個關(guān)鍵指令集上的性能。測試結(jié)果表明,GPT-4.1在MultiChallenge測試中得分38.3%,在IFEval測試中達(dá)到87.4%,均優(yōu)于前代。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

特別是在處理復(fù)雜任務(wù)時,GPT-4.1表現(xiàn)出更強(qiáng)的指令理解能力。在處理多語言編程任務(wù)、代碼優(yōu)化和版本管理時,GPT-4.1比GPT-4o更高效。這種提升使得GPT-4.1在實(shí)際應(yīng)用中更加可靠,能夠更好地滿足用戶的需求。

模型變體與定價策略

GPT-4.1系列的一個重要特點(diǎn)是提供了不同規(guī)模的模型,以滿足不同需求和預(yù)算。三個版本的價格各不相同,為開發(fā)者提供了靈活的選擇:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.1

GPT-4.1是全功能版本,提供了最強(qiáng)大的性能和最全面的功能。它支持100萬token的上下文窗口,輸出能力提升至32768 tokens。在性能方面,GPT-4.1在SWE-bench Verified基準(zhǔn)測試中得分為54.6%,比GPT-4o提高了21.4%,比GPT-4.5強(qiáng)了26.6%。

在定價方面,GPT-4.1比GPT-4o中等查詢費(fèi)用低26%。提示緩存折扣從50%提升至75%,長上下文請求將不再收取額外費(fèi)用。每百萬輸入token收費(fèi)2美元,輸出8美元。

GPT-4.1 mini

GPT-4.1 mini是標(biāo)準(zhǔn)版本,性能介于GPT-4.1和GPT-4.1 nano之間。它在多項(xiàng)基準(zhǔn)測試中的表現(xiàn)都超越了GPT-4o mini:

MMLU(大規(guī)模多任務(wù)語言理解)得分80.1%

GPQA(圖形化閱讀理解)得分50.3%

Aider多語言編碼得分9.8%

在定價方面,GPT-4.1 mini的輸入價格為0.40美元/百萬token,輸出價格為1.60美元/百萬token。

GPT-4.1 nano

GPT-4.1 nano是OpenAI推出的首個超小型模型,具備速度最快、成本最低的特點(diǎn)。盡管體積小,但其性能依然出色,基準(zhǔn)測試MMLU得分80.1%,GPQA得分為50.3%,Aider多語言編碼得分為9.8%,均高于GPT-4o mini。

在定價方面,GPT-4.1 nano的輸入價格僅為0.10美元/百萬token,輸出價格為0.40美元/百萬token,綜合價格僅為0.12美元/百萬token。這是OpenAI迄今最快、最便宜的模型,特別適合執(zhí)行如分類和自動補(bǔ)全等低延遲任務(wù)。

打開網(wǎng)易新聞 查看精彩圖片