√天堂中文在线网,久久久久久久av毛片,亚洲国产男人的天堂,午夜看片久久久久久,99热播这里只有精品

GPT-4.1登場，實(shí)測碾壓OpenAI所有模型，但效果不如Gemini？

AI前線

2025-04-15 11:56 ·北京 ·優(yōu)質(zhì)互聯(lián)網(wǎng)領(lǐng)域創(chuàng)作者

昨晚，OpenAI 推出了名為 GPT-4.1 的新模型，該系列優(yōu)先提升了編碼能力和指令跟隨能力，同時(shí)將上下文窗口擴(kuò)展到了100萬個(gè)tokens，大約相當(dāng)于75萬個(gè)單詞。所有這些模型的知識(shí)截止日期為2024年6月，能提供更貼合當(dāng)下的上下文理解。

該系列包括標(biāo)準(zhǔn)的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，所有版本都可以通過API使用，但無法在ChatGPT中使用。

目前，已經(jīng)有不少用戶在體驗(yàn)GPT-4.1的效果了。一位網(wǎng)友在試用后表示，“GPT-4.1可以處理所有其他OpenAI模型無法應(yīng)對(duì)的大篇幅上下文?！边€有網(wǎng)友用GPT-4.1模型繪制一只鵜鶘，并將其與Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成結(jié)果進(jìn)行比較，被評(píng)Gemini做得更好。 Box AI則分享了用GPT-4.1模型來研讀一份冗長的收益報(bào)告文檔、從中提取出數(shù)據(jù)字段的例子，并表示其“能夠大規(guī)模查詢、整合、分析和總結(jié)任何數(shù)據(jù)類型”。

此外，GPT 4.1現(xiàn)已接入ChatLLM。在代碼處理方面，它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。

OpenAI 聲稱，在包括SWE-bench在內(nèi)的編碼基準(zhǔn)測試中，完整的GPT-4.1模型的表現(xiàn)優(yōu)于其GPT-4o和GPT-4o mini模型。其中，GPT-4.1 mini和nano更高效、更快速，但也犧牲了一定準(zhǔn)確性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之間，不過略低于谷歌和Anthropic在同一基準(zhǔn)測試中報(bào)告的、分別為Gemini 2.5 Pro（63.8%）和Claude 3.7 Sonnet（62.3%）的分?jǐn)?shù)。

并且，GPT-4.1在Video-MME的長視頻理解測試中達(dá)到了72%的準(zhǔn)確率，相比GPT-4o的65.3%有了顯著提升。

OpenAI還宣布，將在7月14日之前從 API 訪問中淘汰GPT-4.5。該公司稱，GPT-4.1能夠以低成本提供“相當(dāng)或更優(yōu)的性能”。有網(wǎng)友表示，在SimpleQA基準(zhǔn)測試中，GPT-4.5 仍比 GPT-4.1 好得多。

也有不少網(wǎng)友調(diào)侃OpenAI的命名方式，“難道是擲骰子嗎？4.1怎么能算是4.5的升級(jí)版？”“為什么不直接用4.1更新4.5？這會(huì)比倒回去更新更合理?！?/p>