人妻中文字幕麻豆,亚洲精品一区毛片,中国人xxx18～19hd,国产又粗又猛又大又爽又黄视频,久久人人妻人人人人妻

GPT-4.1 來了。

北京時間4 月 15 號凌晨，OpenAI 直播發(fā)布了名為 GPT-4.1 的多模態(tài)系列模型。

它有三個版本：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低，但犧牲了準(zhǔn)確性。

OpenAI 表示，“它們編碼和指令遵循方面取得了重大進(jìn)展。完整的GPT-4.1 模型在幾乎所有維度上均優(yōu)于 GPT-4o 系列模型?！?/p>

僅從基準(zhǔn)測試成績來看，GPT-4.1 的紙面性能雖然比自家前輩有所提升，但如果跟谷歌、Anthropic 等競爭對手的旗艦?zāi)Ｐ拖啾?，還是有一定的差距。

看來想要完全超越競爭對手，OpenAI 只能盡快拿出 o3 完全體了。

值得注意的是，GPT-4.1 系列模型目前只能通過 OpenAI 的 API 獲取，無法在 ChatGPT 上使用。

與此同時OpenAI 還宣布，將很快停止通過 API 提供其有史以來最大的 AI 模型 GPT-4.5。該模型是今年 2 月剛剛發(fā)布的，其運行成本十分昂貴，API 定價也高達(dá)每百萬輸入 75 美元，每百萬輸出 150 美元。

今年7 月 14 日之后，API 開發(fā)者必須將 GPT-4.5 服務(wù)轉(zhuǎn)移到 OpenAI 的其他模型，首選替代方案是 GPT-4.1。這暫時不會影響通過 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 萬 token（包含文本、圖像或視頻的組合），這意味著它們可以一次性輸入大約 75 萬個單詞。此前的 GPT-4o 最多支持 12.8 萬 token。

但OpenAI 也承認(rèn)，GPT-4.1 處理的輸入 token 越多，可靠性就越低，更容易出錯。

在該公司自己的測試OpenAI-MRCR 中，隨著 token 的數(shù)量從 8000 增長到 100 萬，模型的準(zhǔn)確率從 84% 左右下降到了不足 50%。該公司表示，GPT-4.1 也比 GPT-4o 更“直接”，有時需要更具體、更明確的提示。

定價方面，GPT-4.1 每百萬輸入 token 成本為 2 美元，每百萬輸出 token 成本為 8 美元。GPT-4.1 mini 每百萬輸入 token 成本為 0.4 美元，每百萬輸出 token 成本為 1.6 美元；GPT-4.1 nano 每百萬輸入 token 成本為 0.1 美元，每百萬輸出 token 成本為 0.4 美元。

綜合來看，GPT-4.1 的成本比 GPT-4o 低 26%。同時，OpenAI 還將新模型的即時緩存折扣輸入提高到了 75%（之前為 50%）。

性能方面，GPT-4.1 可以一次性生成比 GPT-4o 更多的 token（最多 32768 個 token），在最受程序員關(guān)心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之間。這個成績低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

對于需要編輯大型文件的API 開發(fā)者來說，GPT-4.1 在跨多種格式的代碼差異分析方面更加可靠。在 Aider 的多語言差異基準(zhǔn)測試中，GPT-4.1 的得分是 GPT-4o 的兩倍多，甚至比 GPT-4.5 還高出 8%。

“我們專門訓(xùn)練了GPT-4.1，使其能夠更可靠地遵循差異格式，這使得開發(fā)人員只需讓模型輸出更改的行，而無需重寫整個文件，從而節(jié)省成本和延遲?！監(jiān)penAI 寫道。

這一點在指令遵循上也有所體現(xiàn)。

OpenAI 在博客中介紹稱，GPT-4.1 能更可靠地遵循指令，并且“已經(jīng)在各種指令遵循評估中測量到了顯著的改進(jìn)”。

OpenAI 開發(fā)了一個內(nèi)部教學(xué)跟蹤評估系統(tǒng)，以跟蹤模型在多個維度和幾個關(guān)鍵教學(xué)跟蹤類別中的表現(xiàn)，包括格式遵循、避免負(fù)面指示、有序遵循指令、遵守內(nèi)容要求、排序和過度自信。

這些類別是根據(jù)開發(fā)人員的反饋得出的，這些反饋是關(guān)于哪些指令遵循方面對他們來說最相關(guān)且最重要。在每個類別中，OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

圖 | OpenAI 內(nèi)部指令遵循測試結(jié)果（來源：OpenAI）

多輪指令遵循對許多開發(fā)者來說至關(guān)重要。對于模型而言，在對話中保持連貫性并跟蹤用戶之前輸入的內(nèi)容至關(guān)重要。

“我們已經(jīng)訓(xùn)練了GPT-4.1，使其能夠更好地從對話中的過往消息中識別信息，從而實現(xiàn)更自然的對話。Scale 的 MultiChallenge 基準(zhǔn)測試是衡量這一能力的有效指標(biāo)，GPT-4.1 的表現(xiàn)比 GPT-4o 提高了 10.5%?！監(jiān)penAI 表示。

GPT-4.1 在前端編碼方面也比 GPT-4o 有了顯著提升，能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在 OpenAI 的評估中，相比 GPT-4o，測試人員更喜歡 GPT-4.1 創(chuàng)建的網(wǎng)站。

在另一項評估中，OpenAI 使用 Video-MME 測試了 GPT-4.1，該模型旨在衡量模型“理解”視頻內(nèi)容的能力。

OpenAI 聲稱，GPT-4.1 在“長篇無字幕”視頻類別中達(dá)到了72% 的最高準(zhǔn)確率，高于 GPT-4o 的 65.3%。