
省流:寫(xiě)代碼,寫(xiě)文章,設(shè)計(jì)卡片,數(shù)學(xué)能力都不甚令人滿意

大家好,我是 Ai 學(xué)習(xí)的老章
GPT - 4.1
OpenAi 又發(fā)新模型了,新推出的 GPT - 4.1 系列模型,包括 GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano,官網(wǎng)介紹:它們?cè)诰幋a、指令遵循、長(zhǎng)上下文處理等方面有顯著提升,且成本更低。在編碼能力上,GPT - 4.1 在 SWE - bench Verified 測(cè)試中得分 54.6% ,遠(yuǎn)超 GPT - 4o 和 GPT - 4.5,在多種編碼任務(wù)上表現(xiàn)出色。

長(zhǎng)上下文處理能力增強(qiáng)
:GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano 可處理高達(dá) 100 萬(wàn)標(biāo)記的上下文,遠(yuǎn)高于之前 GPT - 4o 模型的 128,000 標(biāo)記。這使得模型在處理大型代碼庫(kù)或大量長(zhǎng)篇文檔時(shí)游刃有余。
通過(guò)對(duì)推理系統(tǒng)的優(yōu)化,GPT - 4.1 系列價(jià)格更低。例如,GPT - 4.1 在中位數(shù)查詢上比 GPT - 4o 便宜 26% ,GPT - 4.1 nano 更是有史以來(lái)最便宜和最快的模型。


免費(fèi)使用方式
GPT-4.1僅提供API,openai對(duì)國(guó)內(nèi)網(wǎng)絡(luò)不友好
我找了兩個(gè)可以使用的地方:
Github Copilit中可以申請(qǐng)開(kāi)通GPT-4.1
地址:https://github.com/copilot

我試了確實(shí)免費(fèi),是否有別的限制,未知。

WindSurf 也更新了,免費(fèi)試用 7 天,本文測(cè)試均在Windsurf中進(jìn)行
下載地址:https://windsurf.com/refer?referral_code=60b0053769

不欺負(fù)它,出一道小學(xué)一年級(jí)下學(xué)期的題目

它回答不出來(lái)

GPT-4o就可以回答正確

提示詞:
- 所有小球半徑相同。 - 每個(gè)小球上有從 1 到 20 的編號(hào)。 - 所有小球在開(kāi)始時(shí)都從七邊形中心下落。 - 小球顏色分別為:#f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35。 - 小球應(yīng)受到重力和摩擦力影響,并能真實(shí)地與旋轉(zhuǎn)的七邊形邊界發(fā)生彈跳。小球之間也應(yīng)有碰撞。 - 所有小球的材質(zhì)特性保證它們的反彈高度不會(huì)超過(guò)七邊形的半徑,但要高于小球半徑。 - 所有小球會(huì)有自轉(zhuǎn)且有旋轉(zhuǎn)摩擦,小球上的編號(hào)可以用來(lái)體現(xiàn)自轉(zhuǎn)角度。 - 七邊形繞中心旋轉(zhuǎn),旋轉(zhuǎn)速度為每 5 秒 360 度。 - 七邊形的尺寸應(yīng)足夠大,可以容納所有小球。 - 不允許使用 pygame 庫(kù),碰撞檢測(cè)與響應(yīng)等算法需自行實(shí)現(xiàn)。允許使用的 Python 庫(kù)為:tkinter、math、numpy、dataclasses、typing、sys。 - 所有代碼需寫(xiě)在同一個(gè) Python 文件中。
結(jié)果:代碼生成很快,運(yùn)行順暢無(wú) bug,但是只有一個(gè)球。

提醒其錯(cuò)誤后,重新生成代碼,一切正常了。

提示詞:閱讀全文,文中共幾次父親的背影?分別有何深意,輸出 SVG 格式,3:4,小紅書(shū)風(fēng)格:——省略 1328 字
結(jié)果:沒(méi)有理解到位,只找到 3 個(gè)背影,設(shè)計(jì)出來(lái)的卡片奇丑無(wú)比

看看 Claude 3.7 就知道差距了
他找到了原文,針對(duì)原文做了深意理解
然后還完美呈現(xiàn)出來(lái)了,

給它英文素材,寫(xiě)一篇有人文氣息的科技文章,結(jié)果如下:

其實(shí)前幾天推文這篇文章是Claude-3.7寫(xiě)的,差距蠻大的,我覺(jué)得4.1完敗:
[[2025-04-16-如果你用過(guò)matplotlib,請(qǐng)記住他的名字]]
測(cè)試 5:設(shè)計(jì)單詞消消樂(lè)游戲
直接讓它設(shè)計(jì)一款小游戲并寫(xiě)好可運(yùn)行的代碼

一口氣寫(xiě)了十幾個(gè)文件,測(cè)試可以跑通,但是可玩性不太好

反觀Claude-3.7 幫我設(shè)計(jì)的是真消消樂(lè),翻轉(zhuǎn)卡片找配對(duì)的單詞和中文,很好玩

把游戲截圖畫(huà)面給GPT-4.1,識(shí)別沒(méi)有問(wèn)題,但是對(duì)相鄰字母沒(méi)有理解到位


測(cè)試 7:大海撈針
我實(shí)際沒(méi)有 api,完整測(cè)試沒(méi)法搞,只能看 OpenAI 官方測(cè)試情況了
GPT-4.1 檢索位于上下文窗口內(nèi)不同點(diǎn)的一小條隱藏信息(“針”)的能力。GPT-4.1 在所有位置和所有上下文長(zhǎng)度上始終如一地準(zhǔn)確檢索指針,一直到 100 萬(wàn)個(gè)令牌。它能夠有效地提取手頭任務(wù)的相關(guān)詳細(xì)信息,而不管它們?cè)谳斎胫械奈恢萌绾巍?/p>
大海撈針評(píng)估中,GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能夠在最遠(yuǎn) 1M 的環(huán)境中檢索所有位置的針。
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
熱門(mén)跟貼