IT之家 5 月 9 日消息,科技媒體 marktechpost 今天(5 月 9 日)發(fā)布博文,報(bào)道稱 OpenAI 公司在其 o4-mini 推理模型上,推出了強(qiáng)化微調(diào)技術(shù)(Reinforcement Fine-Tuning, 簡稱 RFT),為定制基礎(chǔ)模型以適應(yīng)特定任務(wù)帶來了突破性工具。
OpenAI 的強(qiáng)化微調(diào)技術(shù)(RFT)將強(qiáng)化學(xué)習(xí)原理融入語言模型的微調(diào)過程。開發(fā)者不再僅依賴標(biāo)注數(shù)據(jù),而是通過設(shè)計(jì)任務(wù)特定的評(píng)分函數(shù)(grader)來評(píng)估模型輸出。
這些評(píng)分函數(shù)根據(jù)自定義標(biāo)準(zhǔn)(如準(zhǔn)確性、格式或語氣)為模型表現(xiàn)打分,模型則通過優(yōu)化獎(jiǎng)勵(lì)信號(hào)逐步學(xué)習(xí),生成符合期望的行為。這種方法尤其適合難以定義標(biāo)準(zhǔn)答案的復(fù)雜任務(wù),例如醫(yī)療解釋的措辭優(yōu)化,開發(fā)者可通過程序評(píng)估清晰度與完整性,指導(dǎo)模型改進(jìn)。
o4-mini 是 OpenAI 于 2025 年 4 月發(fā)布的一款緊湊型推理模型,支持文本和圖像輸入,擅長結(jié)構(gòu)化推理和鏈?zhǔn)剿季S提示(chain-of-thought prompts)。
通過在 o4-mini 上應(yīng)用 RFT,OpenAI 為開發(fā)者提供了一個(gè)輕量但強(qiáng)大的基礎(chǔ)模型,適合高風(fēng)險(xiǎn)、領(lǐng)域特定的推理任務(wù),其計(jì)算效率高,響應(yīng)速度快,非常適合實(shí)時(shí)應(yīng)用場(chǎng)景。
多家早期采用者已展示 RFT 在 o4-mini 上的潛力,凸顯 RFT 在法律、醫(yī)療、代碼生成等領(lǐng)域的定制化優(yōu)勢(shì),IT之家附上相關(guān)案例如下:
- Accordance AI 開發(fā)稅務(wù)分析模型,準(zhǔn)確率提升 39%;
- Ambience Healthcare 優(yōu)化醫(yī)療編碼,ICD-10 分配性能提升 12 個(gè)百分點(diǎn);
- 法律 AI 初創(chuàng)公司 Harvey 提升法律文檔引文提取的 F1 分?jǐn)?shù) 20%;
- Runloop 改進(jìn) Stripe API 代碼生成,性能提升 12%;
- 調(diào)度助手 Milo 和內(nèi)容審核工具 SafetyKit 也分別取得顯著進(jìn)步。
使用 RFT 需完成四步:設(shè)計(jì)評(píng)分函數(shù)、準(zhǔn)備高質(zhì)量數(shù)據(jù)集、通過 OpenAI API 啟動(dòng)訓(xùn)練任務(wù),以及持續(xù)評(píng)估和優(yōu)化。

RFT 目前向認(rèn)證組織開放,訓(xùn)練費(fèi)用為每小時(shí) 100 美元,若使用 GPT-4o 等模型作為評(píng)分工具,額外按標(biāo)準(zhǔn)推理費(fèi)率計(jì)費(fèi)。OpenAI 還推出激勵(lì)措施,同意共享數(shù)據(jù)集用于研究的組織可享受 50% 的訓(xùn)練費(fèi)用折扣。
熱門跟貼