a猛观看免费在线观看,香蕉视频官网下载,成人国产精品麻豆,久久黄色a级毛片,97久久久综合亚洲久久88

IT之家 5 月 9 日消息，科技媒體 marktechpost 今天（5 月 9 日）發(fā)布博文，報(bào)道稱 OpenAI 公司在其 o4-mini 推理模型上，推出了強(qiáng)化微調(diào)技術(shù)（Reinforcement Fine-Tuning, 簡稱 RFT），為定制基礎(chǔ)模型以適應(yīng)特定任務(wù)帶來了突破性工具。

OpenAI 的強(qiáng)化微調(diào)技術(shù)（RFT）將強(qiáng)化學(xué)習(xí)原理融入語言模型的微調(diào)過程。開發(fā)者不再僅依賴標(biāo)注數(shù)據(jù)，而是通過設(shè)計(jì)任務(wù)特定的評(píng)分函數(shù)（grader）來評(píng)估模型輸出。

這些評(píng)分函數(shù)根據(jù)自定義標(biāo)準(zhǔn)（如準(zhǔn)確性、格式或語氣）為模型表現(xiàn)打分，模型則通過優(yōu)化獎(jiǎng)勵(lì)信號(hào)逐步學(xué)習(xí)，生成符合期望的行為。這種方法尤其適合難以定義標(biāo)準(zhǔn)答案的復(fù)雜任務(wù)，例如醫(yī)療解釋的措辭優(yōu)化，開發(fā)者可通過程序評(píng)估清晰度與完整性，指導(dǎo)模型改進(jìn)。

o4-mini 是 OpenAI 于 2025 年 4 月發(fā)布的一款緊湊型推理模型，支持文本和圖像輸入，擅長結(jié)構(gòu)化推理和鏈?zhǔn)剿季S提示（chain-of-thought prompts）。

通過在 o4-mini 上應(yīng)用 RFT，OpenAI 為開發(fā)者提供了一個(gè)輕量但強(qiáng)大的基礎(chǔ)模型，適合高風(fēng)險(xiǎn)、領(lǐng)域特定的推理任務(wù)，其計(jì)算效率高，響應(yīng)速度快，非常適合實(shí)時(shí)應(yīng)用場(chǎng)景。

多家早期采用者已展示 RFT 在 o4-mini 上的潛力，凸顯 RFT 在法律、醫(yī)療、代碼生成等領(lǐng)域的定制化優(yōu)勢(shì)，IT之家附上相關(guān)案例如下：

Accordance AI 開發(fā)稅務(wù)分析模型，準(zhǔn)確率提升 39%；
Ambience Healthcare 優(yōu)化醫(yī)療編碼，ICD-10 分配性能提升 12 個(gè)百分點(diǎn)；
法律 AI 初創(chuàng)公司 Harvey 提升法律文檔引文提取的 F1 分?jǐn)?shù) 20%；
Runloop 改進(jìn) Stripe API 代碼生成，性能提升 12%；
調(diào)度助手 Milo 和內(nèi)容審核工具 SafetyKit 也分別取得顯著進(jìn)步。

使用 RFT 需完成四步：設(shè)計(jì)評(píng)分函數(shù)、準(zhǔn)備高質(zhì)量數(shù)據(jù)集、通過 OpenAI API 啟動(dòng)訓(xùn)練任務(wù)，以及持續(xù)評(píng)估和優(yōu)化。

RFT 目前向認(rèn)證組織開放，訓(xùn)練費(fèi)用為每小時(shí) 100 美元，若使用 GPT-4o 等模型作為評(píng)分工具，額外按標(biāo)準(zhǔn)推理費(fèi)率計(jì)費(fèi)。OpenAI 還推出激勵(lì)措施，同意共享數(shù)據(jù)集用于研究的組織可享受 50% 的訓(xùn)練費(fèi)用折扣。