品玩4月21日訊,據(jù)techCrunch 報(bào)道,OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在嚴(yán)重的幻覺(jué)問(wèn)題。
根據(jù) OpenAI 的內(nèi)部測(cè)試,o3 和 o4-mini比該公司之前的推理模型(o1、o1-mini 和 o3-mini)以及 OpenAI 傳統(tǒng)的 “非推理 ”模型(如 GPT-4o)更容易產(chǎn)生幻覺(jué)。OpenAI 在其關(guān)于 o3 和 o4-mini 的技術(shù)報(bào)告中寫(xiě)道,“需要進(jìn)行更多的研究”,以了解為什么隨著推理模型的擴(kuò)大,幻覺(jué)會(huì)越來(lái)越嚴(yán)重。
OpenAI 發(fā)現(xiàn),o3 在回答 PersonQA 中 33% 的問(wèn)題時(shí)產(chǎn)生了幻覺(jué),而 PersonQA 是公司內(nèi)部衡量模型對(duì)人的認(rèn)知準(zhǔn)確性的基準(zhǔn)。這大約是OpenAI之前的推理模型o1和o3-mini出現(xiàn)幻覺(jué)率的兩倍,o1和o3-mini的幻覺(jué)率分別為16%和14.8%。O4-mini在PersonQA上的表現(xiàn)更糟--48%的時(shí)間出現(xiàn)幻覺(jué)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
熱門跟貼