來自 NVIDIA 和 UIUC 的研究人員發(fā)現(xiàn)了一種在 LLM 中擴(kuò)展標(biāo)準(zhǔn)上下文窗口限制的技術(shù)。

LLM 一直在推動(dòng)上下文窗口限制,以允許用戶提供更多信息并獲得準(zhǔn)確的結(jié)果。一項(xiàng)新的研究似乎找到了一種超越 100 萬數(shù)量級(jí)的方法。
來自 NVIDIA 和伊利諾伊大學(xué)厄巴納-香檳分校 (UIUC) 的研究人員分享了一篇研究論文,討論了將 LLM 的上下文窗口擴(kuò)展到約 400 萬個(gè)代幣的技術(shù)。
他們還推出了 UltraLong-8B,這是一個(gè)新的系列模型——Llama-3.1-8-UltraLong-1M-Instruct、Llama-3.1-8-UltraLong-4M-Instruct 和 Llama-3.1-8-UltraLong-2M-Instruct——都可以在 Hugging Face 上使用。這些模型基于 Llama-3.1-8B-Instruct。
“在這項(xiàng)工作中,我們引入了一種高效的訓(xùn)練方法,用于從對(duì)齊的指令模型構(gòu)建超長上下文 LLM,將上下文長度的邊界從 128K 推向 1M、2M 和 4M 令牌,”研究人員說。
“我們的方法利用有效的持續(xù)預(yù)訓(xùn)練策略來擴(kuò)展上下文窗口,并采用有效的指令調(diào)整來保持指令跟隨和推理能力,”他們補(bǔ)充道。
該方法包括兩個(gè)主要階段。第一個(gè)嘗試使用一個(gè)特別策劃的語料庫來擴(kuò)展上下文窗口,其中包含未采樣的長文檔。研究人員應(yīng)用了“基于 YaRN 的 RoPE 縮放”來提高模型處理長序列的能力,并繼續(xù)采用一步式預(yù)訓(xùn)練方法而不是多步技術(shù)。

第二階段涉及指令調(diào)整,它使用跨一般、數(shù)學(xué)和編碼領(lǐng)域的高質(zhì)量短上下文監(jiān)督微調(diào) (SFT) 數(shù)據(jù)集來優(yōu)化模型的指令跟蹤和推理能力。
根據(jù)論文,基準(zhǔn)測(cè)試實(shí)驗(yàn)包括 RULER、LV-Eval、InfiniteBench、HumanEval 等評(píng)估。研究發(fā)現(xiàn),與現(xiàn)有的基于 Llama 的長上下文模型相比,UltraLong-8B 模型在長上下文和標(biāo)準(zhǔn)任務(wù)中的性能優(yōu)于其他模型。研究人員還進(jìn)行了大海撈針 (NIAH) 測(cè)試,模型達(dá)到了 100% 的準(zhǔn)確率。
研究人員承認(rèn),該技術(shù)使用監(jiān)督微調(diào),并沒有探索強(qiáng)化學(xué)習(xí),而強(qiáng)化學(xué)習(xí)可以在未來進(jìn)行研究。他們還指出,擴(kuò)展上下文窗口并不能牢記 LLM 的安全對(duì)齊。
熱門跟貼