本文提出了基于本體驅(qū)動的自訓(xùn)練微調(diào)框架OntoTune,通過上下文學(xué)習(xí)識別種子模型未掌握的本體知識,并自訓(xùn)練增強模型與本體的對齊能力。實驗表明,OntoTune 在本體內(nèi)外任務(wù)中均達到最新性能,同時保留了種子模型的原有知識。相比依賴大規(guī)模語料庫訓(xùn)練的領(lǐng)域 LLMs,OntoTune 僅需小規(guī)模本體和種子模型即可實現(xiàn)更強泛化能力。

打開網(wǎng)易新聞 查看精彩圖片

論文題目: OntoTune: Ontology-Driven Self-training for Aligning Large Language Models 論文鏈接: https://arxiv.org/pdf/2502.05478 代碼鏈接: https://github.com/zjukg/OntoTune

一、引言

現(xiàn)有的領(lǐng)域特定大型語言模型(LLMs)通常通過使用大規(guī)模領(lǐng)域特定語料對通用型LLMs進行微調(diào)來開發(fā)。然而,在大規(guī)模語料上的訓(xùn)練往往難以有效地組織LLM的領(lǐng)域知識,導(dǎo)致對知識的碎片化理解。受到人類通過思維導(dǎo)圖連接概念并組織知識的啟發(fā),我們旨在通過本體(ontology)中層次化的概念知識來重新組織LLMs的領(lǐng)域知識。從這一視角出發(fā),我們提出了一種基于本體驅(qū)動的自訓(xùn)練框架,稱為OntoTune,其目標是通過上下文學(xué)習(xí)(in-context learning)將LLMs與本體對齊,從而生成受本體指導(dǎo)的響應(yīng)。

打開網(wǎng)易新聞 查看精彩圖片

我們利用上下文學(xué)習(xí)來識別LLM是否掌握了特定概念的本體知識,并選擇LLM尚未掌握的條目作為訓(xùn)練集,以進一步將LLM與本體對齊。與基于新收集的大規(guī)模領(lǐng)域特定語料的現(xiàn)有領(lǐng)域LLMs相比,我們的OntoTune依賴于現(xiàn)有、長期開發(fā)的本體以及LLM自身,大幅減少了數(shù)據(jù)維護成本,并提供了更好的泛化能力。

二、方法

打開網(wǎng)易新聞 查看精彩圖片

目標定義

我們首先設(shè)定一個目標,用以評估初始模型是否掌握了領(lǐng)域本體知識并能夠指導(dǎo)模型的響應(yīng)。給定一個與本體知識 密切相關(guān)的指令 ,我們可以得到兩種類型的響應(yīng):

如果初始模型 在生成響應(yīng)時已完全掌握并正確利用了本體知識,那么 應(yīng)該等于 。否則,由于LLM具有上下文學(xué)習(xí)的能力,包含本體知識 的輸入可以產(chǎn)生更系統(tǒng)化和更具邏輯性的響應(yīng),因此 應(yīng)該優(yōu)于 。然而,在許多情況下, 與 并不接近或相似。為了將本體知識內(nèi)化到LLMs中,我們設(shè)定優(yōu)化目標為:

打開網(wǎng)易新聞 查看精彩圖片

如前所述,這一目標大致意味著 已經(jīng)掌握了本體知識,并且在生成響應(yīng)時能夠正確地利用內(nèi)部的本體知識。

指令文本生成

為了評估大語言模型在各個維度上對本體知識的掌握程度,我們設(shè)計了三種不同的概念級指令模板。這些模板從多樣性、概念性和專業(yè)性的角度評估種子模型中的本體知識是否能夠有效地指導(dǎo)生成的響應(yīng)。首先,我們圍繞概念t將指令 作為種子模型的輸入得到對應(yīng)輸出 。同時,我們將指令與相關(guān)的本體知識 作為輸入,得到在本體指導(dǎo)下的輸出 。其中,本體知識 包括概念的定義、上位詞與同義詞,可以直接從本體庫中檢索獲得。我們發(fā)現(xiàn)本體庫中缺乏部分概念的定義,因此我們通過種子模型的少樣本學(xué)習(xí)為這些概念生成相關(guān)定義。

不一致文本選擇

對于概念t,如果模型響應(yīng) 和 是一致的,這表明種子模型中與概念 相關(guān)的本體知識可以隱式地指導(dǎo)模型輸出。因此,我們選擇不一致的響應(yīng)作為訓(xùn)練集,使種子模型與本體對齊。為了評估不一致性,我們基于三種不同的度量標準計算混合相似度分數(shù):嵌入余弦相似度sim(·)、ROUGE-L和BLEU-4,計算公式為

打開網(wǎng)易新聞 查看精彩圖片

最終,我們選出一 致性分數(shù)最低的k條作為模型訓(xùn)練語料,包括監(jiān)督微調(diào)(SFT)語料 與直接偏好對齊(DPO)語料 。

大語言模型微調(diào)

基于上述構(gòu)建的訓(xùn)練集,我們使用三種微調(diào)方法得到與本體對齊后的大模型:監(jiān)督指令微調(diào)(SFT)、直接偏好優(yōu)化(DPO)和監(jiān)督指令微調(diào)結(jié)合直接偏好優(yōu)化(SFT+DPO)。其中,監(jiān)督指令微調(diào)結(jié)合直接偏好優(yōu)化方法參考現(xiàn)有開發(fā)領(lǐng)域大模型的訓(xùn)練流程,先對大模型進行監(jiān)督指令微調(diào),再采用直接偏好優(yōu)化。

三、實驗分析

在本文中,我們選擇醫(yī)療領(lǐng)域作為示例來評估我們方法的有效性,因為醫(yī)療領(lǐng)域受到廣泛關(guān)注,并且擁有豐富的評估數(shù)據(jù)集和基準。具體來說,我們采用了標準化的SNOMED CT 2024國際六月版本作為我們的本體源,其中包含367,978個醫(yī)學(xué)概念,其中只有8,275個具備相應(yīng)的定義,以及246,356個分類學(xué)關(guān)系(例如,“is-a”關(guān)系)。為了匹配現(xiàn)有領(lǐng)域特定LLM的訓(xùn)練規(guī)模,我們在每種語料類型中選擇 k = 100,000 個不一致的樣本進行訓(xùn)練。

領(lǐng)域本體推理

打開網(wǎng)易新聞 查看精彩圖片

如上表所示,OntoTune~sft~模型在醫(yī)療子集數(shù)據(jù)集上實現(xiàn)了最新的性能表現(xiàn),相較于初始模型LLaMA3提升了19.45%,相較于TaxoLLaMA提升了11.73%。雖然TaxoLLaMA使用了完整的SNOMED CT本體進行訓(xùn)練,但并未取得顯著的性能提升。此外,我們觀察到,基于大規(guī)模醫(yī)學(xué)語料訓(xùn)練的Aloe和Med42-v2表現(xiàn)出了明顯的性能提升。實驗結(jié)果表明,與TaxoLLaMA相比,OntoTune能夠更高效地將本體知識融入到LLMs中。值得注意的是,盡管我們的訓(xùn)練集不包含意大利語和西班牙語數(shù)據(jù),OntoTune~sft~在多語言環(huán)境中仍然實現(xiàn)了最先進的性能表現(xiàn),相較于初始模型有顯著提升。這表明我們的OntoTune能夠有效地將初始模型與本體知識對齊,甚至可以泛化到其他分類學(xué)場景。

醫(yī)學(xué)問答

打開網(wǎng)易新聞 查看精彩圖片

從上表結(jié)果可以觀察到,相較于其他基于LLaMA3 8B微調(diào)的模型變體,我們的三種OntoTune變體以及TaxoLLaMA方法均實現(xiàn)了顯著的性能提升。盡管在大規(guī)模原始語料上訓(xùn)練的LLMs在某些數(shù)據(jù)集上表現(xiàn)良好,但它們相較于初始模型的改進并不穩(wěn)定,且平均分數(shù)低于我們的OntoTune。這表明從大規(guī)模語料中學(xué)習(xí)存在一定的挑戰(zhàn)。這表明,即使是小規(guī)模但高質(zhì)量的本體,也有助于增強LLMs在特定領(lǐng)域的能力。

通用能力評估

打開網(wǎng)易新聞 查看精彩圖片

盡管我們的OntoTune在微調(diào)階段并未使用額外的通用指令,卻表現(xiàn)出了良好的性能。由于固定的輸入輸出格式以及缺乏數(shù)據(jù)多樣性,TaxoLLaMA遭受了最顯著的性能下降。與TaxoLLaMA相比,我們的OntoTune方法并未表現(xiàn)出明顯的災(zāi)難性遺忘。同樣地,OntoTune~sft~在三種變體中表現(xiàn)最好,相較于初始模型,平均僅下降0.49%。

自我訓(xùn)練分析

打開網(wǎng)易新聞 查看精彩圖片

旨在探索數(shù)據(jù)質(zhì)量對模型性能的影響,我們從兩個更強大的LLM(LLaMA 3.1 8B和deepseek-v2.5)中蒸餾出更高質(zhì)量的結(jié)果 。然后,我們在相同的超參數(shù)設(shè)置下,使用 對同一初始模型LLaMA3 8B進行訓(xùn)練。

上圖展示了三個OntoTune變體在領(lǐng)域問答任務(wù)與通用能力的結(jié)果。在大多數(shù)數(shù)據(jù)集中,所有三種OntoTune變體的性能都有所提升。其中,自監(jiān)督訓(xùn)練的OntoTune~sft~模型表現(xiàn)出穩(wěn)健且先進的性能,在所有數(shù)據(jù)集上都實現(xiàn)了提升??梢杂^察到,由同系列的LLaMA 3.1蒸餾出的OntoTune~sft~在知識問答數(shù)據(jù)集(如MMLU和TriviaQA)上的性能下降最小。有趣的是,盡管LLaMA 3.1在數(shù)據(jù)蒸餾過程中僅專注于醫(yī)學(xué)領(lǐng)域知識,該模型在推理挑戰(zhàn)數(shù)據(jù)集(如ARC)和安全性評估數(shù)據(jù)集(Advbench)上的表現(xiàn)也有所提升。

此外,從deepseek蒸餾出的OntoTune~sft~模型在知識與安全性評估中表現(xiàn)出顯著下降,但推理能力有明顯提升。總體而言,自監(jiān)督訓(xùn)練無需依賴更高級的LLM即可實現(xiàn)最為高效的領(lǐng)域?qū)R,同時極大程度地保留了原始知識。

四、總結(jié)

在本文中,我們提出了一種基于本體驅(qū)動的自訓(xùn)練微調(diào)框架 OntoTune。該框架利用上下文學(xué)習(xí)來識別種子模型尚未獲取的特定概念的本體知識,并通過自訓(xùn)練增強種子模型與本體的對齊能力。實驗結(jié)果表明,OntoTune 在本體內(nèi)的任務(wù)(如上位詞發(fā)現(xiàn)任務(wù))和本體外的任務(wù)(如醫(yī)學(xué)領(lǐng)域問答任務(wù))中均達到了最新的最先進性能,同時顯著保留了種子模型已有的知識。相比現(xiàn)有的基于大規(guī)模高質(zhì)量語料庫訓(xùn)練的領(lǐng)域大型語言模型(LLMs),OntoTune 僅依賴一個相對小規(guī)模、長期開發(fā)的本體及種子模型本身,展現(xiàn)出了更強的泛化能力。

作者:劉治強 來源:公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

打開網(wǎng)易新聞 查看精彩圖片

點擊右上角,把文章分享到朋友圈