知識(shí)圖譜(KG,Knowledge Graph)是一種關(guān)鍵的知識(shí)組織形式,其以圖結(jié)構(gòu)將事實(shí)知識(shí)呈現(xiàn)為(頭實(shí)體、關(guān)系、尾實(shí)體)的三元組(triple)形式。
這種結(jié)構(gòu)化的知識(shí)表達(dá)方式在眾多領(lǐng)域發(fā)揮著基礎(chǔ)性的支撐作用,并廣泛應(yīng)用于推薦系統(tǒng)、問答系統(tǒng)和情感分析等下游應(yīng)用中。
然而,盡管主流知識(shí)圖譜如 Freebase 和 Wordnet 包含了豐富的知識(shí),但仍然存在嚴(yán)重的不完整問題。這意味著在這些知識(shí)圖譜中,實(shí)體之間缺少大量的關(guān)系連接,導(dǎo)致知識(shí)圖譜無法全面、準(zhǔn)確地反映真實(shí)世界的知識(shí)。
例如,在描述人物關(guān)系時(shí),可能存在某些人物之間的關(guān)聯(lián)關(guān)系未被記錄;在描述事件時(shí),可能缺少關(guān)鍵的參與實(shí)體或事件發(fā)生的背景信息等。這種不完整性嚴(yán)重限制了知識(shí)圖譜在上述下游應(yīng)用中的性能和效果,凸顯了知識(shí)圖譜補(bǔ)全(KGC,Knowledge Graph Completion)任務(wù)的重要性。
已有的解決方案大多通過預(yù)設(shè)的幾何空間假設(shè)學(xué)習(xí)實(shí)體和關(guān)系的低維嵌入,并通過定義好的打分函數(shù)進(jìn)行補(bǔ)全。這類方案僅依賴知識(shí)圖譜中的三元組,忽略了支持這些三元組的上下文語義,容易得出與事實(shí)不符的結(jié)論,且在處理長尾實(shí)體時(shí)表現(xiàn)不佳。
近年來基于文本的方法,利用預(yù)訓(xùn)練語言模型將實(shí)體和關(guān)系與其標(biāo)簽和描述進(jìn)行編碼。由于結(jié)構(gòu)化的三元組與自然語言句子之間存在較大語義差距,其性能仍無法超越最新的基于嵌入的方法。
最近兩年的研究表明,大語言模型較強(qiáng)的語義理解能力和上下文學(xué)習(xí)能力可以被利用于解決較為復(fù)雜的推理問題。
香港中文大學(xué)博士生李木之和香港科技大學(xué)(廣州)博士生楊策皓認(rèn)為,通過提供相關(guān)的知識(shí)和恰當(dāng)監(jiān)督,可以激發(fā)大語言模型的推理能力,更好地解決知識(shí)圖譜補(bǔ)全問題。


基于此,他們研發(fā)出一種名為 KGR3 的 KGC 框架,具體包括如下三個(gè)模塊。
檢索模塊:負(fù)責(zé)收集與待補(bǔ)全三元組相關(guān)的語義和結(jié)構(gòu)化知識(shí)。這包括:
1)三元組檢索:從知識(shí)圖譜中獲取與查詢?nèi)M具有相同關(guān)系和相似實(shí)體的一些三元組);
2)文本上下文檢索,從知識(shí)庫中提取查詢?nèi)M及支持三元組中實(shí)體的相關(guān)上下文,如標(biāo)簽、描述、別名等);
3)候選答案檢索(利用先前的 KGC 模型對(duì)知識(shí)圖譜中的實(shí)體進(jìn)行初步評(píng)分和排名,選取排名靠前的實(shí)體作為候選答案)。
推理模塊:利用大語言模型的上下文感知推理能力,為具體的不完整三元組生成一些可能的答案。為了引導(dǎo)大語言模型更好地完成任務(wù),他們利用演示提取出的相似三元組幫助大語言模型理解任務(wù),并提供了實(shí)體的描述來防止幻覺現(xiàn)象的產(chǎn)生。考慮到大語言模型輸出的噪聲問題,他們會(huì)對(duì)生成的答案做對(duì)齊,確保輸出的實(shí)體在知識(shí)圖譜中真實(shí)存在。
重排序模塊:整合并重排上述兩個(gè)模塊的候選答案,使?jié)M足不完整三元組的最佳實(shí)體排在較前位置。在這個(gè)模塊中,他們通過對(duì)訓(xùn)練集中的三元組頭尾實(shí)體進(jìn)行負(fù)采樣來候選答案集,并引入監(jiān)督微調(diào)機(jī)制,使大語言模型擁有能夠根據(jù)實(shí)體描述和已知實(shí)體的鄰接三元組從答案集中選擇最佳實(shí)體的能力。
實(shí)驗(yàn)結(jié)果表明,在文本語義信息、圖譜結(jié)構(gòu)化知識(shí)、以及監(jiān)督微調(diào)的多重指導(dǎo)下,即使是參數(shù)量較?。?.5B 和 7B)的開源大模型,都有能力很好地解決知識(shí)圖譜的補(bǔ)全問題。

據(jù)介紹,KGR3 可被用于推薦系統(tǒng)、信息檢索等領(lǐng)域。例如,KGR3 通過補(bǔ)全知識(shí)圖譜中的用戶和物品關(guān)系,推薦系統(tǒng)可以發(fā)現(xiàn)用戶潛在的興趣點(diǎn),提供更個(gè)性化、符合用戶需求的推薦內(nèi)容。
在電商平臺(tái)上,能根據(jù)知識(shí)圖譜中的 KGR3 補(bǔ)全的相關(guān)實(shí)體關(guān)系(如品牌關(guān)聯(lián)、產(chǎn)品功能互補(bǔ)等)推薦搭配產(chǎn)品或相關(guān)服務(wù),基于用戶購買歷史推薦相似產(chǎn)品,提升推薦的質(zhì)量和效果。
在社交網(wǎng)絡(luò)平臺(tái)的好友推薦或內(nèi)容推薦中,利用 KGR3 補(bǔ)全后的知識(shí)圖譜挖掘用戶之間更深層次的聯(lián)系,以及用戶可能感興趣的話題或群組,增強(qiáng)用戶在平臺(tái)上的互動(dòng)和參與度。
據(jù)了解,李木之在粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA,International Digital Economy Academy)訪問期間,在郭健教授和徐鋮晉博士的指導(dǎo)下,他與博士生楊策皓組成團(tuán)隊(duì),將語境知識(shí)圖譜作為研究課題。
團(tuán)隊(duì)察覺到現(xiàn)有 KGC 方法的不足,尤其是嵌入法和文本法在處理語義理解和長尾實(shí)體時(shí)的局限,而大語言模型雖有潛力但應(yīng)用受限。
因此,他們決定嘗試探索一種新的解決方案,把圖譜中可以獲取到的知識(shí)整合起來,看是否可以大語言模型學(xué)會(huì)做這樣的任務(wù)。經(jīng)過初步嘗試,他們開發(fā)出了 KGR3 框架的雛形,包含檢索、推理和重排序三個(gè)模塊,并初步驗(yàn)證了可行性。
在驗(yàn)證方案可行之后,他們快速進(jìn)行了實(shí)驗(yàn),并首次提交了論文。然而結(jié)果不盡人意,評(píng)審分?jǐn)?shù)未達(dá)預(yù)期。審稿人指出,盡管框架的設(shè)計(jì)有一定創(chuàng)新性,但在性能表現(xiàn)上仍有明顯不足,使用了參數(shù)量更多,能力更大的大語言模型,卻未能顯著超過傳統(tǒng)方法,缺乏足夠的說服力。
這一挫折讓他們意識(shí)到,研究仍需深入,必須找到提升框架性能的有效途徑。
他們仔細(xì)查看了審稿意見,分析實(shí)驗(yàn)數(shù)據(jù),發(fā)現(xiàn)原本的重排序方案是整個(gè)框架的瓶頸。在前序方案中,他們嘗試讓大語言模型去生成候選實(shí)體的完整排序。然而,在知識(shí)圖譜中并沒有具體排序的監(jiān)督數(shù)據(jù)。
于是,他們選擇利用已有 KGC 模型輸出的排序來微調(diào)大語言模型,這無益于解決已有方案的缺陷。在閱讀關(guān)于大語言模型的其他文獻(xiàn)后,他們認(rèn)為輸出完整排序?qū)嵸|(zhì)上增加了任務(wù)難度。
相較于在實(shí)體間“比大小”,大語言模型更擅長做“選擇題”,因此他們轉(zhuǎn)換到了現(xiàn)在的方案。同時(shí),他們意識(shí)到需要在寫作方面強(qiáng)化研究目的。
在新一版論文中,他們更清晰地闡述 KGR3 框架如何有效利用實(shí)體上下文和大語言模型的能力,以及各模塊間的協(xié)同工作原理。
此外,他們補(bǔ)充了更多對(duì)比實(shí)驗(yàn),以全面展示 KGR3 在不同數(shù)據(jù)集、不同基準(zhǔn) KGC 模型、以及不同規(guī)模和種類的大語言模型下的優(yōu)勢(shì),增強(qiáng)研究的說服力。
再次提交論文之后,這一次論文得到了審稿人的一致性高度認(rèn)可,評(píng)審分?jǐn)?shù)大幅提升。審稿人對(duì) KGR3 框架在性能上的顯著提升給予了充分肯定,尤其贊賞其在處理復(fù)雜知識(shí)圖譜補(bǔ)全任務(wù)時(shí)的有效性和創(chuàng)新性。
日前,相關(guān)論文以《檢索、推理、重新排序:知識(shí)圖譜補(bǔ)全的語境增強(qiáng)框架》(Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion)在預(yù)印本網(wǎng)站arXiv發(fā)表[1],并已被自然語言處理頂會(huì) NAACL 2025 主會(huì)收錄。

未來,團(tuán)隊(duì)計(jì)劃將 KGR3 范式延伸至其他知識(shí)圖譜推理任務(wù),如歸納式知識(shí)圖譜補(bǔ)全和基于知識(shí)的問答。
在當(dāng)前研究中,KGR3 框架已在傳統(tǒng)的知識(shí)圖譜補(bǔ)全任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),但對(duì)于未在訓(xùn)練集中出現(xiàn)的實(shí)體(即歸納式設(shè)置下的情況),該框架尚無法有效處理。后續(xù),團(tuán)隊(duì)將著力解決這一問題,使 KGR3 能夠應(yīng)對(duì)更復(fù)雜、更具挑戰(zhàn)性的實(shí)際場(chǎng)景。
例如,在實(shí)際應(yīng)用中,新的實(shí)體和關(guān)系不斷涌現(xiàn),能夠處理歸納式 KGC 任務(wù)將大大提升知識(shí)圖譜的完整性和實(shí)用性。
此外,研究人員還計(jì)劃將 KGR3 框架應(yīng)用于知識(shí)圖譜問答,從問題理解、知識(shí)檢索、答案生成和優(yōu)化等多個(gè)環(huán)節(jié)入手,充分發(fā)揮其在處理知識(shí)圖譜和文本信息方面的優(yōu)勢(shì),為用戶提供準(zhǔn)確、有用的答案,進(jìn)而將語境知識(shí)圖譜概念進(jìn)一步延伸。
參考資料:
1.https://arxiv.org/pdf/2411.08165
排版:劉雅坤
熱門跟貼