
本期為TechBeat人工智能社區(qū)第669期線上Talk。
北京時間3月19日(周三)20:00,中國科學(xué)院大學(xué)博士生伍星的Talk將準(zhǔn)時在TechBeat人工智能社區(qū)開播!
他與大家分享的主題是:“構(gòu)建可擴展的長文本大模型訓(xùn)練數(shù)據(jù)”,屆時他將介紹Quest和NExtLong這兩種前沿長文本數(shù)據(jù)合成方法。
Talk·信息
主題:構(gòu)建可擴展的長文本大模型訓(xùn)練數(shù)據(jù)
嘉賓:中國科學(xué)院大學(xué) · 博士生 - 伍星
時間:北京時間3月19日(周三)20:00
地點:TechBeat人工智能社區(qū)
http://www.techbeat.net/
Talk·介紹
長文本大模型的重要性日益凸顯,但高質(zhì)量長文本數(shù)據(jù)稀缺且分布不均,成為制約模型訓(xùn)練效果的瓶頸。本次報告將介紹兩種前沿長文本數(shù)據(jù)合成方法: Quest方法以查詢?yōu)橹行?,將相關(guān)且冗 余度低的文檔聚合成長上下文; NExtLong方法通過負(fù)例文檔擴展,增強模型對長距離依賴的建模能力。
實驗結(jié)果 表明,兩種方法在長文本基準(zhǔn)測試中均取得顯著成果,為構(gòu)建更強大的長文本大模型提供了有效途徑。
Talk大綱
1. 背景 - 長文本模型因其在復(fù)雜任務(wù)中的優(yōu)越表現(xiàn)而備受關(guān)注,但高質(zhì)量的長文本數(shù)據(jù)仍然稀缺。
2. 動機與問題 - 傳統(tǒng)方法在處理長文本時面臨數(shù)據(jù)分布傾斜、缺乏長距離依賴機制以及容易受到無關(guān)信息干擾等問題。
3. 解決方案:
(1)Quest通過模擬搜索引擎的方式,以查詢?yōu)橹行木酆舷嚓P(guān)文檔,從而合成長文本數(shù)據(jù)。
(2)NExtLong則受對比學(xué)習(xí)啟發(fā),通過引入困難負(fù)樣本來擴展長文本,從而增強模型對長距離依賴關(guān)系的建模能力。
4.總結(jié)
Talk·預(yù)習(xí)資料

論文鏈接: https://arxiv.org/abs/2405.19846

論文鏈接: https://arxiv.org/abs/2501.12766
Talk·提問交流
在Talk界面下的【交流區(qū)】參與互動!留下你的打call和問題,和更多小伙伴們共同討論,被講者直接翻牌解答!

你的每一次貢獻,我們都會給予你相應(yīng)的i豆積分,還會有驚喜獎勵哦!
Talk·嘉賓介紹

伍星???????????
中國科學(xué)院大學(xué) · 博士生???
伍星,小紅書大模型算法研究員,研究方向為長文本擴展 & 代碼推理。博士就讀于中國科學(xué)院信息工程研究所,導(dǎo)師為虎嵩林研究員。
個人主頁: https://www.techbeat.net/grzytrkj?id=1512????
-The End-
如果你也想成為講者
自薦 / 推薦
單人Talk | 團隊專場 | 錄播or直播 | 閉門交流
多種方式任你選擇!
推薦講者成功也有獎勵哦~
關(guān)于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個薈聚全球華人AI精英的成長社區(qū)。
我們希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其學(xué)習(xí)成長。
期待這里可以成為你學(xué)習(xí)AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據(jù)地!
更多詳細(xì)介紹>>
預(yù)約本期Talk
熱門跟貼