本期為TechBeat人工智能社區(qū)673線上Talk。

北京時(shí)間4月2日(周三)20:00,曼徹斯特大學(xué)博士生曲星威的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!

他與大家分享的主題是:“CIF-Bench - 評估大模型中文指令泛化能力的基準(zhǔn)”,屆時(shí)他將揭示LLM處理中文任務(wù)的當(dāng)前瓶頸,并為未來泛化性研究設(shè)立了新標(biāo)準(zhǔn),推動(dòng)開發(fā)更具適應(yīng)性、文化感知力和語言多樣性的模型。

Talk·信息

主題:CIF-Bench - 評估大模型中文指令泛化能力的基準(zhǔn)

嘉賓:曼徹斯特大學(xué) · 博士生 - 曲星威

時(shí)間:北京時(shí)間4月2日(周三)20:00

地點(diǎn):TechBeat人工智能社區(qū)

http://www.techbeat.net/

Talk·介紹

大語言模型(LLMs)的進(jìn)步顯著提升了其在指令遵循任務(wù)中對未見過自然語言處理(NLP)任務(wù)的泛化能力。然而,在中文等低資源語言中,這種效能往往大幅降低,而數(shù)據(jù)泄露導(dǎo)致的評估偏差進(jìn)一步加劇了這一問題,使人們對其在新語言領(lǐng)域的真實(shí)泛化能力產(chǎn)生質(zhì)疑。

為此,我們提出了中文指令遵循基準(zhǔn)測試(CIF-Bench),旨在評估大語言模型對中文的零樣本泛化能力。CIF-Bench包含150項(xiàng)任務(wù)和15,000個(gè)輸入-輸出對,由母語者設(shè)計(jì),覆蓋20個(gè)類別以測試復(fù)雜推理能力及中國文化細(xì)節(jié)。為緩解數(shù)據(jù)污染問題,我們僅公開數(shù)據(jù)集的50%(其余作為私有集),并通過引入多樣化指令降低評分方差,總數(shù)據(jù)量達(dá)45,000條實(shí)例。對28個(gè)精選LLM的評估顯示,性能差距顯著,最優(yōu)模型(Qwen-72B)僅得52.9%,凸顯LLM在陌生語言和任務(wù)場景中的局限性。

這項(xiàng)工作不僅揭示了LLM處理中文任務(wù)的當(dāng)前瓶頸,還為未來泛化性研究設(shè)立了新標(biāo)準(zhǔn),推動(dòng)開發(fā)更具適應(yīng)性、文化感知力和語言多樣性的模型。

Talk大綱

1. 研究背景:中文指令數(shù)據(jù)集的重要性和基準(zhǔn)評測不足

2. 研究問題:LLMs對于中文指令的表現(xiàn)如何,是否存在偏見等問題

3. CIF-Bench 數(shù)據(jù)集簡介

4. CIF-Bench 數(shù)據(jù)集分類

5. CIF-Bench 數(shù)據(jù)集評估

Talk·預(yù)習(xí)資料

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接: https://arxiv.org/abs/2410.13109


Talk·提問交流

在Talk界面下的【交流區(qū)】參與互動(dòng)!留下你的打call和問題,和更多小伙伴們共同討論,被講者直接翻牌解答!

打開網(wǎng)易新聞 查看精彩圖片

你的每一次貢獻(xiàn),我們都會(huì)給予你相應(yīng)的i豆積分,還會(huì)有驚喜獎(jiǎng)勵(lì)哦!

Talk·嘉賓介紹

打開網(wǎng)易新聞 查看精彩圖片

曲星威???????????

曼徹斯特大學(xué) · 博士生???

曲星威是曼徹斯特大學(xué)(UoM)的博士生。其研究重點(diǎn)是理解和增強(qiáng)大語言模型(LLMs)的預(yù)訓(xùn)練和Benchmark,并在該領(lǐng)域做出了諸如MAP-NEO, MuPT 和 MAmmoTH 等貢獻(xiàn)。他的研究成果曾發(fā)表于ICLR, ACL, Coling 等頂級學(xué)術(shù)會(huì)議上

個(gè)人主頁: https://www.techbeat.net/grzytrkj?id=22013????

-The End-

打開網(wǎng)易新聞 查看精彩圖片

如果你也想成為講者

自薦 / 推薦

單人Talk | 團(tuán)隊(duì)專場 | 錄播or直播 | 閉門交流

多種方式任你選擇!

推薦講者成功也有獎(jiǎng)勵(lì)哦~

關(guān)于TechBeat人工智能社區(qū)

TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個(gè)薈聚全球華人AI精英的成長社區(qū)。

我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長。

期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級打怪的根據(jù)地!

更多詳細(xì)介紹>>

預(yù)約本期Talk