本期為TechBeat人工智能社區(qū)第673期線上Talk。
北京時(shí)間4月2日(周三)20:00,曼徹斯特大學(xué)博士生曲星威的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!
他與大家分享的主題是:“CIF-Bench - 評估大模型中文指令泛化能力的基準(zhǔn)”,屆時(shí)他將揭示LLM處理中文任務(wù)的當(dāng)前瓶頸,并為未來泛化性研究設(shè)立了新標(biāo)準(zhǔn),推動(dòng)開發(fā)更具適應(yīng)性、文化感知力和語言多樣性的模型。
Talk·信息
主題:CIF-Bench - 評估大模型中文指令泛化能力的基準(zhǔn)
嘉賓:曼徹斯特大學(xué) · 博士生 - 曲星威
時(shí)間:北京時(shí)間4月2日(周三)20:00
地點(diǎn):TechBeat人工智能社區(qū)
http://www.techbeat.net/
Talk·介紹
大語言模型(LLMs)的進(jìn)步顯著提升了其在指令遵循任務(wù)中對未見過自然語言處理(NLP)任務(wù)的泛化能力。然而,在中文等低資源語言中,這種效能往往大幅降低,而數(shù)據(jù)泄露導(dǎo)致的評估偏差進(jìn)一步加劇了這一問題,使人們對其在新語言領(lǐng)域的真實(shí)泛化能力產(chǎn)生質(zhì)疑。
為此,我們提出了中文指令遵循基準(zhǔn)測試(CIF-Bench),旨在評估大語言模型對中文的零樣本泛化能力。CIF-Bench包含150項(xiàng)任務(wù)和15,000個(gè)輸入-輸出對,由母語者設(shè)計(jì),覆蓋20個(gè)類別以測試復(fù)雜推理能力及中國文化細(xì)節(jié)。為緩解數(shù)據(jù)污染問題,我們僅公開數(shù)據(jù)集的50%(其余作為私有集),并通過引入多樣化指令降低評分方差,總數(shù)據(jù)量達(dá)45,000條實(shí)例。對28個(gè)精選LLM的評估顯示,性能差距顯著,最優(yōu)模型(Qwen-72B)僅得52.9%,凸顯LLM在陌生語言和任務(wù)場景中的局限性。
這項(xiàng)工作不僅揭示了LLM處理中文任務(wù)的當(dāng)前瓶頸,還為未來泛化性研究設(shè)立了新標(biāo)準(zhǔn),推動(dòng)開發(fā)更具適應(yīng)性、文化感知力和語言多樣性的模型。
Talk大綱
1. 研究背景:中文指令數(shù)據(jù)集的重要性和基準(zhǔn)評測不足
2. 研究問題:LLMs對于中文指令的表現(xiàn)如何,是否存在偏見等問題
3. CIF-Bench 數(shù)據(jù)集簡介
4. CIF-Bench 數(shù)據(jù)集分類
5. CIF-Bench 數(shù)據(jù)集評估
Talk·預(yù)習(xí)資料

論文鏈接: https://arxiv.org/abs/2410.13109
Talk·提問交流
在Talk界面下的【交流區(qū)】參與互動(dòng)!留下你的打call和問題,和更多小伙伴們共同討論,被講者直接翻牌解答!

你的每一次貢獻(xiàn),我們都會(huì)給予你相應(yīng)的i豆積分,還會(huì)有驚喜獎(jiǎng)勵(lì)哦!
Talk·嘉賓介紹

曲星威???????????
曼徹斯特大學(xué) · 博士生???
曲星威是曼徹斯特大學(xué)(UoM)的博士生。其研究重點(diǎn)是理解和增強(qiáng)大語言模型(LLMs)的預(yù)訓(xùn)練和Benchmark,并在該領(lǐng)域做出了諸如MAP-NEO, MuPT 和 MAmmoTH 等貢獻(xiàn)。他的研究成果曾發(fā)表于ICLR, ACL, Coling 等頂級學(xué)術(shù)會(huì)議上
個(gè)人主頁: https://www.techbeat.net/grzytrkj?id=22013????
-The End-
如果你也想成為講者
自薦 / 推薦
單人Talk | 團(tuán)隊(duì)專場 | 錄播or直播 | 閉門交流
多種方式任你選擇!
推薦講者成功也有獎(jiǎng)勵(lì)哦~
關(guān)于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個(gè)薈聚全球華人AI精英的成長社區(qū)。
我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長。
期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級打怪的根據(jù)地!
更多詳細(xì)介紹>>
預(yù)約本期Talk
熱門跟貼