朋友們

都2025年了

還有很多人弄不清大模型里的一些基礎(chǔ)概念

到底什么是蒸餾什么預(yù)訓(xùn)練什么是token?

今天指北決定做一期

用動畫《哪吒之魔童鬧?!穪硪豢跉飧愣@些概念!

0

1

基座模型:

哪吒的原始魔丸之力

打開網(wǎng)易新聞 查看精彩圖片

魔丸是天生的混沌能量,強大但難以控制,如同基座模型擁有海量知識和通用能力,但直接使用可能產(chǎn)生不穩(wěn)定或不符合預(yù)期的結(jié)果。

它是哪吒能力的核心來源,類似基座模型通過預(yù)訓(xùn)練學(xué)習(xí)通用語言理解能力,但需要被“馴化”才能安全應(yīng)用。

02

智能體:

乾坤圈限制下的哪吒 + 太乙真人的法寶

打開網(wǎng)易新聞 查看精彩圖片

哪吒通過乾坤圈壓制魔性,智能體通過提示工程引導(dǎo)基座模型的輸出,或通過微調(diào)進一步約束其行為,并借助混天綾、火尖槍等法寶(對應(yīng)外部工具/API)實現(xiàn)具體目標(biāo)(如降妖、救人)。

智能體像哪吒一樣,在基座模型的基礎(chǔ)上,通過任務(wù)導(dǎo)向的優(yōu)化(如對抗天劫的使命)和工具擴展(如調(diào)用搜索引擎、代碼解釋器),成為能解決實際問題的“可控形態(tài)”。

03

預(yù)訓(xùn)練:

哪吒修煉基本功

打開網(wǎng)易新聞 查看精彩圖片

預(yù)訓(xùn)練是什么?

預(yù)訓(xùn)練就是讓AI大模型通過閱讀海量文本,掌握基礎(chǔ)的語言能力和世界知識。

大模型的預(yù)訓(xùn)練階段,就如同哪吒的童年修煉期。模型被“喂食”互聯(lián)網(wǎng)上的海量文本,從百科到小說,從科學(xué)論文到社交媒體帖子,應(yīng)有盡有。通過這個過程,模型逐漸掌握了:

語言結(jié)構(gòu):就像哪吒學(xué)會了基本的拳腳功夫

常識知識:相當(dāng)于哪吒了解了人間的風(fēng)俗人情

推理能力:好比哪吒學(xué)會了如何在戰(zhàn)斗中臨機應(yīng)變

預(yù)訓(xùn)練結(jié)束后的大模型,就如同初步修煉成功的哪吒,有了基礎(chǔ)能力,但還需要進一步的“微調(diào)”才能適應(yīng)特定任務(wù)。

0

4

微調(diào)(Fine-tuning):

哪吒大戰(zhàn)某妖族前的專項訓(xùn)練

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)哪吒需要對抗龍王時,他會針對性地強化與水有關(guān)的法術(shù),這就像大模型的微調(diào)過程。

微調(diào)是在預(yù)訓(xùn)練基礎(chǔ)上,使用特定領(lǐng)域的數(shù)據(jù)進一步訓(xùn)練模型,使其在特定任務(wù)上表現(xiàn)更好。

比如,一個通用大模型經(jīng)過醫(yī)學(xué)數(shù)據(jù)微調(diào)后,會在醫(yī)療問答上表現(xiàn)更出色。

就像哪吒在與龍族對抗前,會更專注練習(xí)水下作戰(zhàn)技能。

05

人工監(jiān)督強化學(xué)習(xí) (RLHF):

如同太乙真人指導(dǎo)哪吒駕馭混元珠的力量

打開網(wǎng)易新聞 查看精彩圖片

人工監(jiān)督強化學(xué)習(xí),就像哪吒需要在太乙真人的指導(dǎo)下學(xué)會控制體內(nèi)混元珠的力量。哪吒初生時具有強大但難以控制的能力,這就像大模型在預(yù)訓(xùn)練后擁有龐大知識但缺乏對齊。

太乙真人給哪吒施加乾坤圈和混天綾,通過獎懲機制引導(dǎo)他的行為。這就像RLHF流程中,人類標(biāo)注者對模型輸出進行評估,建立獎勵模型來指導(dǎo)AI“什么是好的回答”。

當(dāng)哪吒在鬧海宮犯下錯誤后,太乙真人不僅懲罰他,還教導(dǎo)他正確的力量運用方法。類似地,RLHF不只是懲罰模型的不良輸出,還通過強化學(xué)習(xí)算法引導(dǎo)模型產(chǎn)生更符合人類期望的回應(yīng)。

06

Token:

如同陳塘關(guān)的磚瓦與木材

打開網(wǎng)易新聞 查看精彩圖片

Token是什么?Token是大模型處理文本的最小單位,類似于語言的“積木”。模型不理解整句話,而是將文本拆分成這些基本單位來處理。

陳塘關(guān)的建筑材料:想象陳塘關(guān)是用無數(shù)磚瓦、木材等基礎(chǔ)材料搭建起來的。一塊磚看似簡單,但它是構(gòu)成整個城墻的基礎(chǔ);一根木梁不起眼,卻是支撐房屋的關(guān)鍵。同樣,Token就是構(gòu)建語言世界的基礎(chǔ)材料。

當(dāng)你輸入“哪吒鬧海”這個短語時,模型會將它分解成更小的單位。在中文中,可能是單個字符;在英文中,可能是單詞或單詞的一部分。比如"playing"可能被分解為"play"和"ing"兩個Token。

每個大模型都有Token上限,就像陳塘關(guān)的城墻只能用有限數(shù)量的磚塊建造。常見的大模型一次能處理幾千到幾萬個Token,超過這個數(shù)量,前面的內(nèi)容就會被“遺忘”。

07

涌現(xiàn)能力(Emergent Abilities):

如同哪吒的突破修為

打開網(wǎng)易新聞 查看精彩圖片

哪吒經(jīng)過不斷修煉,某一天突然頓悟,獲得了遠(yuǎn)超以往的能力,這就像大模型的涌現(xiàn)能力——當(dāng)模型規(guī)模達(dá)到某個臨界點時,突然展現(xiàn)出之前從未明確訓(xùn)練過的新能力。

例如,GPT-3在達(dá)到一定規(guī)模后,突然能夠進行少樣本學(xué)習(xí)和元學(xué)習(xí),而這些能力在小規(guī)模模型中幾乎不存在。這種質(zhì)變讓研究人員感到驚訝,因為這些能力并非刻意訓(xùn)練的結(jié)果,而是隨著規(guī)模增長自然“涌現(xiàn)”的。

就像哪吒在度過某個瓶頸期后,不僅法力增強,還領(lǐng)悟了全新的神通,是量變引發(fā)的質(zhì)變。

08

數(shù)據(jù)蒸餾(Knowledge Distillation):

哪吒獲得李靖和太乙真人的精華傳承

打開網(wǎng)易新聞 查看精彩圖片

數(shù)據(jù)蒸餾是將大型復(fù)雜模型(教師模型)的知識轉(zhuǎn)移到更小、更高效模型(學(xué)生模型)的過程。這就像哪吒從父親李靖和師父太乙真人那里獲得精華傳承,但以更為精簡的方式。

太乙真人可能修煉數(shù)千年積累了海量道法,但他不會把全部都教給哪吒,而是提煉出精華,傳授給哪吒最有用、最精華的部分。同樣,數(shù)據(jù)蒸餾也是將大模型的“智慧”提煉后傳給小模型。

數(shù)據(jù)蒸餾的優(yōu)勢在于,學(xué)生模型雖然規(guī)模小、參數(shù)少,但能夠獲得接近教師模型的性能,同時計算效率更高。就像哪吒雖然年齡小、修為尚淺,但通過獲取精華傳承,能夠發(fā)揮出與成年修士相比擬的戰(zhàn)力。

09

引用幻覺(Citation Hallucination):

如同哪吒的虛構(gòu)戰(zhàn)績

打開網(wǎng)易新聞 查看精彩圖片

有時哪吒可能會夸大自己的戰(zhàn)績,聲稱“我曾用乾坤圈打敗過東海龍王三太子”,即使根本沒發(fā)生過。大模型也存在類似行為,它們會生成看似可信的引用和來源,但實際上這些引用可能是編造的。

例如,模型可能會引用“《人工智能研究前沿》(2023)中Smith等人的研究表明...”,但實際上這篇論文可能根本不存在。這種特定類型的幻覺被稱為引用幻覺,是大模型的一個常見問題。

與哪吒虛構(gòu)戰(zhàn)績一樣,這些編造的引用看起來很專業(yè),很容易誤導(dǎo)用戶相信其真實性。

10

上下文窗口(Context Window):

如同哪吒的視界范圍

打開網(wǎng)易新聞 查看精彩圖片

哪吒在戰(zhàn)斗時,能夠感知的范圍有限,超出視界范圍的敵人或事物他就無法察覺與應(yīng)對。大模型的上下文窗口就像哪吒的視界范圍,決定了一次能“看到”多少內(nèi)容。

早期模型如GPT-3的上下文窗口只有4K tokens,就像哪吒初期法力有限,只能觀察到附近的敵情。而現(xiàn)代模型擁有更長的上下文窗口,就如同修為大增后的哪吒,能夠俯瞰整個東海龍宮了。

當(dāng)我們與大模型對話太長,超出上下文窗口,模型就會“遺忘”早期的對話內(nèi)容,就像哪吒在長時間激烈戰(zhàn)斗后,可能會忘記戰(zhàn)斗初期的細(xì)節(jié)。

前面的還是有看不懂的沒有關(guān)系,

這里有個更簡單的版本——

大模型的成長歷程就像是哪吒的修煉之路,

從預(yù)訓(xùn)練獲得基礎(chǔ)能力形成基座模型,就像哪吒體內(nèi)的原始魔丸之力;

通過微調(diào)適應(yīng)特定領(lǐng)域,猶如哪吒針對性修煉;

RLHF如太乙真人的指導(dǎo),教會模型產(chǎn)生符合人類期望的回應(yīng);

當(dāng)達(dá)到臨界點,產(chǎn)生涌現(xiàn)能力,宛如哪吒突破修為;

數(shù)據(jù)蒸餾則將大模型知識傳給小模型,如同傳授精華道法;

模型受上下文窗口限制處理信息,類似哪吒的視界范圍;

最終通過約束與工具擴展,成為能解決實際問題的智能體,

如同被乾坤圈限制且配備法寶的哪吒。

從混沌能量到可控戰(zhàn)力,大模型就像哪吒一樣,煉成出來鬧海了!

報名開啟|西二旗指北x扣子邀你參與扣子 AI 工坊硬件場四城聯(lián)動!

活動時間:2025年3月22日14:00-17:00

活動地點:北京、深圳、杭州、成都

更多硬件: AI + 開發(fā)板、音響、魚缸、攝像頭、玩具、天文望遠(yuǎn)鏡...AI 硬件最佳實踐分享來啦!

更多插件 & 模型:DeepSeek 等各種模型,音樂助手等最新插件,匹配更多真實場景!

更大范圍:10+硬件合作伙伴、AI/硬件社區(qū)、800+AI 開發(fā)者,在實驗室體驗硬件全鏈路開發(fā)過程、最新 AI 硬件成果展示交流!

掃描下面二維碼進行活動報名,現(xiàn)場還有機械鍵盤、最新 AI 硬件、扣子周邊等獎品等你拿!

(大家記得在對應(yīng)的第14題處填寫“西二旗指北”,可以優(yōu)先通過,更方便我們在線下對你進行服務(wù)~)

另外,

西二旗指北社群

今天新建了一個AI硬件交流

里面都是AI行業(yè)大佬和從業(yè)者

快進來討論!

掃碼發(fā)送關(guān)鍵詞:AI硬件

小助手馬上拉你入群!

本文系“西二旗生活指北”原創(chuàng)

轉(zhuǎn)載請標(biāo)明出處

部分內(nèi)容由AI生成

制作:編輯部

微博:西二旗生活指北