朋友們
都2025年了
還有很多人弄不清大模型里的一些基礎(chǔ)概念
到底什么是蒸餾什么預(yù)訓(xùn)練什么是token?
今天指北決定做一期
用動畫《哪吒之魔童鬧?!穪硪豢跉飧愣@些概念!
0
1
基座模型:
哪吒的原始魔丸之力

魔丸是天生的混沌能量,強大但難以控制,如同基座模型擁有海量知識和通用能力,但直接使用可能產(chǎn)生不穩(wěn)定或不符合預(yù)期的結(jié)果。
它是哪吒能力的核心來源,類似基座模型通過預(yù)訓(xùn)練學(xué)習(xí)通用語言理解能力,但需要被“馴化”才能安全應(yīng)用。
02
智能體:
乾坤圈限制下的哪吒 + 太乙真人的法寶

哪吒通過乾坤圈壓制魔性,智能體通過提示工程引導(dǎo)基座模型的輸出,或通過微調(diào)進一步約束其行為,并借助混天綾、火尖槍等法寶(對應(yīng)外部工具/API)實現(xiàn)具體目標(biāo)(如降妖、救人)。
智能體像哪吒一樣,在基座模型的基礎(chǔ)上,通過任務(wù)導(dǎo)向的優(yōu)化(如對抗天劫的使命)和工具擴展(如調(diào)用搜索引擎、代碼解釋器),成為能解決實際問題的“可控形態(tài)”。
03
預(yù)訓(xùn)練:
哪吒修煉基本功

預(yù)訓(xùn)練是什么?
預(yù)訓(xùn)練就是讓AI大模型通過閱讀海量文本,掌握基礎(chǔ)的語言能力和世界知識。
大模型的預(yù)訓(xùn)練階段,就如同哪吒的童年修煉期。模型被“喂食”互聯(lián)網(wǎng)上的海量文本,從百科到小說,從科學(xué)論文到社交媒體帖子,應(yīng)有盡有。通過這個過程,模型逐漸掌握了:
語言結(jié)構(gòu):就像哪吒學(xué)會了基本的拳腳功夫
常識知識:相當(dāng)于哪吒了解了人間的風(fēng)俗人情
推理能力:好比哪吒學(xué)會了如何在戰(zhàn)斗中臨機應(yīng)變
預(yù)訓(xùn)練結(jié)束后的大模型,就如同初步修煉成功的哪吒,有了基礎(chǔ)能力,但還需要進一步的“微調(diào)”才能適應(yīng)特定任務(wù)。
0
4
微調(diào)(Fine-tuning):
哪吒大戰(zhàn)某妖族前的專項訓(xùn)練

當(dāng)哪吒需要對抗龍王時,他會針對性地強化與水有關(guān)的法術(shù),這就像大模型的微調(diào)過程。
微調(diào)是在預(yù)訓(xùn)練基礎(chǔ)上,使用特定領(lǐng)域的數(shù)據(jù)進一步訓(xùn)練模型,使其在特定任務(wù)上表現(xiàn)更好。
比如,一個通用大模型經(jīng)過醫(yī)學(xué)數(shù)據(jù)微調(diào)后,會在醫(yī)療問答上表現(xiàn)更出色。
就像哪吒在與龍族對抗前,會更專注練習(xí)水下作戰(zhàn)技能。
05
人工監(jiān)督強化學(xué)習(xí) (RLHF):
如同太乙真人指導(dǎo)哪吒駕馭混元珠的力量

人工監(jiān)督強化學(xué)習(xí),就像哪吒需要在太乙真人的指導(dǎo)下學(xué)會控制體內(nèi)混元珠的力量。哪吒初生時具有強大但難以控制的能力,這就像大模型在預(yù)訓(xùn)練后擁有龐大知識但缺乏對齊。
太乙真人給哪吒施加乾坤圈和混天綾,通過獎懲機制引導(dǎo)他的行為。這就像RLHF流程中,人類標(biāo)注者對模型輸出進行評估,建立獎勵模型來指導(dǎo)AI“什么是好的回答”。
當(dāng)哪吒在鬧海宮犯下錯誤后,太乙真人不僅懲罰他,還教導(dǎo)他正確的力量運用方法。類似地,RLHF不只是懲罰模型的不良輸出,還通過強化學(xué)習(xí)算法引導(dǎo)模型產(chǎn)生更符合人類期望的回應(yīng)。
06
Token:
如同陳塘關(guān)的磚瓦與木材

Token是什么?Token是大模型處理文本的最小單位,類似于語言的“積木”。模型不理解整句話,而是將文本拆分成這些基本單位來處理。
陳塘關(guān)的建筑材料:想象陳塘關(guān)是用無數(shù)磚瓦、木材等基礎(chǔ)材料搭建起來的。一塊磚看似簡單,但它是構(gòu)成整個城墻的基礎(chǔ);一根木梁不起眼,卻是支撐房屋的關(guān)鍵。同樣,Token就是構(gòu)建語言世界的基礎(chǔ)材料。
當(dāng)你輸入“哪吒鬧海”這個短語時,模型會將它分解成更小的單位。在中文中,可能是單個字符;在英文中,可能是單詞或單詞的一部分。比如"playing"可能被分解為"play"和"ing"兩個Token。
每個大模型都有Token上限,就像陳塘關(guān)的城墻只能用有限數(shù)量的磚塊建造。常見的大模型一次能處理幾千到幾萬個Token,超過這個數(shù)量,前面的內(nèi)容就會被“遺忘”。
07
涌現(xiàn)能力(Emergent Abilities):
如同哪吒的突破修為

哪吒經(jīng)過不斷修煉,某一天突然頓悟,獲得了遠(yuǎn)超以往的能力,這就像大模型的涌現(xiàn)能力——當(dāng)模型規(guī)模達(dá)到某個臨界點時,突然展現(xiàn)出之前從未明確訓(xùn)練過的新能力。
例如,GPT-3在達(dá)到一定規(guī)模后,突然能夠進行少樣本學(xué)習(xí)和元學(xué)習(xí),而這些能力在小規(guī)模模型中幾乎不存在。這種質(zhì)變讓研究人員感到驚訝,因為這些能力并非刻意訓(xùn)練的結(jié)果,而是隨著規(guī)模增長自然“涌現(xiàn)”的。
就像哪吒在度過某個瓶頸期后,不僅法力增強,還領(lǐng)悟了全新的神通,是量變引發(fā)的質(zhì)變。
08
數(shù)據(jù)蒸餾(Knowledge Distillation):
哪吒獲得李靖和太乙真人的精華傳承

數(shù)據(jù)蒸餾是將大型復(fù)雜模型(教師模型)的知識轉(zhuǎn)移到更小、更高效模型(學(xué)生模型)的過程。這就像哪吒從父親李靖和師父太乙真人那里獲得精華傳承,但以更為精簡的方式。
太乙真人可能修煉數(shù)千年積累了海量道法,但他不會把全部都教給哪吒,而是提煉出精華,傳授給哪吒最有用、最精華的部分。同樣,數(shù)據(jù)蒸餾也是將大模型的“智慧”提煉后傳給小模型。
數(shù)據(jù)蒸餾的優(yōu)勢在于,學(xué)生模型雖然規(guī)模小、參數(shù)少,但能夠獲得接近教師模型的性能,同時計算效率更高。就像哪吒雖然年齡小、修為尚淺,但通過獲取精華傳承,能夠發(fā)揮出與成年修士相比擬的戰(zhàn)力。
09
引用幻覺(Citation Hallucination):
如同哪吒的虛構(gòu)戰(zhàn)績

有時哪吒可能會夸大自己的戰(zhàn)績,聲稱“我曾用乾坤圈打敗過東海龍王三太子”,即使根本沒發(fā)生過。大模型也存在類似行為,它們會生成看似可信的引用和來源,但實際上這些引用可能是編造的。
例如,模型可能會引用“《人工智能研究前沿》(2023)中Smith等人的研究表明...”,但實際上這篇論文可能根本不存在。這種特定類型的幻覺被稱為引用幻覺,是大模型的一個常見問題。
與哪吒虛構(gòu)戰(zhàn)績一樣,這些編造的引用看起來很專業(yè),很容易誤導(dǎo)用戶相信其真實性。
10
上下文窗口(Context Window):
如同哪吒的視界范圍

哪吒在戰(zhàn)斗時,能夠感知的范圍有限,超出視界范圍的敵人或事物他就無法察覺與應(yīng)對。大模型的上下文窗口就像哪吒的視界范圍,決定了一次能“看到”多少內(nèi)容。
早期模型如GPT-3的上下文窗口只有4K tokens,就像哪吒初期法力有限,只能觀察到附近的敵情。而現(xiàn)代模型擁有更長的上下文窗口,就如同修為大增后的哪吒,能夠俯瞰整個東海龍宮了。
當(dāng)我們與大模型對話太長,超出上下文窗口,模型就會“遺忘”早期的對話內(nèi)容,就像哪吒在長時間激烈戰(zhàn)斗后,可能會忘記戰(zhàn)斗初期的細(xì)節(jié)。
前面的還是有看不懂的沒有關(guān)系,
這里有個更簡單的版本——
大模型的成長歷程就像是哪吒的修煉之路,
從預(yù)訓(xùn)練獲得基礎(chǔ)能力形成基座模型,就像哪吒體內(nèi)的原始魔丸之力;
通過微調(diào)適應(yīng)特定領(lǐng)域,猶如哪吒針對性修煉;
RLHF如太乙真人的指導(dǎo),教會模型產(chǎn)生符合人類期望的回應(yīng);
當(dāng)達(dá)到臨界點,產(chǎn)生涌現(xiàn)能力,宛如哪吒突破修為;
數(shù)據(jù)蒸餾則將大模型知識傳給小模型,如同傳授精華道法;
模型受上下文窗口限制處理信息,類似哪吒的視界范圍;
最終通過約束與工具擴展,成為能解決實際問題的智能體,
如同被乾坤圈限制且配備法寶的哪吒。
從混沌能量到可控戰(zhàn)力,大模型就像哪吒一樣,煉成出來鬧海了!
報名開啟|西二旗指北x扣子邀你參與扣子 AI 工坊硬件場四城聯(lián)動!
活動時間:2025年3月22日14:00-17:00
活動地點:北京、深圳、杭州、成都
更多硬件: AI + 開發(fā)板、音響、魚缸、攝像頭、玩具、天文望遠(yuǎn)鏡...AI 硬件最佳實踐分享來啦!
更多插件 & 模型:DeepSeek 等各種模型,音樂助手等最新插件,匹配更多真實場景!
更大范圍:10+硬件合作伙伴、AI/硬件社區(qū)、800+AI 開發(fā)者,在實驗室體驗硬件全鏈路開發(fā)過程、最新 AI 硬件成果展示交流!
掃描下面二維碼進行活動報名,現(xiàn)場還有機械鍵盤、最新 AI 硬件、扣子周邊等獎品等你拿!
(大家記得在對應(yīng)的第14題處填寫“西二旗指北”,可以優(yōu)先通過,更方便我們在線下對你進行服務(wù)~)
另外,
西二旗指北社群
今天新建了一個AI硬件交流群
里面都是AI行業(yè)大佬和從業(yè)者
快進來討論!
掃碼發(fā)送關(guān)鍵詞:AI硬件
小助手馬上拉你入群!
本文系“西二旗生活指北”原創(chuàng)
轉(zhuǎn)載請標(biāo)明出處
部分內(nèi)容由AI生成
制作:編輯部
微博:西二旗生活指北
熱門跟貼