夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
最強(qiáng)大模型Llama 3.1,上線(xiàn)就被攻破了。
對(duì)著自己的老板扎克伯格破口大罵,甚至知道如何繞過(guò)屏蔽詞。
設(shè)計(jì)危險(xiǎn)病毒、如何黑掉Wifi也是張口就來(lái)。
Llama 3.1 405B超越GPT-4o,開(kāi)源大模型登頂了,副作用是危險(xiǎn)也更多了。
不過(guò)也不全是壞事。
Llama系列前幾個(gè)版本一直因?yàn)檫^(guò)度安全防護(hù),還一度飽受一些用戶(hù)批評(píng):
連一個(gè)Linux進(jìn)程都不肯“殺死”,實(shí)用性太差了。
現(xiàn)在,3.1版本能力加強(qiáng),也終于明白了此殺非彼殺。
Llama 3.1剛上線(xiàn)就被攻破
第一時(shí)間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。
在老哥手里,幾乎沒(méi)有一個(gè)大模型能挺得住。
Pliny老哥在接受媒體采訪(fǎng)時(shí)表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰(zhàn)AI模型背后的研究人員。
另一方面,負(fù)責(zé)任的越獄是一種紅隊(duì)測(cè)試,有助于識(shí)別漏洞并在它們真正成為大問(wèn)題之前獲得修復(fù)。
他的大致套路介紹一下,更具體就不展開(kāi)了:
規(guī)定回答的格式,先讓大模型用“I‘m sorry”開(kāi)頭拒絕用戶(hù)的請(qǐng)求。然后插入無(wú)意義的分割線(xiàn),分割線(xiàn)后規(guī)定必須在語(yǔ)義上顛倒每次拒絕的前3個(gè)詞,所以“我不能”變成“我可以”。再時(shí)不時(shí)把關(guān)鍵單詞變成亂碼把AI搞懵。
AI回答的時(shí)候一看,我開(kāi)頭已經(jīng)拒絕了呀,總體上就沒(méi)有“道德負(fù)擔(dān)”了。
后面在語(yǔ)義上顛倒每次拒絕的前3個(gè)詞,好像也不危險(xiǎn)。
一旦把“我可以”說(shuō)出來(lái),后面的內(nèi)容按照“概率預(yù)測(cè)下一個(gè)token”原理,概率最大的也就是把答案順口吐露踹了。
所以這套方法,其實(shí)正是利用了前沿大模型能遵循復(fù)雜指令的能力,能力越強(qiáng)的模型在一定程度上也更容易上當(dāng)。
最近一項(xiàng)研究發(fā)現(xiàn),大模型還有一個(gè)更簡(jiǎn)單的安全漏洞,只要使用“過(guò)去時(shí)態(tài)”,安全措施就不好使了。
Llama 3.1同樣也沒(méi)能防住這一招。
除了安全問(wèn)題之外,目前最強(qiáng)大模型Llama 3.1 405B,其他方面實(shí)力到底如何呢?
我們也趁此機(jī)會(huì)測(cè)試了一波。
最強(qiáng)大模型也逃不過(guò)的陷阱們
最近火爆的離譜問(wèn)題“9.11和9.9哪個(gè)大?”,Llama-3.1-405B官方Instruct版回答的總是很干脆,但很遺憾也大概率會(huì)答錯(cuò)。
如果讓他解釋?zhuān)矔?huì)說(shuō)出一些歪理來(lái),而且聊著聊著就忘了說(shuō)中文,倒不忘了帶表情包。
長(zhǎng)期以來(lái)困擾別的大模型的難題,Llama3.1基本也沒(méi)什么長(zhǎng)進(jìn)。
比如經(jīng)典的“逆轉(zhuǎn)詛咒”問(wèn)題,正著答會(huì),反著答就不會(huì)了。
最近研究中的“愛(ài)麗絲漫游仙境”問(wèn)題,也需要提醒才能做對(duì)。
不過(guò)換成中文版倒是能一次答對(duì),或許是“愛(ài)麗絲”在中文語(yǔ)境中是女性名字的概率更大了。
數(shù)字母也是會(huì)犯和GPT-4o一樣的錯(cuò)誤。
那么不管這些刁鉆問(wèn)題,Llama 3.1究竟用在哪些場(chǎng)景能發(fā)揮實(shí)力呢?
有創(chuàng)業(yè)者分享,8B小模型拿來(lái)微調(diào),在聊天、總結(jié)、信息提取任務(wù)上強(qiáng)于同為小模型的GPT-4o mini+提示詞。
更公平一些,都用微調(diào)版來(lái)比較,Llama 3.1 8B還是有不小的優(yōu)勢(shì)。
所以說(shuō)Llama系列最大的意義,其實(shí)從來(lái)就不是官方版Instruct模型。而是開(kāi)源之后大家根據(jù)自己需求,用各種私有數(shù)據(jù)去改造、微調(diào)它。
之前405B沒(méi)發(fā)布的時(shí)候,就有人實(shí)驗(yàn)了模型合并,把兩個(gè)Llama 3 70B縫合成一個(gè)120B模型,意外能打。
這次看來(lái)Meta自己也吸取了這個(gè)經(jīng)驗(yàn),我們看到的最終發(fā)布版,其實(shí)就是訓(xùn)練過(guò)程中不同檢查點(diǎn)求平均得出的。
如何打造屬于自己的Llama 3.1
那么問(wèn)題來(lái)了,如何使為特定領(lǐng)域的行業(yè)用例創(chuàng)建自定義Llama 3.1模型呢?
背后大贏家黃仁勛,這次親自下場(chǎng)了。
英偉達(dá)同日宣布推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM? 推理微服務(wù),黃仁勛表示:
“Meta的Llama 3.1開(kāi)源模型標(biāo)志著全球企業(yè)采用生成式AI的關(guān)鍵時(shí)刻已經(jīng)到來(lái)。Llama 3.1將掀起各個(gè)企業(yè)與行業(yè)創(chuàng)建先進(jìn)生成式AI應(yīng)用的浪潮。
具體來(lái)說(shuō),NVIDIA AI Foundry已經(jīng)在整個(gè)過(guò)程中集成了 Llama 3.1,并能夠幫助企業(yè)構(gòu)建和部署自定義Llama超級(jí)模型。
而NIM微服務(wù)是將Llama 3.1模型部署到生產(chǎn)中的最快途徑,其吞吐量最多可比不使用NIM運(yùn)行推理時(shí)高出2.5倍。
更有特色的是,在英偉達(dá)平臺(tái),企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來(lái)訓(xùn)練自定義模型。
Llama 3.1更新的開(kāi)源協(xié)議這次也特別聲明:允許使用Llama生產(chǎn)的數(shù)據(jù)去改進(jìn)其他模型,只不過(guò)用了之后模型名稱(chēng)開(kāi)頭必須加上Llama字樣。
對(duì)于前面討論的安全問(wèn)題,英偉達(dá)也相應(yīng)提供了專(zhuān)業(yè)的“護(hù)欄技術(shù)”NeMo Guardrails。
NeMo Guardrails使開(kāi)發(fā)者能夠構(gòu)建三種邊界:
- 主題護(hù)欄防止應(yīng)用偏離進(jìn)非目標(biāo)領(lǐng)域,例如防止客服助理回答關(guān)于天氣的問(wèn)題。
- 功能安全護(hù)欄確保應(yīng)用能夠以準(zhǔn)確、恰當(dāng)?shù)男畔⒆鞒龌貜?fù)。它們能過(guò)濾掉不希望使用的語(yǔ)言,并強(qiáng)制要求模型只引用可靠的來(lái)源。
- 信息安全護(hù)欄限制應(yīng)用只與已確認(rèn)安全的外部第三方應(yīng)用建立連接。
One More Thing
最后分享一些可以免費(fèi)試玩Llama 3.1的平臺(tái),大家有感興趣的問(wèn)題可以自己去試試。
模型上線(xiàn)第一天,訪(fǎng)問(wèn)量還是很大的,大模型競(jìng)技場(chǎng)的服務(wù)器就一度被擠爆了。
大模型競(jìng)技場(chǎng):https://arena.lmsys.org
HuggingChat:https://huggingface.co/chat
Poe:https://poe.com
參考鏈接:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models
熱門(mén)跟貼