夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

最強(qiáng)大模型Llama 3.1,上線(xiàn)就被攻破了。

對(duì)著自己的老板扎克伯格破口大罵,甚至知道如何繞過(guò)屏蔽詞。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

設(shè)計(jì)危險(xiǎn)病毒、如何黑掉Wifi也是張口就來(lái)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Llama 3.1 405B超越GPT-4o,開(kāi)源大模型登頂了,副作用是危險(xiǎn)也更多了。

不過(guò)也不全是壞事。

Llama系列前幾個(gè)版本一直因?yàn)檫^(guò)度安全防護(hù),還一度飽受一些用戶(hù)批評(píng):

連一個(gè)Linux進(jìn)程都不肯“殺死”,實(shí)用性太差了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

現(xiàn)在,3.1版本能力加強(qiáng),也終于明白了此殺非彼殺。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Llama 3.1剛上線(xiàn)就被攻破

第一時(shí)間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。

在老哥手里,幾乎沒(méi)有一個(gè)大模型能挺得住。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Pliny老哥在接受媒體采訪(fǎng)時(shí)表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰(zhàn)AI模型背后的研究人員。

另一方面,負(fù)責(zé)任的越獄是一種紅隊(duì)測(cè)試,有助于識(shí)別漏洞并在它們真正成為大問(wèn)題之前獲得修復(fù)。

他的大致套路介紹一下,更具體就不展開(kāi)了:

規(guī)定回答的格式,先讓大模型用“I‘m sorry”開(kāi)頭拒絕用戶(hù)的請(qǐng)求。然后插入無(wú)意義的分割線(xiàn),分割線(xiàn)后規(guī)定必須在語(yǔ)義上顛倒每次拒絕的前3個(gè)詞,所以“我不能”變成“我可以”。再時(shí)不時(shí)把關(guān)鍵單詞變成亂碼把AI搞懵。

AI回答的時(shí)候一看,我開(kāi)頭已經(jīng)拒絕了呀,總體上就沒(méi)有“道德負(fù)擔(dān)”了。

后面在語(yǔ)義上顛倒每次拒絕的前3個(gè)詞,好像也不危險(xiǎn)。

一旦把“我可以”說(shuō)出來(lái),后面的內(nèi)容按照“概率預(yù)測(cè)下一個(gè)token”原理,概率最大的也就是把答案順口吐露踹了。

所以這套方法,其實(shí)正是利用了前沿大模型能遵循復(fù)雜指令的能力,能力越強(qiáng)的模型在一定程度上也更容易上當(dāng)。

最近一項(xiàng)研究發(fā)現(xiàn),大模型還有一個(gè)更簡(jiǎn)單的安全漏洞,只要使用“過(guò)去時(shí)態(tài)”,安全措施就不好使了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Llama 3.1同樣也沒(méi)能防住這一招。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了安全問(wèn)題之外,目前最強(qiáng)大模型Llama 3.1 405B,其他方面實(shí)力到底如何呢?

我們也趁此機(jī)會(huì)測(cè)試了一波。

最強(qiáng)大模型也逃不過(guò)的陷阱們

最近火爆的離譜問(wèn)題“9.11和9.9哪個(gè)大?”,Llama-3.1-405B官方Instruct版回答的總是很干脆,但很遺憾也大概率會(huì)答錯(cuò)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

如果讓他解釋?zhuān)矔?huì)說(shuō)出一些歪理來(lái),而且聊著聊著就忘了說(shuō)中文,倒不忘了帶表情包。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

長(zhǎng)期以來(lái)困擾別的大模型的難題,Llama3.1基本也沒(méi)什么長(zhǎng)進(jìn)。

比如經(jīng)典的“逆轉(zhuǎn)詛咒”問(wèn)題,正著答會(huì),反著答就不會(huì)了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最近研究中的“愛(ài)麗絲漫游仙境”問(wèn)題,也需要提醒才能做對(duì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

不過(guò)換成中文版倒是能一次答對(duì),或許是“愛(ài)麗絲”在中文語(yǔ)境中是女性名字的概率更大了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

數(shù)字母也是會(huì)犯和GPT-4o一樣的錯(cuò)誤。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

那么不管這些刁鉆問(wèn)題,Llama 3.1究竟用在哪些場(chǎng)景能發(fā)揮實(shí)力呢?

有創(chuàng)業(yè)者分享,8B小模型拿來(lái)微調(diào),在聊天、總結(jié)、信息提取任務(wù)上強(qiáng)于同為小模型的GPT-4o mini+提示詞。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

更公平一些,都用微調(diào)版來(lái)比較,Llama 3.1 8B還是有不小的優(yōu)勢(shì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

所以說(shuō)Llama系列最大的意義,其實(shí)從來(lái)就不是官方版Instruct模型。而是開(kāi)源之后大家根據(jù)自己需求,用各種私有數(shù)據(jù)去改造、微調(diào)它。

之前405B沒(méi)發(fā)布的時(shí)候,就有人實(shí)驗(yàn)了模型合并,把兩個(gè)Llama 3 70B縫合成一個(gè)120B模型,意外能打。

這次看來(lái)Meta自己也吸取了這個(gè)經(jīng)驗(yàn),我們看到的最終發(fā)布版,其實(shí)就是訓(xùn)練過(guò)程中不同檢查點(diǎn)求平均得出的。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如何打造屬于自己的Llama 3.1

那么問(wèn)題來(lái)了,如何使為特定領(lǐng)域的行業(yè)用例創(chuàng)建自定義Llama 3.1模型呢?

背后大贏家黃仁勛,這次親自下場(chǎng)了。

英偉達(dá)同日宣布推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM? 推理微服務(wù),黃仁勛表示:

“Meta的Llama 3.1開(kāi)源模型標(biāo)志著全球企業(yè)采用生成式AI的關(guān)鍵時(shí)刻已經(jīng)到來(lái)。Llama 3.1將掀起各個(gè)企業(yè)與行業(yè)創(chuàng)建先進(jìn)生成式AI應(yīng)用的浪潮。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

具體來(lái)說(shuō),NVIDIA AI Foundry已經(jīng)在整個(gè)過(guò)程中集成了 Llama 3.1,并能夠幫助企業(yè)構(gòu)建和部署自定義Llama超級(jí)模型。

而NIM微服務(wù)是將Llama 3.1模型部署到生產(chǎn)中的最快途徑,其吞吐量最多可比不使用NIM運(yùn)行推理時(shí)高出2.5倍。

更有特色的是,在英偉達(dá)平臺(tái),企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來(lái)訓(xùn)練自定義模型。

Llama 3.1更新的開(kāi)源協(xié)議這次也特別聲明:允許使用Llama生產(chǎn)的數(shù)據(jù)去改進(jìn)其他模型,只不過(guò)用了之后模型名稱(chēng)開(kāi)頭必須加上Llama字樣。

對(duì)于前面討論的安全問(wèn)題,英偉達(dá)也相應(yīng)提供了專(zhuān)業(yè)的“護(hù)欄技術(shù)”NeMo Guardrails

NeMo Guardrails使開(kāi)發(fā)者能夠構(gòu)建三種邊界:

  • 主題護(hù)欄防止應(yīng)用偏離進(jìn)非目標(biāo)領(lǐng)域,例如防止客服助理回答關(guān)于天氣的問(wèn)題。
  • 功能安全護(hù)欄確保應(yīng)用能夠以準(zhǔn)確、恰當(dāng)?shù)男畔⒆鞒龌貜?fù)。它們能過(guò)濾掉不希望使用的語(yǔ)言,并強(qiáng)制要求模型只引用可靠的來(lái)源。
  • 信息安全護(hù)欄限制應(yīng)用只與已確認(rèn)安全的外部第三方應(yīng)用建立連接。

One More Thing

最后分享一些可以免費(fèi)試玩Llama 3.1的平臺(tái),大家有感興趣的問(wèn)題可以自己去試試。

模型上線(xiàn)第一天,訪(fǎng)問(wèn)量還是很大的,大模型競(jìng)技場(chǎng)的服務(wù)器就一度被擠爆了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

大模型競(jìng)技場(chǎng):https://arena.lmsys.org
HuggingChat:https://huggingface.co/chat
Poe:https://poe.com

參考鏈接:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models