自研模型和生態(tài)伙伴的模型,亞馬遜都要。
作者 | 宛辰
編輯| 鄭玄
亞馬遜的新模型來了。
當(dāng)?shù)貢r(shí)間周二的 re:invent 大會(huì)上,在上午的 Keynote 環(huán)節(jié),前亞馬遜云科技(AWS)首席執(zhí)行官、現(xiàn)任亞馬遜公司 CEO 安迪·賈西(Andy Jassy)限時(shí)返場(chǎng)。在大約 10 分鐘的演講里,賈西介紹了亞馬遜在生成式 AI 領(lǐng)域的應(yīng)用進(jìn)展,并發(fā)布了亞馬遜的新一代基礎(chǔ)模型——Amazon Nova。
去年 4 月,亞馬遜推出了第一代大模型 Titan,只有語言單一模態(tài)。如果說 Titan 只是小試牛刀,那今天的 Amazon Nova 系列模型,是亞馬遜的真本事和大動(dòng)作。到底做文生文、文生圖,還是圖生視頻……對(duì)亞馬遜來說,這個(gè)選擇不存在的。因?yàn)椋琋ova 系列主打 Any to Any,任意模態(tài)輸入、任意模態(tài)輸出。并且在 Benchmark 評(píng)測(cè)上,也均為 SOTA 大模型,幾乎可以打敗所有相同量級(jí)和市場(chǎng)定位的基礎(chǔ)模型。
你可能要問,剛追加了 40 億美元投資 Anthropic 及其 Claude,就發(fā)了自研的王炸 Nova。亞馬遜怎么想的?尤其是怎么看待自己與模型生態(tài)伙伴的關(guān)系?
前亞馬遜云科技(AWS)首席執(zhí)行官、現(xiàn)任亞馬遜公司 CEO 安迪·賈西(Andy Jassy)發(fā)布 Nova 系列基礎(chǔ)模型。|圖片來源:亞馬遜云科技
安迪·賈西(Andy Jassy)自問自答這一問題,他表示,在亞馬遜內(nèi)部構(gòu)建的 AI 應(yīng)用中,使用模型的多樣性 令人驚訝。開發(fā)者也是這樣,希望有更低的延遲、更低的成本、具備微調(diào)能力、能更好地 協(xié)調(diào)不同知識(shí)庫以固定數(shù) 據(jù),還想要實(shí)現(xiàn)很多自動(dòng)化協(xié)調(diào)操作(也就是所謂的智能行為),或者想要獲得更好的圖像和視頻效果等等。 為了滿足開發(fā)者多樣性的需求, 亞馬遜云科技的 模型策略,就是給予開發(fā)者盡可能多的自主選擇的權(quán)利。
「我們一直都在汲取同一個(gè) 教訓(xùn)——永遠(yuǎn)不會(huì)出現(xiàn)一種工具能在某個(gè)領(lǐng)域一統(tǒng)天下的情況。就像數(shù)據(jù)庫領(lǐng)域,10 年來,大家會(huì)使用各種各樣的關(guān)系型數(shù)據(jù)庫或者非關(guān)系型數(shù)據(jù)庫。在分析領(lǐng)域也是如此,曾經(jīng)大家覺得 TensorFlow 會(huì)成為唯一的 AI 框架,而一直強(qiáng)調(diào)會(huì)有很多不同框架出現(xiàn),最終 PyTorch 成為了最受歡迎的那個(gè),模型方面同樣呈現(xiàn)這樣的情況?!?/p>
讓開發(fā)者可以按照自己期望的任意試驗(yàn)、組合運(yùn)用模型,這是大模型時(shí)代,亞馬遜的答案。
01
Amazon Nova:
成本更低,能力更強(qiáng)
會(huì)上,安迪·賈西公布了 Nova 系列的六種大模型,其中包括四種生成文本的基礎(chǔ)模型,以及生成圖像和視頻的兩種視覺內(nèi)容生成模型。
首先是體量最輕的 Micro 模型,其屬于「僅文本模型」,只支持輸入文本然后輸出文本,這也是 Nova 系列中響應(yīng)速度最快、性價(jià)比最高的模型。賈西稱,在 Amazon 內(nèi)部的開發(fā)者最喜歡在許多簡(jiǎn)單任務(wù)中使用它。
賈西表示,在 11 個(gè) Benchmark 測(cè)試中,Nova Mirco 的表現(xiàn)與 Meta LLaMa 3.1 8B 相當(dāng)甚至更優(yōu),在 12 個(gè) Benchmark 測(cè)試中與 Google Gemini 1.5 Flash-8B 相比表現(xiàn)更優(yōu)。該模型的響應(yīng)速度達(dá)到每秒 210 個(gè) Tokens,非常適合需要快速響應(yīng)的應(yīng)用。
接下來三種支持多模態(tài)輸入,并輸出文本內(nèi)容的多模態(tài)模型。
其中 Lite 模型同樣是一種低成本的多模態(tài)模型,可以快速處理圖像、視頻和文本輸入,并輸出文本內(nèi)容。
賈西表示,在 19 項(xiàng) Benchmark 測(cè)試中,Nova Lite 有 17 項(xiàng)表現(xiàn)優(yōu)于或等于 OpenAI 的 GPT-4o Mini;在 21 項(xiàng)基準(zhǔn)中,有 17 項(xiàng)優(yōu)于或等于 Google 的 Gemini 1.5 Flash-8B;在 12 項(xiàng)基準(zhǔn)中,有 10 項(xiàng)優(yōu)于或等于 Anthropic 的 Claude Haiku 3.5。此模型在視頻、圖表和文檔理解任務(wù)上也有不錯(cuò)表現(xiàn)表現(xiàn)。
Pro 模型則是一種高性能多模態(tài)模型,可以針對(duì)多種任務(wù)提供最佳的準(zhǔn)確性、速度和成本組合。
在 20 項(xiàng) Benchmark 測(cè)試中,Nova Pro 有 17 項(xiàng)優(yōu)于或等于 OpenAI 的 GPT-4o;在 21 項(xiàng) Benchmark 測(cè)試中,有 16 項(xiàng)優(yōu)于或等于 Google 的 Gemini 1.5 Pro。
最后也是最強(qiáng)的是,是 Nova Premier,該模型可以用于復(fù)雜推理任務(wù),也可作為定制模型蒸餾的最佳「教師」。
賈西沒有給出 Premier 的跑分對(duì)比,但從介紹中我們不難推斷:該模型對(duì)標(biāo)的是 OpenAI 9 月發(fā)布的 Orion 系列模型。
根據(jù)賈西,Amazon Nova Micro、Lite 和 Pro 目前已經(jīng)全面上市,而 Amazon Nova Premier 計(jì)劃在 2025 年第一季度推出。
除了性能以外,賈西表示這些模型還有其他亮點(diǎn),首先,它們的成本效益很高,相較于 Amazon Bedrock 中的其他優(yōu)秀模型產(chǎn)品,能便宜大約 75%。此外,它們的速度很快,在延遲方面表現(xiàn)優(yōu)異,是所能見到的速度較快的模型。
已經(jīng)上市的模型不僅集成在 Amazon Bedrock 中,還與 Amazon Bedrock 里的所有功能進(jìn)行了深度整合。這意味著開發(fā)者可以對(duì)模型進(jìn)行微調(diào),或利用 Bedrock 的知識(shí)庫、RAG 等對(duì)模型增強(qiáng),或者利用 Bedrock 的蒸餾功能來將大模型的智能「轉(zhuǎn)移到」更小的模型,從而提高效益并降低延遲。
除了四種生成文本的模型,賈西還預(yù)告了兩個(gè)生成視覺內(nèi)容的新模型。
首先是 Amazon Nova Canvas,這是一款最先進(jìn)的圖像生成模型,可以根據(jù)文本或圖像提示生成專業(yè)級(jí)的圖像。它還提供了一些便捷功能,例如使用文本輸入編輯圖像,以及調(diào)整配色方案和布局的控制選項(xiàng)。該模型還內(nèi)置了支持安全和負(fù)責(zé)任 AI 使用的功能,包括水印功能(可追溯圖像來源)和內(nèi)容審核功能(限制潛在有害內(nèi)容的生成)等。
在第三方進(jìn)行的人類對(duì)比評(píng)估中,Amazon Nova Canvas 的表現(xiàn)優(yōu)于 OpenAI DALL-E 3 和 Stable Diffusion。下面是由 Amazon Nova Canvas 生成的一系列圖片:
然后是 Amazon Nova Reel,這是一款最先進(jìn)的視頻生成模型,可通過文本和圖像輕松創(chuàng)建高質(zhì)量視頻,非常適合廣告、營(yíng)銷或培訓(xùn)內(nèi)容創(chuàng)作。用戶可以通過自然語言提示控制視覺風(fēng)格和節(jié)奏,包括鏡頭運(yùn)動(dòng)、旋轉(zhuǎn)和變焦。在第三方進(jìn)行的人類對(duì)比評(píng)估中,Amazon Nova Reel 生成的視頻質(zhì)量和一致性優(yōu)于 Runway 的 Gen-3 Alpha。
由 Amazon Nova Reel 生成的視頻|視頻來源: 亞馬遜云科技
與 Canvas 類似,Nova Reel 也內(nèi)置了安全和責(zé)任 AI 功能,包括水印和內(nèi)容審核。目前支持生成 6 秒的視頻,未來幾個(gè)月將擴(kuò)展到最長(zhǎng) 2 分鐘的視頻生成。
賈西還分享了 Nova 接下來的計(jì)劃,首先是在明年開發(fā)出上述模型的第二代版本。此外,還會(huì)在第一季度推出一個(gè)語音到語音的模型,并在明年年中推出一個(gè)任意(any)到任意(any)的模型。也就是多模態(tài)輸入到多模態(tài)輸出的模型,這意味著用戶可以輸入文本、語音、圖像或視頻等多種形式的內(nèi)容,并相應(yīng)地輸出文本、語音、圖像或視頻。
從 Titan 到 Nova,連發(fā)兩個(gè)大模型的 亞馬遜云科技,難免會(huì)有人擔(dān)心與眾多大模型開發(fā)商合作的 亞馬遜云科技 正在改變其模型策略。
賈西顯然意識(shí)到了,他在會(huì)上自問自答講述了 亞馬遜云科技 的立場(chǎng):
「或許大家會(huì)問,該如何看待亞馬遜云科技的模型策略?畢竟我們與眾多模型提供商有著深入的合作關(guān)系,同時(shí)自己也研發(fā)了一些模型。我想說的是,大家可以這樣來看待:我們一直以來的目標(biāo)就是為大家提供選擇,旨在呈現(xiàn)最廣泛且最優(yōu)質(zhì)的功能,這必然意味著會(huì)有多樣化的選擇?!?/p>
亞馬遜云科技首席執(zhí)行官 Matt Garman 介紹,在 Amazon Bedrock 上,開發(fā)者可以根據(jù)自身需要選擇亞馬遜或者任意生態(tài)伙伴的模型。|圖片來源:亞馬遜云科技
02
全球最大的電商平臺(tái),
用生成式 AI 干什么?
除了發(fā)布新的大模型,會(huì)上,安迪·賈西還詳細(xì)介紹了亞馬遜內(nèi)部的 AI 應(yīng)用案例。
作為全球最大的電商平臺(tái),也作為亞馬遜云科技的「第一客戶」,亞馬遜在過去一年嘗試為多項(xiàng)業(yè)務(wù)引入 AI 提效,解決用戶面臨的問題。其中典型的場(chǎng)景如下:
零售業(yè)務(wù)中獲得更優(yōu)質(zhì)的推薦以及個(gè)性化推薦;
為履約中心的揀貨員規(guī)劃最佳路徑,從而更快地把商品送到客戶手上;
將其應(yīng)用在我們的 Prime Air 無人機(jī)上,期望在未來幾年內(nèi)實(shí)現(xiàn)不到一小時(shí)就能為你送貨上門;
Amazon Go 商店的 Just Walk Out 技術(shù)、為 Alexa 提供技術(shù)支持;
提供 25 種以上的亞馬遜云科技 AI 服務(wù),方便開發(fā)者構(gòu)建 AI 應(yīng)用程序。
從亞馬遜觀察到的 AI 用例中,安迪認(rèn)為,解決問題的 AI 應(yīng)用(「實(shí)用 AI」)有兩種實(shí)用價(jià)值:降本增效,或者帶來新體驗(yàn)。
「從全球范圍來看,那些應(yīng)用 AI 最為成功的公司,主要體現(xiàn)在成本規(guī)避和生產(chǎn)力提升方面,而且很多公司在這兩方面都取得了進(jìn)展。同時(shí),你也開始看到一些完全重新構(gòu)思、重塑的全新客戶體驗(yàn)。」
在這兩類 AI 應(yīng)用上,安迪給了亞馬遜內(nèi)部的典型使用場(chǎng)景:
降本增效的 AI
1)智能客服
以客戶服務(wù)為例,亞馬遜的零售業(yè)務(wù)有著數(shù)億客戶,過去當(dāng)他們需要聯(lián)系客戶服務(wù)時(shí),可以聯(lián)系聊天機(jī)器人,過去這一聊天機(jī)器人采用的靜態(tài)決策樹的機(jī)器學(xué)習(xí)技術(shù),客戶得輸入大量文字才能獲取答案。
但生成式 AI 對(duì)這個(gè)系統(tǒng)進(jìn)行了重構(gòu)后,現(xiàn)在客戶擁有了一個(gè)懂他/她的客服機(jī)器人。
比如,假如你幾天前訂購(gòu)了一件商品,進(jìn)入新的聊天機(jī)器人界面時(shí),它知道你是誰、幾天前訂購(gòu)了什么、住在哪里,而且它能通過模型預(yù)測(cè)到,如果在幾天后聯(lián)系客服,大概率是咨詢退貨相關(guān)問題。當(dāng)你開始向它說明情況時(shí),它可以迅速告知你最近的 Whole Foods 或者其他可退貨的實(shí)體店位置。并且這個(gè)模型很智能,當(dāng)察覺到用戶對(duì)它給出的回復(fù)感到沮喪時(shí),還能判斷出用戶可能需要聯(lián)系人工客服來解決問題。
在重新設(shè)計(jì)之前,這個(gè)聊天機(jī)器人的客戶滿意度就已經(jīng)挺高了,但自從加入了生成式 AI 這個(gè)「智慧大腦」后,客戶滿意度提升了 500 個(gè)基點(diǎn)。
2)賣家工單填寫
亞馬遜在全球零售店有大約 200 萬賣家,銷售的商品中超過 60% 是由這群賣家提供的,但他們過去在往網(wǎng)站上架產(chǎn)品時(shí),需要填寫一份很長(zhǎng)的、包含很多字段的表單,從而讓終端客戶更便捷地瀏覽并了解賣家的產(chǎn)品信息,這對(duì)賣家來說著實(shí)是個(gè)繁重的任務(wù)。
現(xiàn)在,亞馬遜利用生成式 AI 打造了一款全新的工具,賣家只需輸入幾個(gè)字,或者拍張照片,又或者提供一個(gè) URL,這個(gè)工具就能幫忙填寫很多產(chǎn)品屬性信息,這對(duì)賣家來說輕松多了,目前已經(jīng)有超過 50 萬賣家在使用這款生成式 AI 工具。
3)庫存管理
亞馬遜零售業(yè)務(wù)中的庫存管理也是一個(gè)大場(chǎng)景,有超過 1000 個(gè)不同的建筑或節(jié)點(diǎn),從而把合適的產(chǎn)品優(yōu)化配置到距離最終客戶最近的履行中心或者建筑里,以此節(jié)省運(yùn)輸時(shí)間,更快、更低成本地把商品送到你手中。但這也就意味著,要清楚某個(gè)履行中心的庫存情況,比如每個(gè)商品的庫存水平是多少、哪些商品正在被訂購(gòu)、訂購(gòu)的速度如何、這個(gè)履行中心是否還有更多的倉儲(chǔ)容量,以及是否需要將庫存轉(zhuǎn)移到其他履行中心來平衡整個(gè)倉儲(chǔ)網(wǎng)絡(luò)等問題。
為此,亞馬遜運(yùn)用 Transformer 模型來解決這些問題并進(jìn)行預(yù)測(cè),當(dāng)前,一個(gè)對(duì)長(zhǎng)期需求預(yù)測(cè)的 Transformer 模型已經(jīng)將預(yù)測(cè)準(zhǔn)確性提高了 10%,區(qū)域預(yù)測(cè)準(zhǔn)確性也提高了超過 20%,在亞馬遜數(shù)百億美金的零售業(yè)務(wù)規(guī)模下,兩位數(shù)的效率提升意味著數(shù)以十億美元計(jì)算的成本節(jié)省。
4)機(jī)器人
在機(jī)器人場(chǎng)景上,亞馬遜履行中心已經(jīng)部署了超過 75 萬臺(tái)機(jī)器人,一系列 AI 技術(shù)幫助機(jī)器人場(chǎng)景優(yōu)化了場(chǎng)地容量和傳送能力,縮短處理時(shí)間以及為客戶服務(wù)的成本。
以 Sparrow 為例,它是一款用于重新分類的機(jī)器人手臂。它需要不斷從眾多分散區(qū)域收集物品,并將它們匯聚到容器里。有了生成式 AI 的大腦,可以告訴 Sparrow 第一個(gè)箱子里裝了什么物品、要它去拿哪個(gè)物品,同時(shí) Sparrow 得辨別出每個(gè)物品具體是什么,還要清楚依據(jù)物品的大小、材質(zhì)以及材質(zhì)的柔韌性該如何抓取,并且知道能把物品放置在接收箱的哪個(gè)位置。
目前,亞馬遜在路易斯安那州什里夫波特的履約中心推出了大約五項(xiàng)全新的機(jī)器人發(fā)明,已經(jīng)看到處理時(shí)間提高了 25%,未來,服務(wù)成本預(yù)計(jì)也會(huì)降低 25%。
創(chuàng)新客戶體驗(yàn)的 AI
上述這些都是亞馬遜內(nèi)部在成本規(guī)避和生產(chǎn)力提升方面的實(shí)例,亞馬遜也看到了生成式 AI 在創(chuàng)造全新購(gòu)物體驗(yàn)方面的作用,賈西也列舉了幾個(gè)典型例子。
1)Rufus 購(gòu)物智能體
第一個(gè)應(yīng)用是,Rufus 購(gòu)物智能體。
當(dāng)客戶不確定自己想要什么,正在糾結(jié)選擇時(shí),可能會(huì)瀏覽商品分類、查看客戶評(píng)價(jià)等,但現(xiàn)在 Rufus 購(gòu)物智能體帶來了「真人導(dǎo)購(gòu)」的體驗(yàn)。
就像走進(jìn)實(shí)體店,不確定自己想要什么時(shí),向銷售人員描述一下想法,他們便會(huì)推薦可能適合你的商品,繼續(xù)問「這個(gè)怎么樣,那個(gè)怎么樣」,他們也能快速回復(fù)你。現(xiàn)在,Rufus 帶來了類似的體驗(yàn)。
借助 Rufus,你可以進(jìn)入任何產(chǎn)品的詳細(xì)信息頁面、提出任何問題,Rufus 都會(huì)迅速給出答案。它能幫你對(duì)不同產(chǎn)品和類別進(jìn)行比較,還會(huì)給出推薦,你可以提出很寬泛的問題來獲取推薦,它也會(huì)進(jìn)一步詢問一些具體問題,以便更準(zhǔn)確地把握你的意圖。比如,你對(duì) Rufus 說:「嘿,我想要我之前一直買的那種高爾夫球桿,你能幫我找找嗎?」Rufus 就能幫你找到。你要是說:「給我查查那些還沒發(fā)貨的商品訂單狀態(tài)?!顾材軒湍悴榈健?/p>
Rufus 相對(duì)實(shí)體銷售人員有一個(gè)優(yōu)勢(shì),那就是它不會(huì)跳槽去別的零售商工作,也不會(huì)轉(zhuǎn)行干別的,它會(huì)一直陪著你,更好地了解你的意圖、興趣以及需求。
2)Alexa
亞馬遜 2014 年推出的 Alexa 也迎來了新的大腦。
Alexa 的目標(biāo)和使命是打造全球最優(yōu)秀的個(gè)人助理,隨著大型語言模型和生成式 AI 的出現(xiàn),這個(gè)目標(biāo)正在越來越近。Alexa 在亞馬遜銷售的所有設(shè)備之間,有著 5 億個(gè)活躍節(jié)點(diǎn),人們用它來娛樂、購(gòu)物、獲取信息以及控制智能家居。
目前亞馬遜正在使用多個(gè)基礎(chǔ)模型對(duì) Alexa 進(jìn)行重構(gòu),不僅能讓 Alexa 更好地回答你的問題,還能做到一些當(dāng)下很少有生成式 AI 應(yīng)用程序能實(shí)現(xiàn)的事,那就是理解并預(yù)測(cè)你的需求,甚至能替你采取行動(dòng)。賈西劇透未來幾個(gè)月可以看到相關(guān)成果。
3)Amazon Lens
亞馬遜官網(wǎng)還上了一個(gè)新功能叫 Amazon Lens,假設(shè)你在朋友家看到一個(gè)很喜歡的花盆,想知道這個(gè)花盆是從哪兒買的,問朋友,朋友也不知道。
或許你可以在搜索引擎里輸入像「亞馬遜、花盆、懸掛、編織」之類的關(guān)鍵詞,也許能得到不錯(cuò)的答案,但也可能一無所獲。
但現(xiàn)在,你可以使用 Amazon Lens,只要拍下這個(gè)物品的照片就行。Amazon Lens 會(huì)運(yùn)用計(jì)算機(jī)視覺以及一個(gè)多模態(tài)模型,依據(jù)照片進(jìn)行搜索查詢,直接引導(dǎo)你找到亞馬遜上對(duì)應(yīng)的正確搜索結(jié)果,方便你輕松購(gòu)買。
4)尺寸推薦
亞馬遜還構(gòu)建了一個(gè)尺寸推薦的大語言模型,為網(wǎng)上購(gòu)物帶來了新體驗(yàn)。
比如買襯衫時(shí),不確定這個(gè)品牌的尺碼是偏大還是偏小,也不清楚自己該選中號(hào)還是大號(hào)。這時(shí),尺寸推薦的模型能分析眾多品牌之間的尺碼關(guān)系,對(duì)比出哪些品牌尺碼相近,哪些偏大或偏小,然后結(jié)合你之前購(gòu)買過的商品情況,自動(dòng)為你推薦合適的尺碼。
5)防守警報(bào)
賈西還介紹了在視頻領(lǐng)域所做的事,比如亞馬遜和 NFL 合作的 Next Gen Stats 項(xiàng)目,每個(gè)賽季會(huì)收集 5 億個(gè)數(shù)據(jù)點(diǎn),基于這些數(shù)據(jù)構(gòu)建 AI 模型,打造了一個(gè)叫「防守警報(bào)」的功能。
它能顯示出哪個(gè)防守球員可能會(huì)沖向四分衛(wèi),還會(huì)在畫面上圈出來,極大地改變了觀眾的觀看體驗(yàn);還打造了「防守脆弱性」功能,能夠?yàn)橛^眾指出進(jìn)攻方應(yīng)該重點(diǎn)攻擊的防守薄弱區(qū)域,這些都給球迷帶來了不一樣的觀賽體驗(yàn)。
朝著降本增效、帶來新體驗(yàn)的方向,這些是亞馬遜內(nèi)部正在使用 AI 解決實(shí)際問題的場(chǎng)景。安迪·賈西表示,在亞馬遜內(nèi)部已經(jīng)構(gòu)建或者正在構(gòu)建近 1000 個(gè)生成式 AI 應(yīng)用程序。
*頭圖來源:亞馬遜
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問
你最看好亞馬遜的
哪個(gè)生成式 AI 落地應(yīng)用?
互聯(lián)網(wǎng)大佬爆料!王小川和陳睿是同學(xué),一個(gè)愛編程一個(gè)愛漫畫。
點(diǎn)贊關(guān)注極客公園視頻號(hào),
熱門跟貼