打開網(wǎng)易新聞 查看精彩圖片

「生成式AI正在讓AI從單一的“聊天”功能,向更復(fù)雜、更全面的“助理”演變。從傳統(tǒng)的智能音箱到ChatGPT,再到AI Agent的崛起,人工智能正悄然改變?nèi)藗兩畹姆椒矫婷?。未來?a class="keyword-search" >生成式AI的發(fā)展方向,到底是Chat還是Agent?那一條模糊的界線——生成式AI究竟是繼續(xù)扮演“聊天伴侶”角色,還是躍升為真正的“行動者”?

當(dāng)前,越來越多的公司、團隊和開發(fā)者已經(jīng)不再滿足于單純的對話工具,而是開始著眼于讓AI能“做事”,并且具備復(fù)雜的自主決策與執(zhí)行能力,那么究竟哪個方向能主導(dǎo)未來,成為最有影響力的技術(shù)趨勢?

“但凡人類對于躺平的美好追求還在,‘讓機器替我干活’的念頭就不可能熄滅”長期關(guān)注人工智能和相關(guān)技術(shù)的悅木Ivy分享了自己的看法?!?/p>

作 者 ▏悅木Ivy

來 源 ▏知乎

先看下Chat和Agent的差別。

Chat(聊天):純粹的Chat,像是一個主要由“大腦和嘴”構(gòu)成的智能體,專注于信息處理和語言交流。比如ChatGPT這樣的系統(tǒng),它能夠理解用戶的查詢,給出有用和連貫的回答,但它本身不直接執(zhí)行任務(wù)。

Agent(代理):像一個具有“手、腳”的智能體,它能夠進(jìn)行思考、決策,并且能執(zhí)行具體的任務(wù)。

我們可以簡單粗暴的理解為,Chat強調(diào)的是“說”,Agent強調(diào)的是“做”。

要你你選哪個?

這么講吧,但凡人類對于躺平的美好追求還在,“讓機器替我干活”的念頭就不可能熄滅。

自ChatGPT發(fā)布后,從plugin的推出,到Function Calling再到Assistant API的面世,OpenAI這一系列動作就充分表明,有這么強大的LLM作為基本盤的情況下,人們就不可能僅僅滿足于讓它“嘚啵嘚”。

歷史總是驚人的相似。從2014年亞馬遜開創(chuàng)性推出Amazon Echo開始,智能音箱橫空出世。一開始的智能音箱,也只是有個“嘴”,只能實現(xiàn)播放音樂、查詢信息、設(shè)置提醒等功能。而且“腦子”還不太靈光。

但是隨著阿里、百度、小米等科技巨頭的紛紛加入,智能音箱在競爭中卷出了新高度。打通支付、和智能汽車、智能家居互通,智能音箱不斷地突破和擴展功能邊界,逐步坐到了智能家居生態(tài)的“大總管”位置上。

隨著應(yīng)用場景的持續(xù)拓展,智能音箱又延展到兒童教育、養(yǎng)老關(guān)懷等領(lǐng)域,深刻影響了人們的日常生活。

相信有一天,智能音箱會強大和多樣化到一個程度,以至于“智能音箱”這個名字不再適合這個品類,那將是新一輪故事的開始。

同樣驚人相似的,還有從單純的AI智能語音助手、智能客服(只會說)到以AI+RPA為核心技術(shù)的的AI數(shù)字員工(會說又會做)的發(fā)展史。

這些,都是人工智能走向多元化和融合化的一個個縮影。

因此,隨著技術(shù)水平的不斷進(jìn)步和場景化落地的不斷挖掘,Chat和Agent的界限必定會越來越模糊,生成式 AI 會融合Chat和Agent的特點,形成既能進(jìn)行高質(zhì)量、高人格化對話,又能高效執(zhí)行復(fù)雜任務(wù)的 AI 自動化系統(tǒng),為人們提供融合、互補、多樣化的解決方案。

AI Agent的崛起不僅僅是技術(shù)上的突破,更是對軟件開發(fā)理念的一次深刻變革。

在傳統(tǒng)的軟件開發(fā)中,程序員需要預(yù)先定義所有的邏輯和規(guī)則,然后進(jìn)行代碼實現(xiàn)。而AI Agent的出現(xiàn),要求我們對軟件進(jìn)行充分地“放權(quán)”:它由一顆大腦(LLM)來進(jìn)行自主支配運行,并在運行時自動學(xué)習(xí)、適應(yīng)和調(diào)優(yōu)。這種前所未有的開發(fā)范式的轉(zhuǎn)變,讓程序員不得不重新思考軟件開發(fā)的本質(zhì),也重新思考軟件開發(fā)的未來。

建議每一個技術(shù)人員,都去聽一下知乎知學(xué)堂的AI大模型免費公開課,由幾位業(yè)內(nèi)大佬主講,從GPT到開源模型再到AI Agent,你會看到一個個人開發(fā)者可以以怎樣的力量撬動AI原生應(yīng)用的全棧開發(fā)。

你還可以在后續(xù)的課程中學(xué)習(xí)整套的數(shù)據(jù)處理、訓(xùn)練、fine-tune模型等流程。更難得的是它不僅讓你了解大模型背后的原理和實操技術(shù),還能從商業(yè)的角度帶你深度解析此輪AI變革和以往有何根本不同。相信聽完公開課之后,你會擁有醍醐灌頂?shù)恼J(rèn)知和豁然開朗的思路。

典型的AI agent分為Memory(記憶)、Tools(外部工具) 、Planning(計劃) 和Action(行動)四個模塊。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)前學(xué)習(xí)AI Agent基本上分作兩條路徑:

基于OPenAI技術(shù)路線,以及基于開源技術(shù)路線。建議每個技術(shù)人員,都選擇一條路,親自趟一趟。

大模型爆發(fā)之后,AI Agent的發(fā)展也可謂是一日千里,各種項目層出不窮。

打開網(wǎng)易新聞 查看精彩圖片

AutoGPT

項目地址:

https://github.com/Significant-Gravitas/AutoGPT

可以根據(jù)你設(shè)置的目標(biāo),將實現(xiàn)這個目標(biāo)的任務(wù)進(jìn)行拆解,再采用搜索、瀏覽網(wǎng)站、執(zhí)行腳本等方式一條條去執(zhí)行任務(wù),幫你完成目標(biāo)。

JARVIS

項目網(wǎng)址:https://github.com/microsoft/JARVIS

一個非常有意思的“模型選擇”Agent。它將用戶要求拆解成子任務(wù),再到Huggingface上選擇合適的專家小模型執(zhí)行任務(wù),最后對結(jié)果進(jìn)行處理和返回給用戶。

打開網(wǎng)易新聞 查看精彩圖片

由于JARVIS可以調(diào)用其它模型工具,因此它可以執(zhí)行多模態(tài)任務(wù)。

MetaGPT

項目網(wǎng)址:https://github.com/geekan/MetaGPTMetaGPT

是另一個開源人工智能體框架,試圖模仿傳統(tǒng)軟件公司的結(jié)構(gòu)。與ChatDev類似,Agent被分配產(chǎn)品經(jīng)理、項目經(jīng)理和工程師的角色,并且他們在用戶定義的編碼任務(wù)上進(jìn)行協(xié)作。

工具、平臺、社區(qū)的不斷成熟,為個體開發(fā)者提供了一個全新的舞臺。程序員與人工智能之間的距離從未如此之近。AI Agent的崛起,讓有想法、有技術(shù)的人能夠以前所未有的方式釋放自己的創(chuàng)造力,打造出各種有趣、實用的AI原生應(yīng)用。

那么,你準(zhǔn)備好加入這場革命了嗎?