打開網(wǎng)易新聞 查看精彩圖片

作者 | 寧晨然

前段時(shí)間我去 QCon 北京全球軟件大會分享了一個(gè)專題:

AI 時(shí)代的新范式:如何構(gòu)建 AI 產(chǎn)品?

觀眾反響特別好,想著要不把分享的內(nèi)容公開出來,所以整理了這篇文章。本篇內(nèi)容是對我過去兩年時(shí)間,做了無數(shù)個(gè) AI 產(chǎn)品 demo 的一個(gè)階段性的總結(jié),主要聚焦這三個(gè)方面的經(jīng)驗(yàn):

為什么 AI 產(chǎn)品這么難做?

提示詞工程被極大低估

AI 產(chǎn)品團(tuán)隊(duì)如何構(gòu)建

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

謹(jǐn)小認(rèn)知,僅供參考。寫給所有 AI 路上的朋友們。

簡單自我介紹,我是 ONE2X AI 全棧工程師,AI 視頻剪輯效果負(fù)責(zé)人。負(fù)責(zé) ONE2X 的 Medeo(AI 視頻剪輯工具)的視頻自動化制作工作流全流程搭建、工具產(chǎn)品的設(shè)計(jì)及創(chuàng)新 AI 應(yīng)用場景探索。

22 年 11 月 GPT 剛出后,就開始嘗試做各種各樣的 AI 產(chǎn)品,23 年年中畢設(shè)做的是 AI 情感陪伴、暑假在做企業(yè)知識庫 Chatbot 智能客服、23 年年底到 24 年年中在大廠做低代碼編排 AI 工具和智能醫(yī)療、24 年年中到現(xiàn)在在 AI 創(chuàng)業(yè)工作做 AI 自動剪輯。途中還做過大大小小的 project,包括 AI 寫遺囑、AI Agent 做動畫等等……也算是積累了很多實(shí)操經(jīng)驗(yàn)了。

打開網(wǎng)易新聞 查看精彩圖片

為什么 AI 產(chǎn)品這么難做?

讓我們輕松的聊聊 AI 與產(chǎn)品

打開網(wǎng)易新聞 查看精彩圖片

認(rèn)知截止到 20250411

A Joke:先從一個(gè)笑話開始,你能看懂嗎?

打開網(wǎng)易新聞 查看精彩圖片

如果你知道每一條背后的原因,那么恭喜你上道了!

所以為什么 AI 產(chǎn)品這么難做?

AI 時(shí)代的產(chǎn)品和傳統(tǒng)的產(chǎn)品不一樣的是什么?

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

基礎(chǔ)流程是什么?

所有流程可枚舉全部已知

打開網(wǎng)易新聞 查看精彩圖片

流程的自動化的定義是什么,什么流程可以被 SOP 化,就可以做成產(chǎn)品。那 AI 產(chǎn)品,首先肯定是產(chǎn)品,其次它還會完成以前人類才能完成的某種任務(wù)。這個(gè)任務(wù)如果需要 AI 完成,那就發(fā)生了范式轉(zhuǎn)移

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

你得幫用戶做出來這個(gè)任務(wù)。

打開網(wǎng)易新聞 查看精彩圖片

舉個(gè)例子,Cursor

打開網(wǎng)易新聞 查看精彩圖片

Cursor 是我認(rèn)為 2024 年最好的 AI 產(chǎn)品

它解決了三端關(guān)系。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

Cursor Team 解決了如下問題:

  • 任務(wù)分級:根據(jù)給 AI 的執(zhí)行權(quán)限不同的不同可控顆粒度的任務(wù)

  • 幫用戶完成了任務(wù):每個(gè)任務(wù) / 功能在用戶還沒來之前就已知該任務(wù)如何完成(Coding,且無論語言,無論項(xiàng)目)

  • 交互方式:每個(gè)任務(wù) / 功能與人協(xié)同的人機(jī)交互方式

打開網(wǎng)易新聞 查看精彩圖片

提示詞工程被極大低估

認(rèn)知一:Prompt 也是代碼,所以要測試。

打開網(wǎng)易新聞 查看精彩圖片

尊重 prompt,同代碼享受同等權(quán)利,需要 git diff

需要對 prompt 單獨(dú)進(jìn)行版本管理

Prompt 也是代碼,但有區(qū)別?

打開網(wǎng)易新聞 查看精彩圖片

LLM 和函數(shù)很類似,它們都是實(shí)現(xiàn)某個(gè)“計(jì)算”的節(jié)點(diǎn)。

但它能提供比傳統(tǒng)函數(shù)能做的更多的事情,提供“智慧類型”計(jì)算。

它可以接受非結(jié)構(gòu)化的數(shù)據(jù),經(jīng)過推理,輸出非結(jié)構(gòu)化 / 結(jié)構(gòu)化的數(shù)據(jù)。

Prompt 也是代碼,如何測試……?

打開網(wǎng)易新聞 查看精彩圖片

函數(shù),我們在運(yùn)行前,通過 IDE 或者單測即可完成功能正確性校驗(yàn)。

LLM 怎么測試呢?

打開網(wǎng)易新聞 查看精彩圖片

如果你只是讓它完成傳統(tǒng)函數(shù)的任務(wù),也很好測試,可以使用 function call 加上單測。

比如加法任務(wù),只讓它輸出結(jié)果,可以做正確性校驗(yàn)。

但大概率你讓 LLM 做的事情是非結(jié)構(gòu)化的。

打開網(wǎng)易新聞 查看精彩圖片

所以 Prompt 的好壞怎么測?

一、格式正確性

使用 function call / Json mode 確保輸出格式不出錯(cuò)

任何 LLM 相關(guān)的調(diào)用,都使用 pydantic 嚴(yán)格校驗(yàn)

打開網(wǎng)易新聞 查看精彩圖片

二、功能 Baseline

輸出內(nèi)容,通過 batch evaluation 進(jìn)行校驗(yàn)。

打開網(wǎng)易新聞 查看精彩圖片

三、人工評測結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

模型的上限,還是取決于人對于結(jié)果的要求有多高。

Baseline 只是保證功能正常運(yùn)行,上限在于“人”

四、放權(quán)

模型可能比你想象中的更強(qiáng),不要限制它的思考方向,思考內(nèi)容,knowhow,把 prompt 當(dāng)成一種容器,你只是為模型提供必要的信息,而不是教它如何思考。

總結(jié)一下,Prompt 也是代碼,所以要測試。

打開網(wǎng)易新聞 查看精彩圖片

認(rèn)知二:AI 產(chǎn)品就是基于

“給模型提供上下文”出發(fā)開始的

首先,不要發(fā)現(xiàn)模型做不對任務(wù),就覺得它有問題。接下來以 Text2SQL 為例。

打開網(wǎng)易新聞 查看精彩圖片

做產(chǎn)品的人需要知道這個(gè)任務(wù)完成本身需要什么上下文,并且努力為模型提供出來。你并不需要那么多 Prompt 技巧,而是努力為模型提供更多的“必要信息”。

打開網(wǎng)易新聞 查看精彩圖片

你會發(fā)現(xiàn)跟人很像。把它當(dāng)成實(shí)習(xí)生,你也需要給實(shí)習(xí)生上下文。

打開網(wǎng)易新聞 查看精彩圖片

對于大部分業(yè)務(wù)場景而言,你不需要“神級 Prompt”(如下圖),你需要的是對業(yè)務(wù)的熟悉程度。把業(yè)務(wù) knowhow 沉淀成 Prompt。

打開網(wǎng)易新聞 查看精彩圖片

一件事情上下文到底是啥?尋找 root 變量的過程。

打開網(wǎng)易新聞 查看精彩圖片

認(rèn)知三:如何面向未來進(jìn)行設(shè)計(jì),

避免被模型更新所沖擊?

打開網(wǎng)易新聞 查看精彩圖片

Manus 畫的 AI Model Timeline

模型每天都在更新,我怎么設(shè)計(jì)提示詞和架構(gòu)?

模型更新之后,提示詞會不會失效了呢?

每個(gè)模型有什么不同的脾性?

模型越來越智能,未來還需要復(fù)雜的提示詞嗎?

Slow Down,別焦慮。

打不過就加入:用最好的模型的 API 創(chuàng)建應(yīng)用。除非自己順手能訓(xùn)練模型。

Flow Engineer:什么時(shí)候拆分任務(wù),什么時(shí)候合并任務(wù)?

打開網(wǎng)易新聞 查看精彩圖片

我的體感(純經(jīng)驗(yàn),沒有數(shù)據(jù)支撐,knowledge 截至 20250321)

如果不知道用啥,就先試試 Claude

通用類型任務(wù):Claude-3.5-Sonnet / Claude-3.7-Sonnet

強(qiáng)推理任務(wù):Claude / Gemini 2.5 Pro

中文語言任務(wù):DeepSeek

圖片多模態(tài)任務(wù):Claude / Gemini / 階躍

視頻多模態(tài)任務(wù):Gemini

簡單任務(wù):Gemini Flash (省錢)

中文 B 端本地任務(wù):Qwen

可能的 Bad Case:

DeepSeek 指令遵循弱

Gemini flash 幻覺嚴(yán)重

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然 GPT4o 生圖很好!

Flow Engineer

“Flow Engineering” 是一個(gè)最近越來越受歡迎的術(shù)語。它第一次被提及作為術(shù)語是在 CodiumAI 關(guān)于 AlphaCodium 的論文中,他們在論文中使用流工程來產(chǎn)生關(guān)于編碼問題的最新結(jié)果。

推薦看一遍Langgraph的 ipynb examples

打開網(wǎng)易新聞 查看精彩圖片

Flow 強(qiáng)調(diào)的是用整體系統(tǒng)設(shè)計(jì)去完成任務(wù)

多節(jié)點(diǎn)設(shè)計(jì),每個(gè)節(jié)點(diǎn)去實(shí)現(xiàn)單一任務(wù)。

單一任務(wù)簡單可靠,一定在 LLM 可實(shí)現(xiàn)范圍之內(nèi)。

當(dāng)一個(gè)任務(wù)太難的時(shí)候,就拆成兩個(gè)任務(wù)去做。

打開網(wǎng)易新聞 查看精彩圖片

好像有點(diǎn)像 Dify/Coze 的意思?

對,但不全對。不要忘了傳統(tǒng)代碼的能效。

打開網(wǎng)易新聞 查看精彩圖片

你并不需要全部節(jié)點(diǎn)都是 LLM,你也可以組合 function 和 LLM。

所以推薦使用 Dify/Coze 驗(yàn)證原型,寫代碼用 LangGraph 搭建實(shí)際應(yīng)用。

當(dāng)模型更新后,就合并任務(wù)。

在設(shè)計(jì) Flow 的時(shí)候,不需要拘泥于優(yōu)化一個(gè)節(jié)點(diǎn)的 LLM Prompt。

因?yàn)槟P屯评砟芰Σ粔?,大概率三個(gè)月后就夠了。不需要過度設(shè)計(jì)。

用幾個(gè)小的 task 拆解后完成任務(wù),等模型更新后把整個(gè)大任務(wù)交給新的模型。

打開網(wǎng)易新聞 查看精彩圖片

總結(jié)一下,Prompt Engineer 的認(rèn)知

AI 產(chǎn)品團(tuán)隊(duì)如何構(gòu)建

認(rèn)知一,首先你得成為“創(chuàng)作者”

Cursor 很厲害,也最先落地:

懂 AI 的本來就是程序員。團(tuán)隊(duì)懂 Coding。

團(tuán)隊(duì)知道如何拆解任務(wù),每一個(gè)任務(wù)如何寫 Prompt 的 knowhow,團(tuán)隊(duì)很清楚。

模型 Coding 能力已經(jīng)階躍(Claude3.5) 文本模態(tài) Coding 任務(wù)是最擅長的。但還有如此多的業(yè)務(wù)場景,等著創(chuàng)造

打開網(wǎng)易新聞 查看精彩圖片

認(rèn)知二,快速做出 Demo 最重要

AI 產(chǎn)品最后長成什么樣子,已經(jīng)是無人定義清楚的事情了。

只有當(dāng)把所有的要素及其,做出一個(gè) demo,你才知道這是什么感覺的產(chǎn)品。

打開網(wǎng)易新聞 查看精彩圖片

我做的大大小小的 demo

認(rèn)知三,產(chǎn)品 / 開發(fā)的界限模糊

以前的開發(fā)模式,是產(chǎn)品、研發(fā)。現(xiàn)在可能變成了一個(gè)緊密的團(tuán)隊(duì)一起調(diào) prompt。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

這是我在公司內(nèi)部做的后臺,支持任何人追溯每次 LLM 調(diào)用,并且重新調(diào)試 prompt。

打開網(wǎng)易新聞 查看精彩圖片

最好是產(chǎn)品 / 全棧能自己調(diào)試 prompt。

AI 產(chǎn)品需要緊密配合的團(tuán)隊(duì),一起設(shè)計(jì)架構(gòu)。

Prompt 需要溝通能力,業(yè)務(wù)能力。代碼需要研發(fā)能力。

Prompt + 代碼是團(tuán)隊(duì)之間才能做的事情。

一起創(chuàng)作。

我們正在見證新范式的出現(xiàn),很幸運(yùn)。

打開網(wǎng)易新聞 查看精彩圖片

有了 AI,才有了年輕人的機(jī)會,所以我非常感激能在這個(gè)時(shí)代能有這么多有意思的事情。

謹(jǐn)小認(rèn)知,僅供參考。

認(rèn)知截止到 20250411