
Claude 模型搞了個(gè)新玩意兒,叫 “think tool”(思考工具)
簡(jiǎn)單來(lái)說(shuō),這個(gè)工具就像給 Claude 加了個(gè)“暫停鍵” 和 “草稿紙”,可以在復(fù)雜任務(wù)期間為結(jié)構(gòu)化思考創(chuàng)造專用空間

這和之前他們說(shuō)的 “extended thinking”(擴(kuò)展思考)還不一樣?!皵U(kuò)展思考” 是模型在 開(kāi)始生成答案前 的預(yù)先思考和迭代。而 “think tool” 是在 生成答案過(guò)程中,讓 Claude 可以隨時(shí)停下來(lái),審視已有的信息,判斷是否需要進(jìn)一步分析
這個(gè) “思考” 有啥用?
Anthropic 官方說(shuō),這招特別適合復(fù)雜工具調(diào)用的場(chǎng)景。比如:
信息過(guò)載時(shí):Claude 需要處理多個(gè)工具的返回結(jié)果,信息量太大容易懵, “思考工具” 可以幫它慢下來(lái),仔細(xì)分析
規(guī)則繁瑣時(shí):面對(duì)復(fù)雜的政策或指南,Claude 需要逐條核對(duì),確保操作合規(guī),“思考工具” 可以輔助它進(jìn)行策略梳理
步步為營(yíng)時(shí):在多步驟任務(wù)中,每一步都建立在前一步的基礎(chǔ)上,一旦出錯(cuò)代價(jià)很高,“思考工具” 可以幫助 Claude 在關(guān)鍵節(jié)點(diǎn)停下來(lái),評(píng)估風(fēng)險(xiǎn)
技術(shù)細(xì)節(jié):JSON 配置,簡(jiǎn)單易用
Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例,開(kāi)發(fā)者可以輕松集成到自己的應(yīng)用中。配置非常簡(jiǎn)潔,核心就是定義工具的名稱、描述和輸入?yún)?shù)(一個(gè)名為 “thought” 的效果實(shí)測(cè):性能提升顯著
為了驗(yàn)證 “think tool” 的效果,Anthropic 用了 T-Bench 和 SWE-Bench 兩個(gè)基準(zhǔn)測(cè)試。
T-Bench (客戶服務(wù)場(chǎng)景):在模擬客戶服務(wù)對(duì)話中,“think tool” 配合優(yōu)化后的 prompt,在 Airline 領(lǐng)域的 pass@1 指標(biāo)上提升了54%! Retail 領(lǐng)域也有明顯提升


SWE-Bench (軟件工程場(chǎng)景):在軟件工程任務(wù)中,加入 “think tool” 后,性能平均提升了1.6%
何時(shí)用,何時(shí)不用
“think tool” 雖然好用,但也不是萬(wàn)能藥。Anthropic 也給出了使用建議:
推薦使用場(chǎng)景:
?工具輸出分析
?政策合規(guī)環(huán)境
?連續(xù)決策任務(wù)
不推薦使用場(chǎng)景:
?非連續(xù)工具調(diào)用
?簡(jiǎn)單指令跟隨
研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執(zhí)行需要在長(zhǎng)鏈工具調(diào)用中遵守政策和推理的復(fù)雜任務(wù)時(shí)的性能 。 “思考”并不是一個(gè)萬(wàn)能的解決方案,但它為正確的用例提供了實(shí)質(zhì)性的好處,而且實(shí)現(xiàn)復(fù)雜性極低
參考:
https://www.anthropic.com/engineering/claude-think-tool
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?
用你的贊和在看告訴我~
求贊
熱門(mén)跟貼