天堂av网上,美腿丝袜 porn,欧美丰满人妻老熟妇xxxxx,国产乱码精品一区三区,欧美一级做a爰片久久毛片

Claude 悄悄進(jìn)化：全新“思考”工具解鎖，AI 也能像人一樣“停下來(lái)想想”了

AI寒武紀(jì)

2025-03-24 20:43 ·江蘇 ·優(yōu)質(zhì)互聯(lián)網(wǎng)領(lǐng)域創(chuàng)作者

Claude 模型搞了個(gè)新玩意兒，叫 “think tool”（思考工具）

簡(jiǎn)單來(lái)說(shuō)，這個(gè)工具就像給 Claude 加了個(gè)“暫停鍵” 和 “草稿紙”,可以在復(fù)雜任務(wù)期間為結(jié)構(gòu)化思考創(chuàng)造專用空間

這和之前他們說(shuō)的 “extended thinking”（擴(kuò)展思考）還不一樣?！皵U(kuò)展思考” 是模型在開(kāi)始生成答案前的預(yù)先思考和迭代。而 “think tool” 是在生成答案過(guò)程中，讓 Claude 可以隨時(shí)停下來(lái)，審視已有的信息，判斷是否需要進(jìn)一步分析

這個(gè) “思考” 有啥用？

Anthropic 官方說(shuō)，這招特別適合復(fù)雜工具調(diào)用的場(chǎng)景。比如：

信息過(guò)載時(shí)：Claude 需要處理多個(gè)工具的返回結(jié)果，信息量太大容易懵， “思考工具” 可以幫它慢下來(lái)，仔細(xì)分析

規(guī)則繁瑣時(shí)：面對(duì)復(fù)雜的政策或指南，Claude 需要逐條核對(duì)，確保操作合規(guī)，“思考工具” 可以輔助它進(jìn)行策略梳理

步步為營(yíng)時(shí)：在多步驟任務(wù)中，每一步都建立在前一步的基礎(chǔ)上，一旦出錯(cuò)代價(jià)很高，“思考工具” 可以幫助 Claude 在關(guān)鍵節(jié)點(diǎn)停下來(lái)，評(píng)估風(fēng)險(xiǎn)

技術(shù)細(xì)節(jié)：JSON 配置，簡(jiǎn)單易用

Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例，開(kāi)發(fā)者可以輕松集成到自己的應(yīng)用中。配置非常簡(jiǎn)潔，核心就是定義工具的名稱、描述和輸入?yún)?shù)（一個(gè)名為 “thought” 的效果實(shí)測(cè)：性能提升顯著

為了驗(yàn)證 “think tool” 的效果，Anthropic 用了 T-Bench 和 SWE-Bench 兩個(gè)基準(zhǔn)測(cè)試。

T-Bench (客戶服務(wù)場(chǎng)景):在模擬客戶服務(wù)對(duì)話中，“think tool” 配合優(yōu)化后的 prompt，在 Airline 領(lǐng)域的 pass@1 指標(biāo)上提升了54%！ Retail 領(lǐng)域也有明顯提升

SWE-Bench (軟件工程場(chǎng)景):在軟件工程任務(wù)中，加入 “think tool” 后，性能平均提升了1.6%

何時(shí)用，何時(shí)不用

“think tool” 雖然好用，但也不是萬(wàn)能藥。Anthropic 也給出了使用建議：

推薦使用場(chǎng)景：

?工具輸出分析
?政策合規(guī)環(huán)境
?連續(xù)決策任務(wù)

不推薦使用場(chǎng)景：

?非連續(xù)工具調(diào)用
?簡(jiǎn)單指令跟隨

研究表明，“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執(zhí)行需要在長(zhǎng)鏈工具調(diào)用中遵守政策和推理的復(fù)雜任務(wù)時(shí)的性能。 “思考”并不是一個(gè)萬(wàn)能的解決方案，但它為正確的用例提供了實(shí)質(zhì)性的好處，而且實(shí)現(xiàn)復(fù)雜性極低

參考：

https://www.anthropic.com/engineering/claude-think-tool

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過(guò)?

用你的贊和在看告訴我～

求贊