国产精品少妇一区,av人妻激情在线,欧美大片亚洲精品,农村妇女毛片精品久久久,亚洲精品下载

繼昨日放出新開源模型 Prover V2 之后，DeepSeek 在今天又公布了它的技術(shù)報告。

這份報告長達 34 頁，披露了更多該模型的重要技術(shù)細節(jié)和基準(zhǔn)測試表現(xiàn)，讓我們有機會進一步了解它的創(chuàng)新之處。

DeepSeek Prover V2 系列模型有兩個尺寸：7B 和 671B 參數(shù)。

DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基礎(chǔ)上進行訓(xùn)練，推理性能更強。

DeepSeek-Prover-V2-7B 則基于 DeepSeek-Prover-V1.5-Base 構(gòu)建，上下文長度得到了擴展，最高可達 32K token。

其中，DeepSeek-Prover-V2-671B 在神經(jīng)定理證明（neural theorem proving）領(lǐng)域超越了之前的模型：MiniF2F 測試集在 Pass@32 下達到了 82.4% 的準(zhǔn)確率。

兩個模型都已經(jīng)開源，可以在開源社區(qū) Hugging Face 上找到。技術(shù)論文則是在 GitHub 上（模型和論文鏈接在文末）。

據(jù)論文介紹，DeepSeek Prover V2 是一個專為 Lean 4 形式定理證明設(shè)計的開源大型語言模型。其最大創(chuàng)新點在于，能將非形式化的數(shù)學(xué)推理能力與嚴(yán)格的形式化證明過程結(jié)合在一起，實現(xiàn)了兩種思維模式的有效融合。

你可以想象一下，當(dāng)我們要解決一道數(shù)學(xué)題時，腦海中往往先有一個大致的思路，然后再一步步填充細節(jié)。這種從整體到局部、從思路到步驟的過程，對人類來說很自然，但對AI卻是一項艱巨的挑戰(zhàn)。

在 AI 發(fā)展歷程中，GPT 和 Claude 等大語言模型（LLM，Large Language Model）已經(jīng)展示出令人印象深刻的數(shù)學(xué)問題求解能力。它們能夠通過“思維鏈”（CoT，Chain-of-Thought）方法，像人類一樣逐步思考問題，甚至能解決一些競賽級別的難題。

然而，在更為嚴(yán)格的數(shù)學(xué)領(lǐng)域——形式化定理證明方面，AI 的表現(xiàn)卻相對遜色。

原因在于兩種思維模式的本質(zhì)差異：自然語言推理是靈活的、啟發(fā)式的，允許一定程度的模糊性和跳躍性思維；而形式化證明則要求百分百的精確性和嚴(yán)謹(jǐn)性，每一個推理步驟都必須經(jīng)過嚴(yán)格驗證，不允許任何隱含假設(shè)和細節(jié)省略。

就像兩種不同的語言，雖然表達的是同一個數(shù)學(xué)世界，但規(guī)則和要求卻大相徑庭。

為了解決這一挑戰(zhàn)，DeepSeek-Prover-V2 采用了一種創(chuàng)新的“遞歸定理證明流程”，這一流程的靈感源自人類數(shù)學(xué)家解決復(fù)雜問題的方法——將困難問題分解為一系列更容易解決的子問題。

首先，研究團隊利用 DeepSeek-V3 模型擔(dān)任“分解專家”的角色，構(gòu)建定理證明系統(tǒng)的基礎(chǔ)框架。

當(dāng)面對一個復(fù)雜的數(shù)學(xué)定理時，DeepSeek-V3 會用自然語言分析和理解問題，提出高層次的證明思路，將整個證明分解為一系列較小的子目標(biāo)，最后將每個子目標(biāo)翻譯成嚴(yán)格的 Lean 4 形式語言表達，由 have…sorry 語句組成，也就是需要解決的子目標(biāo)。

這種方法也是人類所用的證明構(gòu)建方式，即將復(fù)雜定理逐步簡化為一系列更易管理的引理。

一旦復(fù)雜問題被分解為多個子目標(biāo)，研究團隊就會使用更小的 7B 參數(shù)模型作為解題專家，逐一攻克這些子目標(biāo)。這種方法不僅提高了效率，還大幅降低了計算資源的消耗。

DeepSeek 采用遞歸求解策略系統(tǒng)地解決每個中間證明步驟。他們從 have 語句中提取子目標(biāo)表達式，用它們替代原始問題中的目標(biāo)，并將前面的子目標(biāo)作為前提條件。

這種構(gòu)建使后續(xù)子目標(biāo)能夠利用早期步驟的中間結(jié)果，從而促進更局部化的依賴結(jié)構(gòu)，有助于開發(fā)更簡單的引理。

為了減少大量證明搜索的計算開銷，使用專門優(yōu)化的小型 7B 證明模型處理分解后的引理。成功解決所有分解步驟后，原始定理的完整證明就可以自動推導(dǎo)出來。

在這個過程中，證明模型的訓(xùn)練需要大型形式語言問題集，但從人類編寫文本形式化獲得的訓(xùn)練信號通常較為稀疏，因為大部分計算嘗試都不會產(chǎn)生成功的證明，因此不提供積極的獎勵信號。

為了產(chǎn)生更密集的訓(xùn)練信號，DeepSeek 利用子目標(biāo)擴展用于模型訓(xùn)練的形式語句范圍，生成兩類子目標(biāo)定理：一類將前面的子目標(biāo)作為前提條件，另一類則不包含前提條件。

這兩類子目標(biāo)被整合到專家迭代階段，建立一個課程（curriculum），逐步引導(dǎo)證明模型系統(tǒng)地解決精心策劃的一系列挑戰(zhàn)性問題。

隨后，研究團隊挑選了一些 7B 證明模型無法“端到端（完全）解決”，但“所有子目標(biāo)均已成功解決”的挑戰(zhàn)性問題。通過組合所有子目標(biāo)的證明，他們構(gòu)建了原始問題的完整形式證明。這個證明再與 DeepSeek-V3 的自然語言推理過程配對，創(chuàng)建了“冷啟動推理數(shù)據(jù)”。

“這使我們能夠收集數(shù)百個高質(zhì)量的合成冷啟動數(shù)據(jù)，作為訓(xùn)練 DeepSeek-Prover-V2 的基礎(chǔ)。”論文寫道。

這些冷啟動數(shù)據(jù)之所以珍貴，是因為它們同時包含了兩種形式的數(shù)學(xué)推理：直觀的自然語言思考鏈和嚴(yán)格的形式化證明步驟。就像是給 AI 提供了一本內(nèi)容豐富的“雙語教材”，幫助它學(xué)習(xí)如何在兩種表達方式之間自如轉(zhuǎn)換。

有了冷啟動數(shù)據(jù)后，研究團隊通過面向推理的強化學(xué)習(xí)（Reasoning-oriented Reinforcement Learning）進一步優(yōu)化模型性能。在這個階段，DeepSeek-Prover-V2 會學(xué)習(xí)如何更好地連接非形式推理與形式證明構(gòu)建，特別注重保持證明結(jié)構(gòu)與初始分解思路的一致性。

這個過程類似于學(xué)生在掌握基本思路后，通過不斷練習(xí)和反饋來提升解題能力，逐漸形成自己的解題風(fēng)格和策略。

在訓(xùn)練階段，DeepSeek-Prover-V2 采用了兩階段訓(xùn)練策略，建立了兩種互補的證明生成模式：

高效非鏈?zhǔn)剿季S（non-CoT）模式：快速生成簡潔的形式 Lean 證明代碼，不包含明確的中間推理步驟。
高精度鏈?zhǔn)剿季S（CoT）模式：系統(tǒng)地闡述中間推理步驟，強調(diào)透明度和邏輯進展，構(gòu)建最終形式證明。

訓(xùn)練過程中，研究團隊使用“專家迭代”方法不斷提升模型能力。每次迭代中，用當(dāng)前最佳模型（策略）嘗試解決之前未能解決的問題，成功的證明被添加到訓(xùn)練數(shù)據(jù)中，用于改進模型。

這個迭代循環(huán)持續(xù)進行，使模型能夠逐步提高解決難題的能力。

此外，在強化學(xué)習(xí)階段，DeepSeek 使用了“群體相對策略優(yōu)化”的算法，相比傳統(tǒng) PPO 效果更好、效率更高。

性能方面，DeepSeek-Prover-V2 在多個主流基準(zhǔn)測試中都取得了不錯的成績。

在評估 AI 形式證明能力的標(biāo)準(zhǔn)測試集 MiniF2F 中，DeepSeek-Prover-V2-671B 創(chuàng)造了新記錄。在嘗試 32 次（Pass@32）的情況下達到了 82.4% 的準(zhǔn)確率，當(dāng)增加到 8192 次（Pass@8192）時，表現(xiàn)提高到了 88.9%。

圖 | 在 MiniF2F 測試集上的表現(xiàn)（來源：DeepSeek）

即使是參數(shù)較少的 DeepSeek-Prover-V2-7B 也超越了以往所有開源定理證明模型。

在評估大學(xué)水平數(shù)學(xué)能力的 ProofNet 和 PutnamBench 測試中，DeepSeek-Prover-V2-671B 同樣表現(xiàn)出色。在 ProofNet 測試集上，它以 Pass@1024 指標(biāo)達到了 37.1% 的解題率。在極具挑戰(zhàn)性的 PutnamBench 上成功解決了 658 個問題中的 49 個。

更加令人驚訝的是，研究團隊發(fā)現(xiàn)較小的 7B 模型在某些特定問題上甚至超越了 671B 的大模型，成功解決了 13 個大模型未能攻克的問題，將總解題數(shù)提升至 62 題。

在更全面的 CombiBench 測試中，DeepSeek-Prover-V2 在 77 個問題中解決了 12 個。雖然這一數(shù)字看似不高，但考慮到模型主要在數(shù)論和代數(shù)領(lǐng)域訓(xùn)練，這一表現(xiàn)已經(jīng)展示了其良好的跨領(lǐng)域泛化能力。

在 15 個來自 AIME 24 和 25 競賽的數(shù)學(xué)問題上，DeepSeek-Prover-V2-671B 成功解決了 6 個，而其通用語言模型 DeepSeek-V3 則解決了 8 個。

研究團隊認(rèn)為這一對比結(jié)果很有趣，因為它表明形式數(shù)學(xué)證明與非形式數(shù)學(xué)推理之間的能力差距正在顯著縮小。

最后，DeepSeek 團隊計劃將創(chuàng)造 DeepSeek-Prover-V2-671B 的經(jīng)驗擴展稱一個類似 AlphaProof 的系統(tǒng)，最終目標(biāo)是挑戰(zhàn)國際數(shù)學(xué)奧林匹克級別的數(shù)學(xué)問題。

至于傳聞中的下一代 V4/R2 模型，說不定也會用上相關(guān)的技術(shù)進展。

參考資料：

https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

論文鏈接：

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

模型鏈接：

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

排版：劉雅坤