《科創(chuàng)板日?qǐng)?bào)》30日訊,DeepSeek今日于AI開源社區(qū)Hugging Face上發(fā)布了一個(gè)名為DeepSeek-Prover-V2-671B的新模型。據(jù)悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors文件格式,并支持多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署,參數(shù)達(dá)6710億,或?yàn)槿ツ臧l(fā)布的Prover-V1.5數(shù)學(xué)模型升級(jí)版本。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長(zhǎng)上下文,最大位置嵌入達(dá)16.38萬,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提高推理效率。
DeepSeek發(fā)布Prover-V2模型 參數(shù)量達(dá)6710億

熱門跟貼