
在大模型邁向推理時代的當下,數(shù)學推理能力已成為衡量語言模型智能上限的關鍵指標。
近日,LLM360 推出了MegaMath:全球目前最大的開源數(shù)學推理預訓練數(shù)據(jù)集,共計3710 億(371B)tokens,覆蓋網(wǎng)頁、代碼和高質(zhì)量合成數(shù)據(jù)三大領域。

報告標題:MegaMath: Pushing the Limits of Open Math Corpora
技術報告:https://arxiv.org/abs/2504.02807
數(shù)據(jù)集地址:https://hf.co/datasets/LLM360/MegaMath
GitHub 代碼:https://github.com/LLM360/MegaMath
這不僅是首次在規(guī)模上超越 DeepSeek-Math Corpus(120B)的開源數(shù)據(jù)集,更代表從「只靠網(wǎng)頁」到「面向推理」的重大跨越。短短數(shù)日時間,數(shù)據(jù)集下載量已經(jīng)來到 3 萬余次,并且持續(xù)在Hugging Face趨勢榜上名列前茅。

MegaMath數(shù)據(jù)集總覽
為什么我們需要 MegaMath?
在現(xiàn)有主流閉源數(shù)學語料如 Qwen-2.5-Math(1T)和 DeepSeekMath(120B)持續(xù)展現(xiàn)卓越數(shù)學能力的同時,開源研究社區(qū)長期缺乏等量級、等質(zhì)量的數(shù)學數(shù)據(jù)。當前可用的開源數(shù)據(jù)集(如 OpenWebMath、FineMath)規(guī)模過小,無法支撐更大規(guī)模的模型訓練;過濾過度,導致數(shù)學樣本量缺失多樣性不足。

MegaMath和其他數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)對比
為解決這一痛點,MegaMath 團隊本著「做困難而正確的事情」為目標,以規(guī)模 × 質(zhì)量 × 多樣性為核心設計,歷時 9 個月時間,構建了全面開放的數(shù)學推理數(shù)據(jù)底座。
MegaMath 數(shù)據(jù)集共計3710 億 tokens,是之前經(jīng)典開源數(shù)學數(shù)據(jù),如 OpenWebMath 的約 20 倍。數(shù)據(jù)集共分為三大部分:
2790 億 tokens:數(shù)學密集網(wǎng)頁數(shù)據(jù)(Math-rich Web)
281 億 tokens:數(shù)學相關代碼(Math Code)
640 億 tokens:高質(zhì)量合成數(shù)據(jù)(Synthetic Data)
每部分數(shù)據(jù)均經(jīng)過多輪篩選、清洗并通過下游預訓練實驗充分驗證,以確保實用性與泛化能力并存。
構建 MegaMath 的秘方
如何構建這樣一個龐大的推理數(shù)據(jù)集呢?作者將他們主要分為 3 塊內(nèi)容,并精心設計了不同的數(shù)據(jù)「流水線」,確保高效、高質(zhì)量的數(shù)據(jù)開發(fā)。
高質(zhì)量的網(wǎng)頁數(shù)據(jù)構建

MegaMath的網(wǎng)頁數(shù)據(jù)處理流程
為了徹底優(yōu)化數(shù)學文本的處理流程,作者重新下載處理了2014–2024 年間所有的 99 個Common Crawl文件包,并對互聯(lián)網(wǎng)的數(shù)學文本提取進行一系列大量的工程優(yōu)化來確保數(shù)據(jù)質(zhì)量:
當前常用的開源文本抽取工具對 HTML 中數(shù)學的元素并沒有很好地處理,團隊因此開發(fā)了一套HTML 結構優(yōu)化的腳本,在抽取前就提取和優(yōu)化LaTeX、KaTeX、mathml 等元素中的公式信息進行重構,以確保在抽取時充分保留文本中的數(shù)學符號、公式和定理。
由于不同抽取器的處理速度有區(qū)別,團隊創(chuàng)新地采用了兩段式提取方法,第一階段注重效率,用快速的抽取器進行抽取 + 篩除非數(shù)學樣本;第二階段注重精度,用包含更多規(guī)則的處理器進一步移除文本噪音和精細篩選出和數(shù)學強相關的數(shù)據(jù)。這使得 MegaMath 最終保留出數(shù)學強相關、且更干凈的大規(guī)模數(shù)學文本數(shù)據(jù)。
對于如何訓練穩(wěn)健而準確的文本分類器,團隊也發(fā)現(xiàn)了因為種子數(shù)據(jù)收集帶來的分布偏移問題,因此在第一階段的粗篩之后通過重新收集種子數(shù)據(jù)訓練分類器來進行二階段篩選。
考慮到目前研究社區(qū)對于續(xù)訓練(Continual Pre-training)、中期訓練(Mid-Training)的廣泛需求,作者還利用語言模型對文本的教育價值進行動態(tài)打分,再次過濾得到包含極高教育價值的數(shù)學子集,并進一步用 LLM 進行精煉,得到了遠超開源任何數(shù)據(jù)集質(zhì)量的子集;在和現(xiàn)存最高質(zhì)量的數(shù)據(jù) FineMath 進行一對一公平對比時,也能顯著超過 4% 的下游性能。
這一系列的工程優(yōu)化和技術迭代最終形成了:
MegaMath-Web:包含263B tokens 的最大規(guī)模互聯(lián)網(wǎng)數(shù)學語料
MegaMath-Web-Pro:包含15B tokens 的 LLM 優(yōu)化后的超高質(zhì)量數(shù)學語料
精確的數(shù)學代碼數(shù)據(jù)召回

MegaMath-Code的多步召回流程
代碼數(shù)據(jù)被廣泛驗證,有利于提升模型的數(shù)學表現(xiàn)、提升模型利用「生成代碼 + 執(zhí)行求解」范式進行解題的能力。
因此,這是一份寶貴的數(shù)據(jù)領域。MegaMath 在現(xiàn)存最大的代碼預訓練數(shù)據(jù)集 Stack v2 中挖掘了數(shù)學相關代碼塊,同時結合團隊之前提出的Programming Every Example(ProX)方法,利用(1)大模型評分(LLM scoring);(2)微調(diào)小模型快速篩選(SLM filtering)的方式,高效清洗出了包括科學計算、符號推理、邏輯程序等領域的代碼數(shù)據(jù),形成 MegaMath-Code,一個包含28.1B tokens的數(shù)學相關語料,包含了共 11 種編程語言,進一步加強了數(shù)據(jù)集的豐富程度。
大規(guī)模數(shù)學數(shù)據(jù)合成

MegaMath-Synth的三種大規(guī)模合成方法
近年來,合成數(shù)據(jù)已經(jīng)成為大模型訓練不可缺失的一部分數(shù)據(jù);尤其是當傳統(tǒng)的數(shù)據(jù)已經(jīng)被大量發(fā)掘和利用的情況下,合成數(shù)據(jù)代表了一類可持續(xù)被開發(fā)的高質(zhì)量數(shù)據(jù)源。這在之前的開源預訓練數(shù)據(jù)集中,通常是沒有被探索的。
MegaMath 團隊積極擁抱合成數(shù)據(jù),并開源了預訓練規(guī)模的高質(zhì)量文本,包含(1)Q&A 問答形式(解決數(shù)學題);(2)合成代碼(跨語言轉為 Python);(3)文本 + 代碼交錯數(shù)據(jù)(更貼近真實解題場景);所有樣本都經(jīng)過質(zhì)量檢測(包括代碼塊的可執(zhí)行性校驗)。團隊通過不斷優(yōu)化 Prompt、簡化工程設計,達到在消融實驗中表現(xiàn)全面優(yōu)于現(xiàn)有合成的基線。
效果如何,表現(xiàn)說話

MegaMath-Llama-3.2 1B / 3B的表現(xiàn)在CoT和PAL測試上均提升顯著。
MegaMath 不是單純地「堆數(shù)據(jù)」拼大小,而是對每一步都進行了嚴謹驗證以確保數(shù)據(jù)質(zhì)量。
這包括:(1)文本抽取流程驗證;(2)去重策略對比(在機器承受范圍內(nèi)尋求最優(yōu)的MinHash去重策略);(3)fastText 過濾閾值、訓練策略調(diào)優(yōu);(4)代碼數(shù)據(jù)比重 & SLM召回率消融;(5)合成策略的迭代。
為了檢驗這些策略,所有的實驗都在足夠大的尺度下進行了預訓練 + 下游評測的驗證實驗,用來為最終的方案和策略提供足夠顯著的實驗信號。
最終,MegaMath 共進行了超過 50 次的預訓練驗證,并最終在Llama-3.2(1B & 3B)上進行了 100B 的預訓練。
實驗表明,MegaMath 能夠在 GSM8K、MATH 等數(shù) 10 個標準數(shù)學任務上取得15–20% 的絕對提升。這些數(shù)字實打實地說明了 MegaMath 數(shù)據(jù)集在數(shù)學推理上的顯著效果。
作者的愿景
作者希望,MegaMath 的發(fā)布,能在一定程度上推動開源數(shù)學預訓練數(shù)據(jù)集在規(guī)模、質(zhì)量與多樣性上的進一步發(fā)展,也希望 MegaMath 能成為構建更強數(shù)學語言模型的一個堅實起點,激發(fā)更多來自學術界與工業(yè)界的合作與創(chuàng)新。
在邁向更強推理能力與更高智能上限的過程中,MegaMath 只是初步階段的嘗試。作為一個致力于開放科學與開源研究的團隊,團隊深知這項工作的挑戰(zhàn)與局限,也非常感激開源社區(qū)給予的諸多啟發(fā)與幫助。
特別感謝 Hugging Face、DeepSeek、Qwen 等優(yōu)秀開源團隊長期以來提供的模型、工具和數(shù)據(jù)方案,讓團隊有機會站在巨人的肩膀上持續(xù)打磨和完善這個工作。
熱門跟貼