2025年4月8日,斯坦福大學(xué)與加拿大國(guó)立大學(xué)、卡內(nèi)基梅隆大學(xué)聯(lián)合發(fā)布的《2025年人工智能指數(shù)報(bào)告》(HAI報(bào)告)正式出爐,在眾多頂尖大模型的技術(shù)性能評(píng)測(cè)中,來(lái)自中國(guó)的訊飛星火4.0(Spark 4.0)憑借其在“MixEval-Hard”測(cè)試中的出色表現(xiàn),成為國(guó)內(nèi)唯一入圍前十的中文大模型,在所有國(guó)產(chǎn)大模型中排名第一,展示出強(qiáng)勁的技術(shù)實(shí)力與國(guó)際競(jìng)爭(zhēng)力。

MixEval是本次HAI報(bào)告引入的一項(xiàng)全新評(píng)測(cè)標(biāo)準(zhǔn),專為評(píng)估大語(yǔ)言模型在復(fù)雜真實(shí)語(yǔ)言任務(wù)中的表現(xiàn),尤其聚焦于“分布式用戶查詢”和“復(fù)雜問(wèn)題處理能力”。在更具挑戰(zhàn)性的MixEval-Hard基準(zhǔn)測(cè)試中,訊飛星火4.0超越了包括LLaMA 2、Gemini 1.5 Pro等多個(gè)國(guó)際知名模型以及通義千問(wèn)等國(guó)內(nèi)模型,成為唯一入榜前十的中國(guó)大模型選手。

從報(bào)告來(lái)看,在MixEval-Hard得分最高的是OpenAI的最新模型“OpenAI o1-preview”,以72.0分遙遙領(lǐng)先,其次是Anthropic的Claude 3.5 Sonnet(68.1分)以及Meta推出的LLaMA-3 405B-Instruct(66.2分)。訊飛星火4.0緊隨亞馬遜旗下模型Mistral Large2,以0.4的劣勢(shì)排在第十名,在多個(gè)維度上展現(xiàn)出不俗的語(yǔ)言理解和推理能力。
MixEval-Hard測(cè)試體系包括“過(guò)濾篩選”“語(yǔ)料注釋”“評(píng)估”和“動(dòng)態(tài)更新”等多個(gè)環(huán)節(jié),模擬真實(shí)場(chǎng)景下用戶與模型的交互過(guò)程,是目前衡量模型處理復(fù)雜任務(wù)能力最具代表性的基準(zhǔn)之一。其涵蓋多模態(tài)能力、事實(shí)一致性、推理能力等綜合指標(biāo),被業(yè)界稱為“大模型能力大考”。
作為科大訊飛旗下的重要戰(zhàn)略產(chǎn)品,訊飛星火大模型自2023年發(fā)布以來(lái)不斷迭代升級(jí)。其4.0版本于2024年6月發(fā)布的,在語(yǔ)義理解、邏輯推理、跨語(yǔ)種翻譯等多個(gè)領(lǐng)域都實(shí)現(xiàn)突破。2025年3月3日,訊飛星火發(fā)布深度推理模型X1在數(shù)學(xué)能力上大幅躍升,以70B參數(shù)規(guī)模便追平了o1和DeepSeek-R1。尤其針對(duì)小初高中文測(cè)試集(來(lái)自2023/2024各學(xué)段考試真題/模擬題/競(jìng)賽題),星火X1拿下SOTA。令人振奮的是,這一切全是在全國(guó)產(chǎn)算力平臺(tái)上實(shí)現(xiàn)的。
值得注意的是,本次HAI報(bào)告也指出,雖然中美在AI能力發(fā)展上仍存在差距,但中國(guó)本土模型正在以“快馬加鞭”的速度追趕國(guó)際巨頭,中美頂級(jí)AI模型的性能差距已經(jīng)縮小到了0.3%(2023年,這一數(shù)字還是20%),國(guó)產(chǎn)大模型正在邁向全球舞臺(tái)的中心。
熱門跟貼