8月12日,新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布《人工智能大模型體驗(yàn)報(bào)告2.0》,對(duì)當(dāng)前國(guó)內(nèi)風(fēng)生水起的主流大模型進(jìn)行了客觀評(píng)測(cè),結(jié)果顯示,科大訊飛星火總分第一。

相對(duì)于6月首次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》,本次測(cè)評(píng)在題目設(shè)計(jì)、對(duì)標(biāo)Benchmark(人類)、打分權(quán)重、專家測(cè)評(píng)團(tuán)隊(duì)四大維度進(jìn)行了全面升級(jí)。

其中,在題目設(shè)計(jì)方面,測(cè)評(píng)題目由300道擴(kuò)展至500道,并進(jìn)一步完善了題目分類:

在對(duì)標(biāo)Benchmark方面,本次測(cè)評(píng)將接受過高等教育的人類作為對(duì)照,來考評(píng)大模型真實(shí)能力;

在打分標(biāo)準(zhǔn)上,本次測(cè)評(píng)根據(jù)對(duì)產(chǎn)業(yè)、生活的實(shí)際價(jià)值,對(duì)基礎(chǔ)能力、智商能力、情商能力和工具提效四大測(cè)評(píng)維度進(jìn)行了權(quán)重設(shè)計(jì);

在測(cè)評(píng)團(tuán)隊(duì)方面,本次測(cè)評(píng)特邀北京大學(xué)文化與傳播研究所及其他產(chǎn)界、學(xué)界專家全程參與。

本次研究設(shè)置了用戶體驗(yàn)項(xiàng)目,抓取了7月31日—8月4日數(shù)據(jù),通過人機(jī)互動(dòng)提問等形式,對(duì)國(guó)內(nèi)主流大模型進(jìn)行使用體驗(yàn)評(píng)測(cè),旨在為科技企業(yè)調(diào)整努力方向提供參考。

報(bào)告顯示,與2023年6月相比,當(dāng)前中國(guó)大模型產(chǎn)品進(jìn)步顯著。但與接受過高等教育的人類相比,大模型在智商、情商等方面還存在一定程度差距。

綜合基礎(chǔ)能力、智商能力、情商能力和工具提效四大能力綜合得分情況來看,科大訊飛星火大模型得分1013,僅比人類答案少1分,在各主流大模型中排名第一。其它排在第二、第三的分別為百度文心一言和商湯商量。

據(jù)了解,科大訊飛星火大模型發(fā)布于5月6日,并于6月9日完成首次升級(jí)。相對(duì)于初始版本,訊飛星火訊飛新版本無論是知識(shí)問答能力、推理能力、數(shù)學(xué)能力、語言理解、代碼能力還是文本生成能力均有較大提升。

科大訊飛星火之所以有如此表現(xiàn),此前科大訊飛董事長(zhǎng)劉慶峰表示,主要是因?yàn)楣締T工努力和技術(shù)積累所致。

劉慶峰表示,在過去24年的創(chuàng)業(yè)歷程中,為了讓機(jī)器實(shí)現(xiàn)像人一樣能聽會(huì)說、能理解會(huì)思考,用人工智能建設(shè)美好世界的夢(mèng)想,科大訊飛人沒有一天停止過,也沒有一天不再奮斗。

在過去的創(chuàng)業(yè)歷程中,科大訊飛不僅徹底扭轉(zhuǎn)了中文語音產(chǎn)業(yè)的競(jìng)爭(zhēng)格局,而且在英文等多語種領(lǐng)域獲得了全球第一的地位。

在全球首次讓機(jī)器語音轉(zhuǎn)寫超過專業(yè)書記員;首次讓機(jī)器翻譯通過國(guó)家翻譯師資格考試;首次讓機(jī)器通過了國(guó)家執(zhí)業(yè)醫(yī)師資格考試。同時(shí)也是中國(guó)唯一一家承擔(dān)認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室建設(shè)的公司。

除技術(shù)積累外,科大訊飛還擁有成建制的團(tuán)隊(duì),且每一個(gè)關(guān)鍵模塊都是完全自主研發(fā)的,有完整的創(chuàng)新體系,這是科大訊飛在人工智能領(lǐng)域得以踏實(shí)前行的關(guān)鍵。

科大訊飛星火大模型當(dāng)前的版本為1.5,據(jù)悉,8月15日,科大訊飛將正式發(fā)布訊飛星火2.0版,在文本生成、語言理解、邏輯推理等各項(xiàng)能力持續(xù)提升的同時(shí),代碼能力和多模態(tài)能力將登上全新高度。