打開網(wǎng)易新聞 查看精彩圖片

2025年,AI創(chuàng)作工具的普及已勢不可擋。

近日,童話大王鄭淵潔表示會(huì)停止更新自己所有的社交媒體,并說寫不過AI,“AI只用4秒也寫得比自己好,唯一的缺陷就是沒有想象力。”

從華東師范大學(xué)推出的“靈咔靈咔”智能寫作平臺(tái)一鍵生成百萬字小說《天命使徒》,到閱文集團(tuán)集成DeepSeek-R1模型為網(wǎng)文作家提供劇情推導(dǎo)服務(wù);從學(xué)生依賴AI完成作業(yè),到晉江文學(xué)城發(fā)布《AI輔助寫作使用規(guī)范》,技術(shù)的觸角已深入文學(xué)、教育、商業(yè)的毛細(xì)血管,AI寫作工具的普及正以摧枯拉朽之勢重塑內(nèi)容生產(chǎn)。

然而,這場效率狂歡的背后,暗流洶涌。有各類工具間的明爭暗斗,也有人類創(chuàng)作與AI的爭執(zhí)與討論。當(dāng)前有哪些AI寫作工具,他們有哪些特點(diǎn)?數(shù)據(jù)猿選取國內(nèi)外10個(gè)典型的AI大模型,從同一深度寫作任務(wù)出發(fā)進(jìn)行橫評(píng),真實(shí)展現(xiàn)各模型的創(chuàng)作邏輯、數(shù)據(jù)準(zhǔn)確性與稿件表現(xiàn)力,為內(nèi)容創(chuàng)作者與企業(yè)決策者提供一些參考。

AI寫作

AI寫作

效率狂歡還是創(chuàng)作末日?

效率狂歡還是創(chuàng)作末日?

這兩年,AI應(yīng)用成為了不可逆轉(zhuǎn)的潮流,很多傳統(tǒng)職業(yè)因此受到?jīng)_擊,動(dòng)輒AI替代某個(gè)職業(yè)的說法就會(huì)流傳開來,讓不少人倍感焦慮。

以AI寫作為例,當(dāng)前,市面上AI寫作類工具已經(jīng)呈現(xiàn)井噴趨勢。整體而言,AI寫作已經(jīng)呈現(xiàn)出寫作速度快、搜索能力強(qiáng)、信息量大、邏輯相對(duì)嚴(yán)密的特點(diǎn)。在應(yīng)用文或商業(yè)文案領(lǐng)域,AI寫作在時(shí)間成本方面已經(jīng)展現(xiàn)出比較大的優(yōu)勢。

但在市場上,AI寫作類工具紛繁復(fù)雜,水平參差不齊,從開發(fā)廠商、功能、交互、寫作水平、寫作效率等方面而言都有所區(qū)別。對(duì)此,數(shù)據(jù)猿盤點(diǎn)了當(dāng)前市面上主流的幾款國內(nèi)外AI包含寫作類大模型,并實(shí)測功能,希望給大家有所幫助(僅代表個(gè)人觀點(diǎn))。

打開網(wǎng)易新聞 查看精彩圖片

AI的爆火及自媒體、網(wǎng)絡(luò)的瘋狂侵占,甚至讓普通用戶很難分辨哪些大模型是簡單套殼,哪些是真正有背景有專業(yè)開發(fā)團(tuán)隊(duì)的產(chǎn)品。我們從國內(nèi)外找了幾款在寫作方面相對(duì)有代表性的產(chǎn)品,當(dāng)然,寫作只是AI大模型的一個(gè)基本功能之一,部分產(chǎn)品可能因?yàn)檎Z言問題導(dǎo)致結(jié)果有所差異,因此,測試部分僅供參考。

首先說國外的代表,ChatGPT不用多說,作為AI大模型的先行者,ChatGPT開啟了AI大模型的時(shí)代。其核心優(yōu)勢在于實(shí)時(shí)網(wǎng)絡(luò)搜索與文件處理能力,2025年新增的原生圖像生成功能支持通過對(duì)話迭代優(yōu)化設(shè)計(jì),例如保持角色一致性,適用于品牌內(nèi)容與技術(shù)文檔的創(chuàng)作。

就筆者使用體驗(yàn)來看,ChatGPT算是在寫作方面能力非常強(qiáng)的。ChatGPT擅長生成結(jié)構(gòu)化文本,如技術(shù)文檔和營銷方案,且能通過連接企業(yè)內(nèi)部知識(shí)庫提升回答準(zhǔn)確性,但目前而言,GPU超負(fù)載問題依然存在,生成速率進(jìn)一步限制用戶體驗(yàn)。

Claude由OpenAI前成員創(chuàng)立的Anthropic研發(fā),Claude的安全性和代碼能力在圈子里比較有名。其3.5版本在編程任務(wù)中效率非常高,支持通過MCP協(xié)議調(diào)用15000+API操作,顯著提升技術(shù)報(bào)告撰寫效率。寫作特色包括多文檔協(xié)同分析(如一次性處理多篇論文生成摘要)和代碼輔助創(chuàng)作(集成Cursor編輯器跨代碼庫生成報(bào)告)。但是Claude長時(shí)間運(yùn)行后穩(wěn)定性不足,且Claude 3.7 Max單次調(diào)用成本高達(dá)10美元,僅適合專業(yè)開發(fā)者。另外,免費(fèi)版每日消息數(shù)量受限,比較影響長文本體驗(yàn)。

Grok是馬斯克旗下xAI開發(fā)的大模型,以實(shí)時(shí)聯(lián)網(wǎng)與幽默對(duì)話為特色,適合撰寫時(shí)事評(píng)論與社交媒體文案。因?yàn)楸晨縓,在整合最新資訊方面較有優(yōu)勢,另外還能調(diào)用攝像頭實(shí)時(shí)生成創(chuàng)意內(nèi)容,比如讓它看某款產(chǎn)品,同時(shí)生成表述內(nèi)容等,或者讓它給出穿搭建議。但Grok缺乏多模態(tài)生成能力,功能較單一。在寫作場景中,Grok擅長熱點(diǎn)追蹤與擬人化表達(dá),但對(duì)學(xué)術(shù)寫作等深度任務(wù)支持較弱,生成內(nèi)容常流于表面。

Gemini由Google DeepMind研發(fā)的深度融合搜索數(shù)據(jù)與多模態(tài)技術(shù),支持40+語言全球化內(nèi)容創(chuàng)作,并基于用戶行為生成個(gè)性化報(bào)告。Gemini的圖像編輯功能可以一鍵移除版權(quán)水印,有一定法律爭議。在寫作領(lǐng)域,Gemini擅長數(shù)據(jù)驅(qū)動(dòng)創(chuàng)作(比如整合YouTube觀看歷史生成定制內(nèi)容),但功能迭代速度比OpenAI慢,在創(chuàng)新方面相對(duì)比較保守。

回到國內(nèi),首先當(dāng)然是深度求索開發(fā)的DeepSeek。

作為中國開源社區(qū)代表,DeepSeek憑借全球首個(gè)MoE架構(gòu)模型在技術(shù)博客與項(xiàng)目文檔生成中表現(xiàn)突出,相對(duì)擅長數(shù)學(xué)與邏輯密集型文本推理。在寫作領(lǐng)域,DeepSeek較為擅長基礎(chǔ)寫作和提綱擬定等,但R1(深度思考)幻覺問題格外突出(甚至?xí)摌?gòu)信源),使用過程中需要格外注意信源準(zhǔn)確問題。

通義千問由阿里云推出,覆蓋170+場景,集成釘釘與淘寶模板,可快速生成電商文案與營銷方案,支持圖文混排內(nèi)容創(chuàng)作,在電商文案領(lǐng)域表現(xiàn)較為突出,但生成內(nèi)容偏向標(biāo)準(zhǔn)化,個(gè)性化不足,且強(qiáng)依賴阿里系數(shù)據(jù)(如淘寶商品庫),跨平臺(tái)適配性受限。另外通義千問還集合了多種模型,如PPT功能,可以根據(jù)主題理出綱要、一鍵生成PPT,整體來看,PPT生成較為完整,并支持在內(nèi)容中直接一鍵修改導(dǎo)圖,但分類樣式和風(fēng)格較為局限;閱讀助手功能可以AI速讀論文、圖書等超長文檔;通義聽悟,可以進(jìn)行會(huì)議紀(jì)要、語音轉(zhuǎn)文字等,支持中文、日語、粵語、中英文混說等,算是AI實(shí)時(shí)會(huì)議紀(jì)要的神器。

Kimi由月之暗面開發(fā),專注長文本處理,Kimi憑借支持20萬字上下文分析,在小說續(xù)寫與學(xué)術(shù)論文綜述中表現(xiàn)不錯(cuò)。但是,超長文本處理耗時(shí)較長,如處理10萬字文檔需15分鐘以上,且交互方式單一,和通義比缺乏多模態(tài)擴(kuò)展能力。

豆包由字節(jié)跳動(dòng)開發(fā),以日活千萬級(jí)用戶量領(lǐng)跑,用戶體驗(yàn)較好,聚合功能較多,包括圖像生成、寫作、搜索、閱讀、編程、PPT、翻譯、音樂生成、視頻生成甚至語音通話等。在內(nèi)容創(chuàng)作方面擅長生成短視頻腳本、熱點(diǎn)梗圖配文等短平快內(nèi)容,但復(fù)雜邏輯文本生成能力較弱。

智譜清言由清華大學(xué)KEG實(shí)驗(yàn)室與智譜AI聯(lián)合研發(fā),新一代Agent產(chǎn)品“AutoGLM 沉思”非常強(qiáng)悍,尤其是瀏覽網(wǎng)頁和自動(dòng)操作方面,可以直接像人類一樣瀏覽知乎、小紅書、公眾號(hào)、京東等優(yōu)質(zhì)卻不對(duì)外開放API的信源,同時(shí)基于背后基座模型的多模態(tài)理解能力,讓這些網(wǎng)頁上的圖文信息被充分利用。在寫作方面,智譜清言AutoGLM沉思能探究開放式問題并根據(jù)結(jié)果執(zhí)行操作,能夠模擬人類”深度研究”的過程,從數(shù)據(jù)檢索、分析到生成報(bào)告。和其他大模型不同的是,AutoGLM沉思疊加了AutoGLM操作電腦瀏覽器的環(huán)境交互能力,也是第一個(gè)C端可以使用的擁有強(qiáng)反思能力的Agent產(chǎn)品。

但盡管邏輯非常成熟,但實(shí)際使用過程中,AutoGLM沉思仍然短板明顯,仍偏向于羅列要點(diǎn)層面。

文心一言由百度開發(fā),依托百度搜索引擎數(shù)據(jù)優(yōu)勢,在中文語境理解與SEO優(yōu)化建議生成中表現(xiàn)不錯(cuò),響應(yīng)速度比較快。目前文心一言有文心X1(深度思考)、文心4.5、文心4.0Turbo、文心3.5幾個(gè)版本,可以支撐創(chuàng)意寫作、閱讀分析、智慧繪圖等需求,在具體寫作方面,有深度寫作、改寫、擴(kuò)寫、仿寫、潤色、縮寫、續(xù)寫等功能,細(xì)分比較多。在具體創(chuàng)作方面,文心X1會(huì)有思考和行動(dòng)過程,產(chǎn)出內(nèi)容中規(guī)中矩,幻覺問題同樣較為突出。

由于國外AI大模型訪問限制,一般用戶可能難以訪問,但綜合而言,寫代碼優(yōu)先Claude,創(chuàng)意內(nèi)容可以優(yōu)先選可嘗試ChatGPT、Grok,數(shù)據(jù)處理分析優(yōu)先智譜清言,會(huì)議紀(jì)要優(yōu)先通義聽悟,長文本處理推薦Kimi,企業(yè)級(jí)應(yīng)用側(cè)重DeepSeek和通義千問,日常應(yīng)用豆包就可以滿足需求。

至于PPT版塊,當(dāng)前絕大多數(shù)AI生成的PPT都比較雞肋,乍一看很順暢,但無法生成精細(xì)的內(nèi)容,都是自動(dòng)化套版,后期需要大量的手工調(diào)整。

事實(shí)上,除了寫代碼,AI寫作仍停留中低層面,因?yàn)锳I本質(zhì)是概率組詞,而非思考。

長稿件性能比拼

長稿件性能比拼

大模型誰強(qiáng)誰弱

大模型誰強(qiáng)誰弱

盡管每個(gè)大模型側(cè)重點(diǎn)和優(yōu)勢不盡相同,但目前功能布局已經(jīng)大差不差。為進(jìn)一步測試各平臺(tái)稿件創(chuàng)作能力,我們以同樣的題目,在各平臺(tái)進(jìn)行結(jié)果呈現(xiàn),可以更直觀的了解各大模型的特點(diǎn)。

最近,AI在醫(yī)療領(lǐng)域的幻覺問題較為突出,我們以AI醫(yī)療創(chuàng)作為命題,以相對(duì)標(biāo)準(zhǔn)的提問方式對(duì)各模型進(jìn)行提問。以下為提問問題:

“你是一個(gè)醫(yī)療行業(yè)的深度內(nèi)容作者,2025年3月26日晚,上海萊士血液制品股份有限公司發(fā)布公告,宣布公司以42億元的對(duì)價(jià),收購南岳生物制藥有限公司100%股權(quán)。針對(duì)這一事件為由頭,深度分析此次收購的原因、對(duì)于上海萊士及國內(nèi)血制品賽道的影響。
具體要求:
①需側(cè)重具體數(shù)據(jù)分析,文中所有的數(shù)據(jù)均真實(shí)有效
②選取以往至少1個(gè)血制品領(lǐng)域的并購案例,并分析其對(duì)行業(yè)產(chǎn)生的影響
③盡可能原創(chuàng),不允許大段復(fù)制現(xiàn)有資料
④稿件需要至少3個(gè)大部分,字?jǐn)?shù)要求6000字以上。”

對(duì)于內(nèi)容創(chuàng)作者來說,AI能否對(duì)于工作提效很關(guān)鍵,但從專業(yè)角度來說,AI生成復(fù)雜稿件可用性、稿件內(nèi)容準(zhǔn)確性、表達(dá)邏輯等是驗(yàn)證AI創(chuàng)作實(shí)際應(yīng)用可落地的必要基礎(chǔ)。根據(jù)同樣的問題,各AI大模型都給出了答案。(使用次數(shù)限制等不在對(duì)比范圍,僅呈現(xiàn)回答內(nèi)容)

首先是ChatGPT,ChatGPT回答該問題僅僅用時(shí)46秒,回答稿件整體篇幅為4700字,基礎(chǔ)邏輯較為順暢,但整體內(nèi)容以羅列要點(diǎn)為主,再說稿件內(nèi)容準(zhǔn)確度,盡管開啟了搜索和推理功能,但該篇稿件內(nèi)容所用到的數(shù)據(jù)絕大部分是推理得出,幻覺現(xiàn)象較為嚴(yán)重,虛構(gòu)內(nèi)容頻繁出現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

ChatGPT

如“據(jù)《2023中國血制品市場年度報(bào)告》顯示,中國血液制品市場規(guī)模在近五年內(nèi)以年均12%~15%的速度增長,市場總值已突破300億元人民幣”、“并購后,上海萊士將整合雙方在全國范圍內(nèi)的銷售網(wǎng)絡(luò)和供貨渠道,預(yù)計(jì)市場占有率有望提升至35%以上”均為虛構(gòu),其中案例關(guān)鍵信息“2011年西班牙企業(yè)Grifols斥資約31億美元完成對(duì)美國Talecris生物制藥公司的并購”中,實(shí)際收購金額為34億美元,第二部分中所有數(shù)據(jù)均為虛構(gòu)。

接下來是Claude,我們采用的是Claude 3.7 Sonnet模式,整體用時(shí)在3分鐘以內(nèi)。從呈現(xiàn)上講,Claude 3.7 Sonnet是我認(rèn)為寫這篇稿子的最強(qiáng)輸出,正片稿件文本輸出達(dá)11000字,整體呈現(xiàn)條理清晰,并自動(dòng)輔以表格呈現(xiàn)支撐觀點(diǎn)。

打開網(wǎng)易新聞 查看精彩圖片

這篇類似報(bào)告的深度分析文章詳細(xì)探討了上海萊士收購南岳生物的戰(zhàn)略意義和行業(yè)影響。從行業(yè)布局到交易雙方近五年?duì)I收利潤情況,從國內(nèi)血制品行業(yè)格局到全球血制品行業(yè)格局,從交易整合風(fēng)險(xiǎn)到對(duì)上下游產(chǎn)業(yè)鏈影響,事無巨細(xì),一眼看去確實(shí)驚艷。

打開網(wǎng)易新聞 查看精彩圖片

Claude

但這篇稿件準(zhǔn)確度是硬傷,盡管文中表格非常多,數(shù)據(jù)呈現(xiàn)非常全面,但具體數(shù)據(jù)均為虛構(gòu),尤其是各企業(yè)營收、凈利潤及毛利等情況。但其相對(duì)國際化的視野是值得肯定的,如其對(duì)比了血制品國際巨頭CSL Behring的營收情況,盡管兩個(gè)對(duì)比對(duì)象營收數(shù)據(jù)都是錯(cuò)的,但還是提供了一個(gè)相對(duì)可以深入的點(diǎn)。(CSL Behring2024年?duì)I收為106億澳元,華蘭生物2024年?duì)I收為43.79億人民幣。)

在文章中這樣的案例非常多,對(duì)于作者來說,Claude確實(shí)提供了比較多思路,其萬字長文能力也確實(shí)出色。

打開網(wǎng)易新聞 查看精彩圖片

然后是Grok,Grok測試的是DeepSearch+Think模式,整體用時(shí)也在3分鐘以內(nèi),生成內(nèi)容4300多字。Grok采取的方式是先了解收購背景、優(yōu)化搜索、尋找官方信息、分析市場趨勢、評(píng)估并購影響,然后才是規(guī)劃文章結(jié)構(gòu)、整理數(shù)據(jù)、完善你文章內(nèi)容。這個(gè)邏輯鏈條非常準(zhǔn)確,整體內(nèi)容從分析并購原因、并購對(duì)于上海萊士及國內(nèi)血制品市場的影響及過往并購案例分析展開。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,硬傷還是數(shù)據(jù)虛構(gòu),盡管Grok生成的稿件中數(shù)據(jù)呈現(xiàn)沒有那么多,但是涉及到具體企業(yè)營收部分還是完全錯(cuò)誤。

打開網(wǎng)易新聞 查看精彩圖片

Grok

值得一提的是,Grok在文中提供了完全準(zhǔn)確的信源,甚至提供了準(zhǔn)確的行業(yè)報(bào)告下載鏈接,這一點(diǎn)是其他大模型沒有的,Grok非常注重搜索環(huán)節(jié),這可能和Grok背靠馬斯克X平臺(tái)有關(guān)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

接下來是Gemini,此次測試,我首先采用的是Gemini稱之為處理復(fù)雜任務(wù)效果最好的2.5 Pro (experimental)版本。但Gemini2.5Pro知識(shí)更新周期僅截止到2023年年初,所生成內(nèi)容不具備參考性。

因此,我采用的是Gemini Deep Research版本,Gemini Deep Research整體搜索網(wǎng)站多達(dá)254個(gè),用時(shí)長達(dá)20分鐘,但Gemini Deep Research整體研究能力超級(jí)強(qiáng),是我認(rèn)為最符合深度內(nèi)容作者內(nèi)容生產(chǎn)邏輯的大模型。Gemini Deep Research不僅對(duì)交易細(xì)節(jié)進(jìn)行了完整的分析,還找到了上海萊士和南岳生物過去幾年的財(cái)務(wù)報(bào)告,并根據(jù)財(cái)務(wù)報(bào)告對(duì)其營收、利潤進(jìn)行了分析。

打開網(wǎng)易新聞 查看精彩圖片

在具體內(nèi)容方面,Gemini Deep Research稿件長度為5700字,內(nèi)容包括并購背景、交易雙方財(cái)務(wù)表現(xiàn)、收購背后邏輯、對(duì)行業(yè)影響等,盡管數(shù)據(jù)截止到去年三季度,但其數(shù)據(jù)準(zhǔn)確度極其優(yōu)秀,所有內(nèi)容均有精確信源。

打開網(wǎng)易新聞 查看精彩圖片

Gemini

可以說,Gemini Deep Research是最給我驚喜的一個(gè)大模型,不僅所有內(nèi)容都基于公開報(bào)道,其分析也相對(duì)有條理,美中不足的是生成內(nèi)容更像是研究報(bào)告。

接下來我們回到國內(nèi),首先是DeepSeek,DeepSeekR1+聯(lián)網(wǎng)搜索模式下,整體內(nèi)容生成為1分鐘左右,盡管DeepSeek在稿件結(jié)尾說明“全文約6200字”,但實(shí)際上全文僅有2200字。從內(nèi)容上看,DeepSeek延續(xù)了起標(biāo)題的“硬實(shí)力”,內(nèi)容三個(gè)部分分別擬標(biāo)題為“收購動(dòng)因:資源稀缺性、戰(zhàn)略協(xié)同與行業(yè)競爭格局的倒逼”、“對(duì)上海萊士的影響:短期增益與長期風(fēng)險(xiǎn)并存”、“對(duì)國內(nèi)血制品行業(yè)的影響:集中度提升與競爭范式轉(zhuǎn)變”、“歷史鏡鑒:從鄭州萊士到南岳生物的商譽(yù)風(fēng)險(xiǎn)警示”、“結(jié)語:血制品行業(yè)的‘資源為王’與‘技術(shù)制勝’雙軌戰(zhàn)”,充滿行業(yè)里比較明顯的“AI味兒”。

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek

由于同步開啟了聯(lián)網(wǎng)搜索,DeepSeek的幻覺基本上進(jìn)行了規(guī)避,但整體偏向于內(nèi)容梳理,缺乏核心觀點(diǎn)。為了同步對(duì)比,我們同樣測試了DeepSeekR1版本,從篇幅方面,DeepSeekR1僅僅用1200字進(jìn)行了內(nèi)容歸納,并“指導(dǎo)”我們把每個(gè)章節(jié)擴(kuò)展至約2000字,以達(dá)成6000字的篇幅。

整體而言,DeepSeek這次的輸出內(nèi)容,明顯不能滿足長篇稿件要求。

接下來是通義千問,通義千問深度思考模式成稿篇幅為3000字,亮點(diǎn)在于行業(yè)趨勢解讀提出了頭部企業(yè)擴(kuò)張路徑的相關(guān)分析,參考信源共計(jì)9個(gè),整體內(nèi)容相對(duì)而言較為局限。

打開網(wǎng)易新聞 查看精彩圖片

通義千問

以長文本見長的Kimi反而在這個(gè)稿件中呈現(xiàn)比較普通,聯(lián)網(wǎng)+長思考(k1.5)模式下,全文僅有1700字,整體內(nèi)容呈現(xiàn)也以歸納為主,偏向分析,與深度稿件相比仍存在較大差距。

打開網(wǎng)易新聞 查看精彩圖片

Kimi

豆包同樣問題生成回答為2700字,和DeepSeek、通義千問相比,深度思考模式下豆包內(nèi)容中植入了表格,同時(shí)運(yùn)用了較多的數(shù)據(jù),但幻覺問題較為嚴(yán)重,虛構(gòu)數(shù)據(jù)、政策非常頻繁。和DeepSeek相比,豆包同樣在“秀文字”方面能力突出,尤其標(biāo)題堆砌詞藻現(xiàn)象明顯。

打開網(wǎng)易新聞 查看精彩圖片

豆包

打開網(wǎng)易新聞 查看精彩圖片

智譜清言測試的是AutoGLM沉思版本,整體用時(shí)超過半小時(shí),實(shí)操發(fā)現(xiàn),AutoGLM沉思版本每個(gè)問題點(diǎn)都需要搜索大量網(wǎng)頁并進(jìn)行分析,單個(gè)小點(diǎn)問題約用時(shí)3分鐘左右,以至于整個(gè)回答耗時(shí)非常久。文章篇幅為3300字,邏輯較為順暢,準(zhǔn)確度方面非常優(yōu)秀,基本上數(shù)據(jù)都有明確信源,但短板也比較明顯,由于參考了大量文獻(xiàn)及公開資料,AutoGLM沉思更偏向于信息羅列和數(shù)據(jù)引用,分析內(nèi)容較為缺乏。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

智譜清言

值得一提的是,AutoGLM沉思在思考的同時(shí),自動(dòng)在瀏覽器中打開了相關(guān)網(wǎng)頁,甚至自動(dòng)找到財(cái)報(bào)的PDF版本,并在分析完畢標(biāo)注“本輪任務(wù)”已結(jié)束,這一點(diǎn)是其他大模型都沒有的,相較于放信源鏈接,自動(dòng)打開瀏覽器、自動(dòng)搜索讓我看到了AI的另一個(gè)版本。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于文心一言,我們測試是文心4.0Turbo同時(shí)開啟深度思考(X1)和聯(lián)網(wǎng)搜索的版本,整體文章約3000字,整體文章邏輯較為清晰,收購動(dòng)因、歷史行業(yè)并購案和市場影響分析都較為全面,主要的問題是列點(diǎn)提綱式表述,很難稱之為完整文章。但由于啟動(dòng)了聯(lián)網(wǎng)搜索,文心4.0Turbo的信息準(zhǔn)確度非常高。背靠百度,文心一言信源分類比較豐富,各類財(cái)經(jīng)網(wǎng)站、百家號(hào)、甚至微信公眾號(hào)都在借鑒范圍之內(nèi),這一點(diǎn)值得肯定。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

文心一言

基于以上結(jié)果,我們對(duì)十大AI模型進(jìn)行了橫向?qū)Ρ?,?dāng)然,每個(gè)大模型擅長領(lǐng)域或方向可能不盡相同,本文僅以相同中文問題如實(shí)呈現(xiàn)各模型回答情況,僅供參考。

打開網(wǎng)易新聞 查看精彩圖片

(評(píng)分以實(shí)際使用體驗(yàn)為準(zhǔn),僅供參考)

就生成速度而言,智譜清言AutoGLM沉思用時(shí)超過半小時(shí),是本次測試中生成速度最慢的,Gemini Deep Research次之,用時(shí)20分鐘,其他大模型均較為迅速,基本上在5分鐘以內(nèi)即可回答完畢。

在稿件邏輯方面,各模型整體稿件邏輯都較為順暢,沒有明顯的邏輯不通情況,這表明當(dāng)前大模型在深度稿件邏輯梳理方面已經(jīng)較為出色。

在稿件準(zhǔn)確度方面,整體而言同時(shí)開啟聯(lián)網(wǎng)搜索和深度思考(推理)模式下,大部分大模型幻覺現(xiàn)象仍未減少,如ChatGPT、Claude、通義千問、Kimi、豆包。但國外Gemini Deep Research、國內(nèi)智譜清言AutoGLM沉思稿件準(zhǔn)確度優(yōu)勢突出。

測試結(jié)果表明,當(dāng)前無一模型能夠100%滿足深度稿件生產(chǎn)所需的準(zhǔn)確性與原創(chuàng)性標(biāo)準(zhǔn),但部分模型在不同維度已展現(xiàn)出比較強(qiáng)的能力。

給人印象比較深的是Claude 3.7 Sonnet超有邏輯等的萬字長文加表格呈現(xiàn),grok DeepSearch+Think模式下完整的思考邏輯鏈條和提供完全準(zhǔn)確且可供下載的報(bào)告鏈接,Gemini Deep Research的類學(xué)術(shù)內(nèi)容產(chǎn)出及超級(jí)精準(zhǔn)的數(shù)據(jù)呈現(xiàn)。

當(dāng)然,也有國內(nèi)大模型也有出色之處,如DeepSeek、豆包等在中文文字表達(dá)方面更有創(chuàng)意,智譜清言和文心一言在數(shù)據(jù)方面相對(duì)較為嚴(yán)謹(jǐn),智譜清言AutoGLM沉思甚至可以自行在瀏覽器搜索內(nèi)容讓人印象深刻。

國外VS國內(nèi)

國外VS國內(nèi)

長文本內(nèi)容AI輔助的幾點(diǎn)歸納

長文本內(nèi)容AI輔助的幾點(diǎn)歸納

國內(nèi)外大模型之爭已經(jīng)走入深水區(qū),不同大模型的側(cè)重點(diǎn)和擅長領(lǐng)域都不盡相同。篇幅原因,我們很難具象呈現(xiàn)每個(gè)大模型的特色及真正擅長的領(lǐng)域,但盡管如此,通過相同的題目,至少可以從這個(gè)冰山一角看過去,檢驗(yàn)各大模型在相對(duì)篇幅較長,更偏重深度、分析的稿件中的表現(xiàn)。

整體來看,國內(nèi)外主流AI模型還是有差異的,具體有以下幾點(diǎn):

①內(nèi)容生成風(fēng)格方面,國內(nèi)AI更具中文優(yōu)勢

盡管幾乎所有大模型都支持中文,但其質(zhì)量和有效性可能因底層模型的訓(xùn)練數(shù)據(jù)和特定的語言處理能力而異,許多國際LLM的主要訓(xùn)練數(shù)據(jù)都以英語為中心,在處理中文過程中部分工具依賴于翻譯,可能無法捕捉到中文的所有細(xì)微差別。但國內(nèi)工具由于原生設(shè)計(jì),可以訪問大量的中國互聯(lián)網(wǎng)數(shù)據(jù),包括來自微信和微博等社交媒體平臺(tái)的內(nèi)容、來自阿里巴巴和京東等電子商務(wù)平臺(tái)的數(shù)據(jù)、來自百度的搜索數(shù)據(jù)以及各平臺(tái)新聞。因此在中文的理解和運(yùn)用上更具有優(yōu)勢,甚至?xí)牟伸偶肌薄皹?biāo)題堆砌”現(xiàn)象,但也更容易產(chǎn)生形式大于內(nèi)容的問題。

在內(nèi)容風(fēng)格方面,國外AI大模型受西方溝通規(guī)范影響,通常傾向于清晰、簡潔和更直接的表述。國內(nèi)大模型的內(nèi)容生成風(fēng)格更貼合中國的寫作習(xí)慣,在某些情況下更強(qiáng)調(diào)不同的修辭結(jié)構(gòu)、正式程度和間接性。

②數(shù)據(jù)引用各不相同,各平臺(tái)均有側(cè)重

直接點(diǎn)說,大部分大模型都“夾帶私貨”,Grok背靠X,Geminni信源多為谷歌,通義千問之于阿里、豆包背靠抖音,文心一言背靠百度等等,因此在實(shí)際過程中,對(duì)于信源的參考及植入,也會(huì)更傾向于自身平臺(tái),這一點(diǎn)是需要用戶進(jìn)行識(shí)別和甄選的。

打開網(wǎng)易新聞 查看精彩圖片

國際與國內(nèi)AI寫作助手的主要區(qū)別(僅供參考)

單純就本次測試而言,個(gè)人認(rèn)為盡管語言層面不占優(yōu)勢,但國外大模型在命令理解能力、邏輯產(chǎn)出等方面仍可圈可點(diǎn)。

對(duì)于目標(biāo)是出海甚至面向全球的國內(nèi)AI來說,能預(yù)見這段路可能比想象的要長。當(dāng)然,一篇稿件很難評(píng)價(jià)出誰優(yōu)勢更大,但就長文本輔助產(chǎn)出來說,希望能夠給到大家一些參考或啟發(fā)。

對(duì)于內(nèi)容創(chuàng)作者而言,AI是得力助手,但不是終極答案,真正的創(chuàng)作仍需人類判斷與思維參與。

在AI重構(gòu)內(nèi)容產(chǎn)業(yè)格局的今天,我們不僅要關(guān)注“寫得快不快”,更應(yīng)思考“寫得準(zhǔn)不準(zhǔn)、深不深”。最后,是部分寫作場景的大模型選擇建議,僅供參考:

打開網(wǎng)易新聞 查看精彩圖片