精品国产丝袜肉丝出水,av男人的天堂免费看,av视频www,又色又爽又黄又刺激国产视频,欧美日韩在线一区二区在线视频

2025年，AI創(chuàng)作工具的普及已勢不可擋。

近日，童話大王鄭淵潔表示會(huì)停止更新自己所有的社交媒體，并說寫不過AI，“AI只用4秒也寫得比自己好，唯一的缺陷就是沒有想象力。”

從華東師范大學(xué)推出的“靈咔靈咔”智能寫作平臺(tái)一鍵生成百萬字小說《天命使徒》，到閱文集團(tuán)集成DeepSeek-R1模型為網(wǎng)文作家提供劇情推導(dǎo)服務(wù)；從學(xué)生依賴AI完成作業(yè)，到晉江文學(xué)城發(fā)布《AI輔助寫作使用規(guī)范》，技術(shù)的觸角已深入文學(xué)、教育、商業(yè)的毛細(xì)血管，AI寫作工具的普及正以摧枯拉朽之勢重塑內(nèi)容生產(chǎn)。

然而，這場效率狂歡的背后，暗流洶涌。有各類工具間的明爭暗斗，也有人類創(chuàng)作與AI的爭執(zhí)與討論。當(dāng)前有哪些AI寫作工具，他們有哪些特點(diǎn)？數(shù)據(jù)猿選取國內(nèi)外10個(gè)典型的AI大模型，從同一深度寫作任務(wù)出發(fā)進(jìn)行橫評(píng)，真實(shí)展現(xiàn)各模型的創(chuàng)作邏輯、數(shù)據(jù)準(zhǔn)確性與稿件表現(xiàn)力，為內(nèi)容創(chuàng)作者與企業(yè)決策者提供一些參考。

AI寫作

效率狂歡還是創(chuàng)作末日？

這兩年，AI應(yīng)用成為了不可逆轉(zhuǎn)的潮流，很多傳統(tǒng)職業(yè)因此受到?jīng)_擊，動(dòng)輒AI替代某個(gè)職業(yè)的說法就會(huì)流傳開來，讓不少人倍感焦慮。

以AI寫作為例，當(dāng)前，市面上AI寫作類工具已經(jīng)呈現(xiàn)井噴趨勢。整體而言，AI寫作已經(jīng)呈現(xiàn)出寫作速度快、搜索能力強(qiáng)、信息量大、邏輯相對(duì)嚴(yán)密的特點(diǎn)。在應(yīng)用文或商業(yè)文案領(lǐng)域，AI寫作在時(shí)間成本方面已經(jīng)展現(xiàn)出比較大的優(yōu)勢。

但在市場上，AI寫作類工具紛繁復(fù)雜，水平參差不齊，從開發(fā)廠商、功能、交互、寫作水平、寫作效率等方面而言都有所區(qū)別。對(duì)此，數(shù)據(jù)猿盤點(diǎn)了當(dāng)前市面上主流的幾款國內(nèi)外AI包含寫作類大模型，并實(shí)測功能，希望給大家有所幫助（僅代表個(gè)人觀點(diǎn)）。

AI的爆火及自媒體、網(wǎng)絡(luò)的瘋狂侵占，甚至讓普通用戶很難分辨哪些大模型是簡單套殼，哪些是真正有背景有專業(yè)開發(fā)團(tuán)隊(duì)的產(chǎn)品。我們從國內(nèi)外找了幾款在寫作方面相對(duì)有代表性的產(chǎn)品，當(dāng)然，寫作只是AI大模型的一個(gè)基本功能之一，部分產(chǎn)品可能因?yàn)檎Z言問題導(dǎo)致結(jié)果有所差異，因此，測試部分僅供參考。

首先說國外的代表，ChatGPT不用多說，作為AI大模型的先行者，ChatGPT開啟了AI大模型的時(shí)代。其核心優(yōu)勢在于實(shí)時(shí)網(wǎng)絡(luò)搜索與文件處理能力，2025年新增的原生圖像生成功能支持通過對(duì)話迭代優(yōu)化設(shè)計(jì)，例如保持角色一致性，適用于品牌內(nèi)容與技術(shù)文檔的創(chuàng)作。

就筆者使用體驗(yàn)來看，ChatGPT算是在寫作方面能力非常強(qiáng)的。ChatGPT擅長生成結(jié)構(gòu)化文本，如技術(shù)文檔和營銷方案，且能通過連接企業(yè)內(nèi)部知識(shí)庫提升回答準(zhǔn)確性，但目前而言，GPU超負(fù)載問題依然存在，生成速率進(jìn)一步限制用戶體驗(yàn)。

Claude由OpenAI前成員創(chuàng)立的Anthropic研發(fā)，Claude的安全性和代碼能力在圈子里比較有名。其3.5版本在編程任務(wù)中效率非常高，支持通過MCP協(xié)議調(diào)用15000+API操作，顯著提升技術(shù)報(bào)告撰寫效率。寫作特色包括多文檔協(xié)同分析（如一次性處理多篇論文生成摘要）和代碼輔助創(chuàng)作（集成Cursor編輯器跨代碼庫生成報(bào)告）。但是Claude長時(shí)間運(yùn)行后穩(wěn)定性不足，且Claude 3.7 Max單次調(diào)用成本高達(dá)10美元，僅適合專業(yè)開發(fā)者。另外，免費(fèi)版每日消息數(shù)量受限，比較影響長文本體驗(yàn)。

Grok是馬斯克旗下xAI開發(fā)的大模型，以實(shí)時(shí)聯(lián)網(wǎng)與幽默對(duì)話為特色，適合撰寫時(shí)事評(píng)論與社交媒體文案。因?yàn)楸晨縓，在整合最新資訊方面較有優(yōu)勢，另外還能調(diào)用攝像頭實(shí)時(shí)生成創(chuàng)意內(nèi)容，比如讓它看某款產(chǎn)品，同時(shí)生成表述內(nèi)容等，或者讓它給出穿搭建議。但Grok缺乏多模態(tài)生成能力，功能較單一。在寫作場景中，Grok擅長熱點(diǎn)追蹤與擬人化表達(dá)，但對(duì)學(xué)術(shù)寫作等深度任務(wù)支持較弱，生成內(nèi)容常流于表面。

Gemini由Google DeepMind研發(fā)的深度融合搜索數(shù)據(jù)與多模態(tài)技術(shù)，支持40+語言全球化內(nèi)容創(chuàng)作，并基于用戶行為生成個(gè)性化報(bào)告。Gemini的圖像編輯功能可以一鍵移除版權(quán)水印，有一定法律爭議。在寫作領(lǐng)域，Gemini擅長數(shù)據(jù)驅(qū)動(dòng)創(chuàng)作（比如整合YouTube觀看歷史生成定制內(nèi)容），但功能迭代速度比OpenAI慢，在創(chuàng)新方面相對(duì)比較保守。

回到國內(nèi)，首先當(dāng)然是深度求索開發(fā)的DeepSeek。

作為中國開源社區(qū)代表，DeepSeek憑借全球首個(gè)MoE架構(gòu)模型在技術(shù)博客與項(xiàng)目文檔生成中表現(xiàn)突出，相對(duì)擅長數(shù)學(xué)與邏輯密集型文本推理。在寫作領(lǐng)域，DeepSeek較為擅長基礎(chǔ)寫作和提綱擬定等，但R1（深度思考）幻覺問題格外突出（甚至?xí)摌?gòu)信源），使用過程中需要格外注意信源準(zhǔn)確問題。

通義千問由阿里云推出，覆蓋170+場景，集成釘釘與淘寶模板，可快速生成電商文案與營銷方案，支持圖文混排內(nèi)容創(chuàng)作，在電商文案領(lǐng)域表現(xiàn)較為突出，但生成內(nèi)容偏向標(biāo)準(zhǔn)化，個(gè)性化不足，且強(qiáng)依賴阿里系數(shù)據(jù)（如淘寶商品庫），跨平臺(tái)適配性受限。另外通義千問還集合了多種模型，如PPT功能，可以根據(jù)主題理出綱要、一鍵生成PPT，整體來看，PPT生成較為完整，并支持在內(nèi)容中直接一鍵修改導(dǎo)圖，但分類樣式和風(fēng)格較為局限；閱讀助手功能可以AI速讀論文、圖書等超長文檔；通義聽悟，可以進(jìn)行會(huì)議紀(jì)要、語音轉(zhuǎn)文字等，支持中文、日語、粵語、中英文混說等，算是AI實(shí)時(shí)會(huì)議紀(jì)要的神器。

Kimi由月之暗面開發(fā)，專注長文本處理，Kimi憑借支持20萬字上下文分析，在小說續(xù)寫與學(xué)術(shù)論文綜述中表現(xiàn)不錯(cuò)。但是，超長文本處理耗時(shí)較長，如處理10萬字文檔需15分鐘以上，且交互方式單一，和通義比缺乏多模態(tài)擴(kuò)展能力。

豆包由字節(jié)跳動(dòng)開發(fā)，以日活千萬級(jí)用戶量領(lǐng)跑，用戶體驗(yàn)較好，聚合功能較多，包括圖像生成、寫作、搜索、閱讀、編程、PPT、翻譯、音樂生成、視頻生成甚至語音通話等。在內(nèi)容創(chuàng)作方面擅長生成短視頻腳本、熱點(diǎn)梗圖配文等短平快內(nèi)容，但復(fù)雜邏輯文本生成能力較弱。

智譜清言由清華大學(xué)KEG實(shí)驗(yàn)室與智譜AI聯(lián)合研發(fā)，新一代Agent產(chǎn)品“AutoGLM 沉思”非常強(qiáng)悍，尤其是瀏覽網(wǎng)頁和自動(dòng)操作方面，可以直接像人類一樣瀏覽知乎、小紅書、公眾號(hào)、京東等優(yōu)質(zhì)卻不對(duì)外開放API的信源，同時(shí)基于背后基座模型的多模態(tài)理解能力，讓這些網(wǎng)頁上的圖文信息被充分利用。在寫作方面，智譜清言AutoGLM沉思能探究開放式問題并根據(jù)結(jié)果執(zhí)行操作，能夠模擬人類”深度研究”的過程，從數(shù)據(jù)檢索、分析到生成報(bào)告。和其他大模型不同的是，AutoGLM沉思疊加了AutoGLM操作電腦瀏覽器的環(huán)境交互能力，也是第一個(gè)C端可以使用的擁有強(qiáng)反思能力的Agent產(chǎn)品。

但盡管邏輯非常成熟，但實(shí)際使用過程中，AutoGLM沉思仍然短板明顯，仍偏向于羅列要點(diǎn)層面。

文心一言由百度開發(fā)，依托百度搜索引擎數(shù)據(jù)優(yōu)勢，在中文語境理解與SEO優(yōu)化建議生成中表現(xiàn)不錯(cuò)，響應(yīng)速度比較快。目前文心一言有文心X1（深度思考）、文心4.5、文心4.0Turbo、文心3.5幾個(gè)版本，可以支撐創(chuàng)意寫作、閱讀分析、智慧繪圖等需求，在具體寫作方面，有深度寫作、改寫、擴(kuò)寫、仿寫、潤色、縮寫、續(xù)寫等功能，細(xì)分比較多。在具體創(chuàng)作方面，文心X1會(huì)有思考和行動(dòng)過程，產(chǎn)出內(nèi)容中規(guī)中矩，幻覺問題同樣較為突出。

由于國外AI大模型訪問限制，一般用戶可能難以訪問，但綜合而言，寫代碼優(yōu)先Claude，創(chuàng)意內(nèi)容可以優(yōu)先選可嘗試ChatGPT、Grok，數(shù)據(jù)處理分析優(yōu)先智譜清言，會(huì)議紀(jì)要優(yōu)先通義聽悟，長文本處理推薦Kimi，企業(yè)級(jí)應(yīng)用側(cè)重DeepSeek和通義千問，日常應(yīng)用豆包就可以滿足需求。

至于PPT版塊，當(dāng)前絕大多數(shù)AI生成的PPT都比較雞肋，乍一看很順暢，但無法生成精細(xì)的內(nèi)容，都是自動(dòng)化套版，后期需要大量的手工調(diào)整。

事實(shí)上，除了寫代碼，AI寫作仍停留中低層面，因?yàn)锳I本質(zhì)是概率組詞，而非思考。

長稿件性能比拼

大模型誰強(qiáng)誰弱

盡管每個(gè)大模型側(cè)重點(diǎn)和優(yōu)勢不盡相同，但目前功能布局已經(jīng)大差不差。為進(jìn)一步測試各平臺(tái)稿件創(chuàng)作能力，我們以同樣的題目，在各平臺(tái)進(jìn)行結(jié)果呈現(xiàn)，可以更直觀的了解各大模型的特點(diǎn)。

最近，AI在醫(yī)療領(lǐng)域的幻覺問題較為突出，我們以AI醫(yī)療創(chuàng)作為命題，以相對(duì)標(biāo)準(zhǔn)的提問方式對(duì)各模型進(jìn)行提問。以下為提問問題：

“你是一個(gè)醫(yī)療行業(yè)的深度內(nèi)容作者，2025年3月26日晚，上海萊士血液制品股份有限公司發(fā)布公告，宣布公司以42億元的對(duì)價(jià)，收購南岳生物制藥有限公司100%股權(quán)。針對(duì)這一事件為由頭，深度分析此次收購的原因、對(duì)于上海萊士及國內(nèi)血制品賽道的影響。
具體要求：
①需側(cè)重具體數(shù)據(jù)分析，文中所有的數(shù)據(jù)均真實(shí)有效
②選取以往至少1個(gè)血制品領(lǐng)域的并購案例，并分析其對(duì)行業(yè)產(chǎn)生的影響
③盡可能原創(chuàng)，不允許大段復(fù)制現(xiàn)有資料
④稿件需要至少3個(gè)大部分，字?jǐn)?shù)要求6000字以上。”

對(duì)于內(nèi)容創(chuàng)作者來說，AI能否對(duì)于工作提效很關(guān)鍵，但從專業(yè)角度來說，AI生成復(fù)雜稿件可用性、稿件內(nèi)容準(zhǔn)確性、表達(dá)邏輯等是驗(yàn)證AI創(chuàng)作實(shí)際應(yīng)用可落地的必要基礎(chǔ)。根據(jù)同樣的問題，各AI大模型都給出了答案。（使用次數(shù)限制等不在對(duì)比范圍，僅呈現(xiàn)回答內(nèi)容）

首先是ChatGPT，ChatGPT回答該問題僅僅用時(shí)46秒，回答稿件整體篇幅為4700字，基礎(chǔ)邏輯較為順暢，但整體內(nèi)容以羅列要點(diǎn)為主，再說稿件內(nèi)容準(zhǔn)確度，盡管開啟了搜索和推理功能，但該篇稿件內(nèi)容所用到的數(shù)據(jù)絕大部分是推理得出，幻覺現(xiàn)象較為嚴(yán)重，虛構(gòu)內(nèi)容頻繁出現(xiàn)。

ChatGPT

如“據(jù)《2023中國血制品市場年度報(bào)告》顯示，中國血液制品市場規(guī)模在近五年內(nèi)以年均12%～15%的速度增長，市場總值已突破300億元人民幣”、“并購后，上海萊士將整合雙方在全國范圍內(nèi)的銷售網(wǎng)絡(luò)和供貨渠道，預(yù)計(jì)市場占有率有望提升至35%以上”均為虛構(gòu)，其中案例關(guān)鍵信息“2011年西班牙企業(yè)Grifols斥資約31億美元完成對(duì)美國Talecris生物制藥公司的并購”中，實(shí)際收購金額為34億美元，第二部分中所有數(shù)據(jù)均為虛構(gòu)。

接下來是Claude，我們采用的是Claude 3.7 Sonnet模式，整體用時(shí)在3分鐘以內(nèi)。從呈現(xiàn)上講，Claude 3.7 Sonnet是我認(rèn)為寫這篇稿子的最強(qiáng)輸出，正片稿件文本輸出達(dá)11000字，整體呈現(xiàn)條理清晰，并自動(dòng)輔以表格呈現(xiàn)支撐觀點(diǎn)。

這篇類似報(bào)告的深度分析文章詳細(xì)探討了上海萊士收購南岳生物的戰(zhàn)略意義和行業(yè)影響。從行業(yè)布局到交易雙方近五年?duì)I收利潤情況，從國內(nèi)血制品行業(yè)格局到全球血制品行業(yè)格局，從交易整合風(fēng)險(xiǎn)到對(duì)上下游產(chǎn)業(yè)鏈影響，事無巨細(xì)，一眼看去確實(shí)驚艷。

Claude

但這篇稿件準(zhǔn)確度是硬傷，盡管文中表格非常多，數(shù)據(jù)呈現(xiàn)非常全面，但具體數(shù)據(jù)均為虛構(gòu)，尤其是各企業(yè)營收、凈利潤及毛利等情況。但其相對(duì)國際化的視野是值得肯定的，如其對(duì)比了血制品國際巨頭CSL Behring的營收情況，盡管兩個(gè)對(duì)比對(duì)象營收數(shù)據(jù)都是錯(cuò)的，但還是提供了一個(gè)相對(duì)可以深入的點(diǎn)。（CSL Behring2024年?duì)I收為106億澳元，華蘭生物2024年?duì)I收為43.79億人民幣。）

在文章中這樣的案例非常多，對(duì)于作者來說，Claude確實(shí)提供了比較多思路，其萬字長文能力也確實(shí)出色。

然后是Grok，Grok測試的是DeepSearch+Think模式，整體用時(shí)也在3分鐘以內(nèi)，生成內(nèi)容4300多字。Grok采取的方式是先了解收購背景、優(yōu)化搜索、尋找官方信息、分析市場趨勢、評(píng)估并購影響，然后才是規(guī)劃文章結(jié)構(gòu)、整理數(shù)據(jù)、完善你文章內(nèi)容。這個(gè)邏輯鏈條非常準(zhǔn)確，整體內(nèi)容從分析并購原因、并購對(duì)于上海萊士及國內(nèi)血制品市場的影響及過往并購案例分析展開。

當(dāng)然，硬傷還是數(shù)據(jù)虛構(gòu)，盡管Grok生成的稿件中數(shù)據(jù)呈現(xiàn)沒有那么多，但是涉及到具體企業(yè)營收部分還是完全錯(cuò)誤。

Grok

值得一提的是，Grok在文中提供了完全準(zhǔn)確的信源，甚至提供了準(zhǔn)確的行業(yè)報(bào)告下載鏈接，這一點(diǎn)是其他大模型沒有的，Grok非常注重搜索環(huán)節(jié)，這可能和Grok背靠馬斯克X平臺(tái)有關(guān)。

接下來是Gemini，此次測試，我首先采用的是Gemini稱之為處理復(fù)雜任務(wù)效果最好的2.5 Pro (experimental)版本。但Gemini2.5Pro知識(shí)更新周期僅截止到2023年年初，所生成內(nèi)容不具備參考性。

因此，我采用的是Gemini Deep Research版本，Gemini Deep Research整體搜索網(wǎng)站多達(dá)254個(gè)，用時(shí)長達(dá)20分鐘，但Gemini Deep Research整體研究能力超級(jí)強(qiáng)，是我認(rèn)為最符合深度內(nèi)容作者內(nèi)容生產(chǎn)邏輯的大模型。Gemini Deep Research不僅對(duì)交易細(xì)節(jié)進(jìn)行了完整的分析，還找到了上海萊士和南岳生物過去幾年的財(cái)務(wù)報(bào)告，并根據(jù)財(cái)務(wù)報(bào)告對(duì)其營收、利潤進(jìn)行了分析。

在具體內(nèi)容方面，Gemini Deep Research稿件長度為5700字，內(nèi)容包括并購背景、交易雙方財(cái)務(wù)表現(xiàn)、收購背后邏輯、對(duì)行業(yè)影響等，盡管數(shù)據(jù)截止到去年三季度，但其數(shù)據(jù)準(zhǔn)確度極其優(yōu)秀，所有內(nèi)容均有精確信源。

Gemini

可以說，Gemini Deep Research是最給我驚喜的一個(gè)大模型，不僅所有內(nèi)容都基于公開報(bào)道，其分析也相對(duì)有條理，美中不足的是生成內(nèi)容更像是研究報(bào)告。

接下來我們回到國內(nèi)，首先是DeepSeek，DeepSeekR1+聯(lián)網(wǎng)搜索模式下，整體內(nèi)容生成為1分鐘左右，盡管DeepSeek在稿件結(jié)尾說明“全文約6200字”，但實(shí)際上全文僅有2200字。從內(nèi)容上看，DeepSeek延續(xù)了起標(biāo)題的“硬實(shí)力”，內(nèi)容三個(gè)部分分別擬標(biāo)題為“收購動(dòng)因：資源稀缺性、戰(zhàn)略協(xié)同與行業(yè)競爭格局的倒逼”、“對(duì)上海萊士的影響：短期增益與長期風(fēng)險(xiǎn)并存”、“對(duì)國內(nèi)血制品行業(yè)的影響：集中度提升與競爭范式轉(zhuǎn)變”、“歷史鏡鑒：從鄭州萊士到南岳生物的商譽(yù)風(fēng)險(xiǎn)警示”、“結(jié)語：血制品行業(yè)的‘資源為王’與‘技術(shù)制勝’雙軌戰(zhàn)”，充滿行業(yè)里比較明顯的“AI味兒”。

DeepSeek

由于同步開啟了聯(lián)網(wǎng)搜索，DeepSeek的幻覺基本上進(jìn)行了規(guī)避，但整體偏向于內(nèi)容梳理，缺乏核心觀點(diǎn)。為了同步對(duì)比，我們同樣測試了DeepSeekR1版本，從篇幅方面，DeepSeekR1僅僅用1200字進(jìn)行了內(nèi)容歸納，并“指導(dǎo)”我們把每個(gè)章節(jié)擴(kuò)展至約2000字，以達(dá)成6000字的篇幅。

整體而言，DeepSeek這次的輸出內(nèi)容，明顯不能滿足長篇稿件要求。

接下來是通義千問，通義千問深度思考模式成稿篇幅為3000字，亮點(diǎn)在于行業(yè)趨勢解讀提出了頭部企業(yè)擴(kuò)張路徑的相關(guān)分析，參考信源共計(jì)9個(gè)，整體內(nèi)容相對(duì)而言較為局限。

通義千問

以長文本見長的Kimi反而在這個(gè)稿件中呈現(xiàn)比較普通，聯(lián)網(wǎng)+長思考（k1.5）模式下，全文僅有1700字，整體內(nèi)容呈現(xiàn)也以歸納為主，偏向分析，與深度稿件相比仍存在較大差距。

Kimi

豆包同樣問題生成回答為2700字，和DeepSeek、通義千問相比，深度思考模式下豆包內(nèi)容中植入了表格，同時(shí)運(yùn)用了較多的數(shù)據(jù)，但幻覺問題較為嚴(yán)重，虛構(gòu)數(shù)據(jù)、政策非常頻繁。和DeepSeek相比，豆包同樣在“秀文字”方面能力突出，尤其標(biāo)題堆砌詞藻現(xiàn)象明顯。

豆包

智譜清言測試的是AutoGLM沉思版本，整體用時(shí)超過半小時(shí)，實(shí)操發(fā)現(xiàn)，AutoGLM沉思版本每個(gè)問題點(diǎn)都需要搜索大量網(wǎng)頁并進(jìn)行分析，單個(gè)小點(diǎn)問題約用時(shí)3分鐘左右，以至于整個(gè)回答耗時(shí)非常久。文章篇幅為3300字，邏輯較為順暢，準(zhǔn)確度方面非常優(yōu)秀，基本上數(shù)據(jù)都有明確信源，但短板也比較明顯，由于參考了大量文獻(xiàn)及公開資料，AutoGLM沉思更偏向于信息羅列和數(shù)據(jù)引用，分析內(nèi)容較為缺乏。

智譜清言

值得一提的是，AutoGLM沉思在思考的同時(shí)，自動(dòng)在瀏覽器中打開了相關(guān)網(wǎng)頁，甚至自動(dòng)找到財(cái)報(bào)的PDF版本，并在分析完畢標(biāo)注“本輪任務(wù)”已結(jié)束，這一點(diǎn)是其他大模型都沒有的，相較于放信源鏈接，自動(dòng)打開瀏覽器、自動(dòng)搜索讓我看到了AI的另一個(gè)版本。

對(duì)于文心一言，我們測試是文心4.0Turbo同時(shí)開啟深度思考（X1）和聯(lián)網(wǎng)搜索的版本，整體文章約3000字，整體文章邏輯較為清晰，收購動(dòng)因、歷史行業(yè)并購案和市場影響分析都較為全面，主要的問題是列點(diǎn)提綱式表述，很難稱之為完整文章。但由于啟動(dòng)了聯(lián)網(wǎng)搜索，文心4.0Turbo的信息準(zhǔn)確度非常高。背靠百度，文心一言信源分類比較豐富，各類財(cái)經(jīng)網(wǎng)站、百家號(hào)、甚至微信公眾號(hào)都在借鑒范圍之內(nèi)，這一點(diǎn)值得肯定。

文心一言

基于以上結(jié)果，我們對(duì)十大AI模型進(jìn)行了橫向?qū)Ρ?，?dāng)然，每個(gè)大模型擅長領(lǐng)域或方向可能不盡相同，本文僅以相同中文問題如實(shí)呈現(xiàn)各模型回答情況，僅供參考。

（評(píng)分以實(shí)際使用體驗(yàn)為準(zhǔn)，僅供參考）

就生成速度而言，智譜清言AutoGLM沉思用時(shí)超過半小時(shí)，是本次測試中生成速度最慢的，Gemini Deep Research次之，用時(shí)20分鐘，其他大模型均較為迅速，基本上在5分鐘以內(nèi)即可回答完畢。

在稿件邏輯方面，各模型整體稿件邏輯都較為順暢，沒有明顯的邏輯不通情況，這表明當(dāng)前大模型在深度稿件邏輯梳理方面已經(jīng)較為出色。

在稿件準(zhǔn)確度方面，整體而言同時(shí)開啟聯(lián)網(wǎng)搜索和深度思考（推理）模式下，大部分大模型幻覺現(xiàn)象仍未減少，如ChatGPT、Claude、通義千問、Kimi、豆包。但國外Gemini Deep Research、國內(nèi)智譜清言AutoGLM沉思稿件準(zhǔn)確度優(yōu)勢突出。

測試結(jié)果表明，當(dāng)前無一模型能夠100%滿足深度稿件生產(chǎn)所需的準(zhǔn)確性與原創(chuàng)性標(biāo)準(zhǔn)，但部分模型在不同維度已展現(xiàn)出比較強(qiáng)的能力。

給人印象比較深的是Claude 3.7 Sonnet超有邏輯等的萬字長文加表格呈現(xiàn)，grok DeepSearch+Think模式下完整的思考邏輯鏈條和提供完全準(zhǔn)確且可供下載的報(bào)告鏈接，Gemini Deep Research的類學(xué)術(shù)內(nèi)容產(chǎn)出及超級(jí)精準(zhǔn)的數(shù)據(jù)呈現(xiàn)。

當(dāng)然，也有國內(nèi)大模型也有出色之處，如DeepSeek、豆包等在中文文字表達(dá)方面更有創(chuàng)意，智譜清言和文心一言在數(shù)據(jù)方面相對(duì)較為嚴(yán)謹(jǐn)，智譜清言AutoGLM沉思甚至可以自行在瀏覽器搜索內(nèi)容讓人印象深刻。

國外VS國內(nèi)

長文本內(nèi)容AI輔助的幾點(diǎn)歸納

國內(nèi)外大模型之爭已經(jīng)走入深水區(qū)，不同大模型的側(cè)重點(diǎn)和擅長領(lǐng)域都不盡相同。篇幅原因，我們很難具象呈現(xiàn)每個(gè)大模型的特色及真正擅長的領(lǐng)域，但盡管如此，通過相同的題目，至少可以從這個(gè)冰山一角看過去，檢驗(yàn)各大模型在相對(duì)篇幅較長，更偏重深度、分析的稿件中的表現(xiàn)。

整體來看，國內(nèi)外主流AI模型還是有差異的，具體有以下幾點(diǎn)：

①內(nèi)容生成風(fēng)格方面，國內(nèi)AI更具中文優(yōu)勢

盡管幾乎所有大模型都支持中文，但其質(zhì)量和有效性可能因底層模型的訓(xùn)練數(shù)據(jù)和特定的語言處理能力而異，許多國際LLM的主要訓(xùn)練數(shù)據(jù)都以英語為中心，在處理中文過程中部分工具依賴于翻譯，可能無法捕捉到中文的所有細(xì)微差別。但國內(nèi)工具由于原生設(shè)計(jì)，可以訪問大量的中國互聯(lián)網(wǎng)數(shù)據(jù)，包括來自微信和微博等社交媒體平臺(tái)的內(nèi)容、來自阿里巴巴和京東等電子商務(wù)平臺(tái)的數(shù)據(jù)、來自百度的搜索數(shù)據(jù)以及各平臺(tái)新聞。因此在中文的理解和運(yùn)用上更具有優(yōu)勢，甚至?xí)牟伸偶肌薄皹?biāo)題堆砌”現(xiàn)象，但也更容易產(chǎn)生形式大于內(nèi)容的問題。

在內(nèi)容風(fēng)格方面，國外AI大模型受西方溝通規(guī)范影響，通常傾向于清晰、簡潔和更直接的表述。國內(nèi)大模型的內(nèi)容生成風(fēng)格更貼合中國的寫作習(xí)慣，在某些情況下更強(qiáng)調(diào)不同的修辭結(jié)構(gòu)、正式程度和間接性。

②數(shù)據(jù)引用各不相同，各平臺(tái)均有側(cè)重

直接點(diǎn)說，大部分大模型都“夾帶私貨”，Grok背靠X，Geminni信源多為谷歌，通義千問之于阿里、豆包背靠抖音，文心一言背靠百度等等，因此在實(shí)際過程中，對(duì)于信源的參考及植入，也會(huì)更傾向于自身平臺(tái)，這一點(diǎn)是需要用戶進(jìn)行識(shí)別和甄選的。