熟悉筆者的朋友都知道,過去一年來,只要有人問及最常用的AI助手是哪個(gè)?通義千問一定會是我給出的前三名推薦應(yīng)用中的一個(gè)。
哪怕到了DeepSeek-R1發(fā)布之后,情況也并沒有發(fā)生變化。
對于一個(gè)科技產(chǎn)業(yè)觀察者、AI應(yīng)用高頻用戶來說,DeepSeek在文本能力、深度思考多元性等許多方面的表現(xiàn)確實(shí)足夠出色。但我近期已經(jīng)在多個(gè)場合都不斷強(qiáng)調(diào)過,通義、文心以及元寶在數(shù)據(jù)可靠性和大模型幻覺率上,可以說直接吊打DeepSeek。但這一點(diǎn)并未得到足夠的大眾認(rèn)知。
多少令我意外的是,每當(dāng)我在AI高頻使用名單中列出通義千問時(shí),絕大多數(shù)朋友的第一反應(yīng)都是:誰?
除了產(chǎn)品認(rèn)知度之外,在技術(shù)能力的認(rèn)知維度,通義千問更是非常可惜。
且不說作為全球前四名的云計(jì)算公司、阿里云多年來在云計(jì)算領(lǐng)域擁有雄厚的技術(shù)能力積累,回顧百模大戰(zhàn)時(shí)期,通義千問彼時(shí)也是彼時(shí)真正意義上可以與ChatGPT3.5媲美的國產(chǎn)AI。但幾乎沒有人知道這一點(diǎn)。
到了今年情況也沒有變好。
就在充滿爭議的Manus出圈當(dāng)天,阿里通義千問團(tuán)隊(duì)推出了最強(qiáng)本地運(yùn)行國產(chǎn)大模型QwQ-32B,參數(shù)僅為DeepSeek R1的1/21,成本僅1/10。但其性能卻能與之媲美,甚至在某些測試中超越了 DeepSeek R1。這意味著,用戶可以用更低的成本,在本地輕松運(yùn)行性能卓越的大模型。
不過,由于Manus內(nèi)測客觀上造成的饑餓營銷聲勢,國內(nèi)幾乎沒有人關(guān)注QwQ-32B的這一革新。哪怕在海外反應(yīng)都比國內(nèi)要強(qiáng)。
“下一個(gè)顛覆全球人工智能(AI)產(chǎn)業(yè)的DeepSeek也可能來自中國?!?月6日,美國彭博社在其一篇報(bào)道中如是說,文章并沒有提到國內(nèi)關(guān)注的Manus,而是提到阿里通義千問當(dāng)天發(fā)布了全新推理模型QwQ-32B。
而且,后來Manus創(chuàng)始人季逸超在社交平臺透露,Manus產(chǎn)品使用了不同的基于阿里千問大模型(Qwen)的微調(diào)模型。相當(dāng)于承認(rèn)了套殼Qwen。
但到了這時(shí)候,已經(jīng)沒有什么人關(guān)注這一點(diǎn)了。從國內(nèi)市場反饋來看,通義千問再一次錯(cuò)失了建立用戶心智的關(guān)鍵時(shí)刻。
在2025年AI to C這場混戰(zhàn)中,可能是由于DeepSeek帶來的沖擊過于強(qiáng)大,以至于大家一時(shí)間都忘記了自己本來的優(yōu)勢到底是什么。
從元寶近期鋪天蓋地的造勢來看,騰訊已經(jīng)反應(yīng)過來。
但誰能想到,當(dāng)初號稱擁有最強(qiáng)公關(guān)天團(tuán)的阿里,卻在AI時(shí)代輸在自己的最長板——市場營銷上。
01
2025
AI賽點(diǎn)一:用戶心智
列一組數(shù)據(jù),就會知道通義千問一段時(shí)間以來在市場占有率上的掉隊(duì)。
據(jù)AppGrowing數(shù)據(jù),截止2024年11月15日,Kimi、豆包、星野、元寶等國內(nèi)十款大模型產(chǎn)品,今年合計(jì)投放超625萬條廣告,投放金額達(dá)15億元。今年1月也有機(jī)構(gòu)統(tǒng)計(jì)稱,2024年,頭部AI公司在廣告投放總額突破20億元,其中Kimi一家就投入了5.4億元。
而從市場推廣的角度來看,作為阿里旗下的拳頭產(chǎn)品,通義居然是墊底式的存在。

這是去年10月有媒體統(tǒng)計(jì)的各家大模型的市場投放費(fèi)用參考,通義千問以450萬元成功墊底。
但很快通義千問辟謠稱:

來自官方的吐槽更加能展現(xiàn)通義的尷尬局面。畢竟,作為阿里巴巴旗下的重磅AI產(chǎn)品,內(nèi)部趕不上新起之秀夸克,外部趕不上元寶、豆包這些同級別大廠產(chǎn)品,更不要說和Kimi這樣的營銷大神相提并論。
DeepSeek一分錢不花就震撼全球的情況畢竟可遇而不可求。市場很快給出了反饋。營銷投入直接影響了用戶數(shù)量,有機(jī)構(gòu)統(tǒng)計(jì)的訪問量數(shù)據(jù)。

盡管在市場認(rèn)知度和占有率上通義千問掉隊(duì),但這并不意味著通義千問技術(shù)實(shí)力差。
通義千問在多個(gè)國際公認(rèn)的基準(zhǔn)測試中表現(xiàn)出色,例如在MMLU、TheoremQA以及GPQA等評測指標(biāo)上超越了Llama 3 70B,并在Hugging Face的Open LLM Leaderboard上登頂。
今年1月底,阿里發(fā)布了AI基礎(chǔ)大模型千問旗艦版Qwen2.5-Max,在多項(xiàng)權(quán)威基準(zhǔn)評測中處于業(yè)界領(lǐng)先水平。
2月21日,全球開發(fā)者大會(GDC)上,據(jù)阿里巴巴通義實(shí)驗(yàn)室科學(xué)家黃斐介紹,到目前為止,整個(gè)通義千問(Qwen)系列模型的下載量達(dá)到了1.8億,累計(jì)衍生模型總數(shù)達(dá)到9萬個(gè),衍生模型數(shù)已經(jīng)超越Meta的Llama系列,成為了全球第一大開源模型系列。
其實(shí)早在2019年云棲大會上,阿里就已經(jīng)宣稱已經(jīng)成為中國最大的AI公司。每天AI調(diào)用超1萬億次,服務(wù)全球10億人,日處理圖像10億張、視頻120萬小時(shí)、語音55萬小時(shí)及自然語言5千億句。
一定意義上,阿里才是AI時(shí)代最早趕集的那一個(gè)。而且,市場營銷本來應(yīng)該是電商起家的阿里最長板。
遺憾的是,在AI成為下一個(gè)世代入口級產(chǎn)品的時(shí)刻,阿里拿了一手好牌,卻根本不出牌。
02
賽點(diǎn)二:
靠譜將成為最重要的評測標(biāo)準(zhǔn)
在人工智能這一長坡厚雪級賽道上,DeepSeek雖然領(lǐng)先,但大廠們其實(shí)擁有目前創(chuàng)業(yè)公司無法比擬的優(yōu)勢。
而其中最關(guān)鍵的優(yōu)勢其實(shí)不是創(chuàng)新能力,而是靠譜能力。
起碼到目前為止,目前大廠旗下的AI都沒有出現(xiàn)給我編造數(shù)據(jù)和事實(shí)的情況,所有的發(fā)言都有跡可循。相比之下,DeepSeek對我來說已經(jīng)是劣跡斑斑。
舉個(gè)例子,卡爾·貝內(nèi)迪克特·弗雷在其《技術(shù)陷阱》一書中提到了19世紀(jì)因?yàn)殡姛粽Q生影響煤氣燈點(diǎn)燈工人的罷工事故。由于我好奇這段史實(shí),于是讓DeepSeek幫我詳細(xì)復(fù)盤當(dāng)時(shí)由于新技術(shù)出現(xiàn)所帶來的失業(yè)沖擊問題。
結(jié)果它不僅給我編造了當(dāng)時(shí)的工人集合現(xiàn)場畫面,還信誓旦旦地給出了當(dāng)時(shí)媒體《倫敦新聞畫報(bào)》曾預(yù)言“電燈將讓黑夜消失,人類將無所事事”,不僅如此,還稱倫敦的點(diǎn)燈人工會在1905年轉(zhuǎn)型為英國電氣工程師協(xié)會。
從文本上來說,“電燈將讓黑夜消失,人類將無所事事”這樣的性感表達(dá)一定會得到絕大多數(shù)人的喜歡和青睞。
但遺憾的是,后來我在通義、文心、混元、谷歌、必應(yīng)以及百度等多個(gè)渠道搜索發(fā)現(xiàn),人類記載中從未出現(xiàn)過當(dāng)時(shí)集合的事件,《倫敦新聞畫報(bào)》也從未有過這樣的評價(jià),至于英國電氣工程師協(xié)會也沒有點(diǎn)燈人工會的歷史關(guān)聯(lián)。
這是非常可怕的事情——如果我不是對科技傳播史領(lǐng)域有一定了解,我可能永遠(yuǎn)無法識別DeepSeek的謊言。
而面對如此強(qiáng)大幻覺的DeepSeek,本身在數(shù)據(jù)和表達(dá)嚴(yán)謹(jǐn)性具有強(qiáng)大優(yōu)勢的絕大多數(shù)大廠AI,卻集體失聲了——這本來應(yīng)該是一個(gè)絕佳的專業(yè)用戶心智營銷點(diǎn)。
相比之下,大廠的靠譜就凸顯出來了。同樣的問題,通義千問的回答沒有出現(xiàn)任何幻覺。引用資料包括類似2022年《財(cái)經(jīng)》雜志對《技術(shù)陷阱》一書的書評等,信源要相對可靠的多。

不過從目前來看,目前并無國內(nèi)的AI廠商把幻覺率優(yōu)化作為大模型競爭力的重要標(biāo)準(zhǔn)。相反,接入DeepSeek成為了一種新的商業(yè)正確。
但問題是,一個(gè)不準(zhǔn)確、胡編亂造的AI,真的有應(yīng)用價(jià)值嗎?所以可以預(yù)期的是,2025年AI應(yīng)用大戰(zhàn)的一個(gè)關(guān)鍵賽點(diǎn)一定會是大模型的幻覺率。
從這個(gè)角度來說,通義還有一定的反超機(jī)會——前提是在市場營銷得當(dāng)?shù)那闆r下。
03
賽點(diǎn)三:
To B VS To C的不同選擇
眾所周知,阿里的前沿科學(xué)研究機(jī)構(gòu)被命名為阿里達(dá)摩院,而其中的科學(xué)家也被稱為掃地僧。這一稱呼的典故源自金庸的武俠小說《天龍八部》。文中少林寺藏經(jīng)閣有一位看似普通實(shí)則武功深不可測的掃地僧。
但在這個(gè)連馬斯克都需要不斷在X上刷存在感的流量時(shí)代,沒有存在感這件事情,對于一家AI廠商來說,正在變得越來越危險(xiǎn)。
目前來看,通義千問最大的優(yōu)勢還是在于B端。
和to C的失意不一樣,作為開源大語言模型系列,通義千問在開發(fā)者社區(qū)中受到熱烈歡迎,其靈活的定制能力使得開發(fā)者可以根據(jù)自身需求對模型進(jìn)行調(diào)整和優(yōu)化,因此非常適用于科研和技術(shù)開發(fā)領(lǐng)域。
3月10日,國家超算互聯(lián)網(wǎng)平臺接入阿里巴巴通義千問大模型,對外提供千問QwQ-32B A-PI 服務(wù)。此前蘋果選擇阿里作為中國區(qū)AI合作伙伴,足以證明其在to B領(lǐng)域的服務(wù)能力。
而且,從通義的廣告投入方向來看,to B應(yīng)該是在資源極其受限的情況下主動押注的選擇。

而這與模型的性能和幻覺率是一脈相承的。to B領(lǐng)域無法容忍幻覺的存在。因?yàn)橐坏〢I發(fā)生幻覺,影響的就可能是工作流和生產(chǎn)流水線的排期規(guī)劃,甚至可能會造成難以估量的巨大損失。
可是即便在企業(yè)服務(wù)領(lǐng)域領(lǐng)先,但生成式AI是一個(gè)高度需要訓(xùn)練和涌現(xiàn)的領(lǐng)域,當(dāng)場景受限時(shí),商業(yè)想象力也會大大受限。
而從To C市場的“先發(fā)劣勢”角度來說,通義千問堪稱AI界的掃地僧。
但此時(shí)畢竟是一個(gè)重新劃分新地圖的時(shí)刻,缺位和無聲,其影響是難以預(yù)測的。
相比之下,夸克的想象空間可能要更大一些。
在2023年11月,阿里巴巴智能信息事業(yè)群發(fā)布了全棧自研、千億級參數(shù)的夸克大模型,應(yīng)用于通用搜索、醫(yī)療健康、教育學(xué)習(xí)、職場辦公等場景。之后,夸克App確立了以AI搜索為核心一站式AI服務(wù)的定位。
到了2024年,夸克的勢頭明顯超過通義。阿里顯然也看到了在C端應(yīng)用上的結(jié)構(gòu)性變化,選擇在2024年12月初做出了調(diào)整,把AI應(yīng)用“通義”App從阿里云分拆,并入阿里智能信息事業(yè)群。從而讓夸克和通義 App成為智能信息事業(yè)群并行發(fā)展的兩個(gè)品牌。
但阿里通義實(shí)驗(yàn)室和旗下通義大模型沒有任何變化。
這意味著, “通義”的底層技術(shù)與產(chǎn)品應(yīng)用團(tuán)隊(duì)將實(shí)現(xiàn)分離,由阿里巴巴智能信息事業(yè)群總裁吳嘉扛起AI 在C端應(yīng)用的重?fù)?dān)。
結(jié)構(gòu)調(diào)整之后,今年3月,通義App進(jìn)行了大幅度的改版,除了接入阿里最新的開源推理模型通義千問QwQ-32B之外,在產(chǎn)品交互界面和形態(tài)上也進(jìn)行了升級。通義App的默認(rèn)對話對象開始走豆包的路線,
從此前的跟隨ChatGPT的幾何形狀變成了一個(gè)留著“齊肩短發(fā)”的鄰家女孩。這也證明,通義并沒有放棄To C市場。
2025年AI to C領(lǐng)域必然還會有一場惡戰(zhàn)。
接下來就看新的通義團(tuán)隊(duì)能否讓曾經(jīng)的掃地僧,進(jìn)化成為名門正派的少林寺方丈了。
熱門跟貼