
題圖|視覺中國
2024年,是大模型走向應用的關鍵之年。
由Transformer技術所引爆的大模型浪潮,曾以迅雷不及掩耳的姿態(tài)橫掃了全世界科技行業(yè),給很多人帶來了“危機感”。但隨著時間的推移,在熱度下降之后,“大模型”也開始面臨對新技術的固有挑戰(zhàn)——落地應用。
原因很簡單:脫離了落地應用,“賣鏟人”神話也好、AI狂潮也好,都逃脫不了破滅的命運。
AI行業(yè)深諳這個道理,更偏向于獨立App生態(tài)的海外市場,各種由大模型驅(qū)動的AI應用2024年如雨后春筍般出現(xiàn);而更偏向于由大廠帶頭突破的國內(nèi),幾大基礎大模型在各自基礎能力PK前進的同時,也在內(nèi)置智能體的數(shù)量和豐富度等維度展開了激烈的競爭。
在這種大模型競爭全面深化的趨勢下,如何找準接下來落地應用的發(fā)展路線,顯然成為國內(nèi)一眾大模型的“勝負手”。
大模型應用落地的關鍵,是要“超越”技術
在大模型走向應用落地的過程中,有種看法一直頗為流行——大模型帶來的技術飛躍足夠大,因此只要找到“殺手應用”,就能一下子實現(xiàn)技術的落地應用和普及。
這種繼承自前幾波技術浪潮,可以總結(jié)為“只要造好了錘子就能找到釘子”的思維,其實忽略了一個現(xiàn)實:世界上90%的事情用最簡單數(shù)字化規(guī)則(例如基礎編程語言)就已經(jīng)可以運轉(zhuǎn)得很好,完全不需要用AI大模型來改善。
剩下的10%最困難、最需要人腦智慧的高價值任務中,大模型AI目前能夠獨立解決的也很少。少數(shù)大模型AI能夠獨立給出“結(jié)果”的應用,其價值更是長期處于“非常曖昧”的狀態(tài)。
就拿智能體來說,在ChatGPT最為火熱的時候,它似乎就成為了AI解決問題的一切手段,任何新需求都能通過一個智能體或者多個智能體協(xié)作來完成。
但實際情況是,這些主要依賴LUI(語言交互界面)的智能體雖然五花八門,學習了海量資料,卻普遍存在“溝通成本高+輸出質(zhì)量不穩(wěn)定”的大模型先天缺陷,其輸出內(nèi)容的類型和方式也相當有限,極大地限制了進一步的應用落地。
這些曾經(jīng)大熱的大模型落地方向之所以走不通,恰恰是因為很多時候我們過于關注一些流行的概念或技術,而忽略了要解決的根本問題是什么。
因此想要大模型獲得應用落地,最關鍵的還是找對用戶需求,開放地運用各種技術更高效率地解決問題,而不是陷入到“只用大模型能力”來解決問題的怪圈之中。
用人話來總結(jié),AI也只是解決問題的“工具”,是手段而不是目的。
最終實現(xiàn)兩個獨立目標“技術驅(qū)動產(chǎn)品”、“產(chǎn)品體驗驅(qū)動用戶增長,實現(xiàn)落地應用”。這兩點也是當前阿里通義將大模型帶向落地應用的核心思路。作為阿里AI戰(zhàn)略的排頭兵,通義為中國大模型落地打了個樣。
如何實在與先進并存?
基礎思路已經(jīng)夯實的通義,在尋找用戶需求這件事上,核心思路是把“不懂技術的用戶使用AI的門檻”打下來。
大模型的底層創(chuàng)新Transformer神經(jīng)網(wǎng)絡,核心突破是特別擅長處理長篇幅文字內(nèi)容。它能夠理解和生成連貫、復雜的文本內(nèi)容;所以海量自然語言、文本的場景一直是大模型最明確的“舒適區(qū)”。
需要接觸大量知識、會議、交流的工作學習領域,顯然處于這個“舒適區(qū)”的正中央。如何首先“攻克”這個領域,就成了各家大模型落地應用的必爭之地,目前走在最前列的,就是通義。

今年8月底,通義對自己的網(wǎng)頁版產(chǎn)品進行了一輪大升級,將“通義聽悟”、“通義智文”兩個產(chǎn)品升級成“實時記錄”和“閱讀助手”,同時還加上了新的“PPT創(chuàng)作”,將這一系列能力打包成了全新的“通義效率”,一口氣覆蓋了辦公學習的大部分場景。
其中“實時記錄”主要負責將現(xiàn)實中的語音記錄下來,并且通過翻譯、編輯、AI總結(jié)等提取其中的信息;“閱讀助手”則可以對各種文檔、網(wǎng)頁鏈接進行信息總結(jié)、知識篩選提煉;“PPT創(chuàng)作”,則可以利用大模型直接根據(jù)少量核心信息,輸出具備邏輯性且美觀的展示材料。
三者結(jié)合在一起,最終構(gòu)成了一個信息獲取整理、資料閱讀理解到思考內(nèi)容展示的完整工作學習流程。
如果說整體板塊的完整工作流還不算什么,那么通義對于單個功能的細分工作流完善,真的可以說是“令人發(fā)指”。
就拿“實時記錄”來說,只要有麥克風,就能對中、粵、英、日四種語言進行實時語音轉(zhuǎn)文字,同時英文/日語還能直接轉(zhuǎn)譯成中文。

在完成最基本的語音轉(zhuǎn)錄文字和翻譯的同時,其界面也針對實時場景做足了優(yōu)化。例如左側(cè)的轉(zhuǎn)錄板塊之上,就附帶了“搜索”、“查找與替換”、“發(fā)言人篩選”、“批量摘取”、“翻譯”、“發(fā)言人區(qū)分”、“AI改寫”7個功能。
用戶可以借助這些工具,快速地對轉(zhuǎn)錄內(nèi)容進行查找、修改、編輯、提取。完全不用迷失在冗長的轉(zhuǎn)錄內(nèi)容之中。
右側(cè)的功能板塊則將“導讀”、“腦圖”、“筆記”三個功能結(jié)合在了一起,“導讀”可以對轉(zhuǎn)錄內(nèi)容進行AI總結(jié)、摘要;“腦圖”則可以將根據(jù)轉(zhuǎn)錄內(nèi)容整理出思維導圖,讓用戶快速掌握會議要點和脈絡;“筆記”則提供了完備的在線編輯能力,用戶不僅可以寫下文字記錄,同時還能插入錄音的“時間戳”、插入截圖、甚至是直接插入表格和任務列表。
這一整套從實時錄音輸入,到最終結(jié)果輸出的核心能力集合,直接覆蓋了會議記錄、課堂記錄等核心場景,在多個環(huán)節(jié)之中穿插的AI大模型能力,更是讓整個信息處理流程順暢了起來,既實現(xiàn)了AI大模型功能的落地,同時也給用戶帶來了效率和使用體驗的飛躍。
“閱讀助手”和“PPT創(chuàng)作”同樣能看到很多細節(jié)的打磨。
“閱讀助手”采用了類似于“實時記錄”功能的板塊設計,右側(cè)一口氣集合了“導讀”、“翻譯”、“腦圖”、“筆記”四個功能。雖然布局相似,但“翻譯”被很細節(jié)地從左側(cè)移到了右側(cè),一下子就提供了極佳的外語文檔閱讀體驗,可以逐段對照地查看原始文檔和全文翻譯結(jié)果。
而“PPT創(chuàng)作”支持一句話、上傳文件和長文本生成PPT,在完成首次生成之后,也可以進行文字內(nèi)容修改,甚至是直接召喚大模型幫忙一起優(yōu)化文案。PPT上面的任何一張AI生成的圖片也可以點擊進行替換,通義甚至貼心地為用戶附上了“咒語書”,幫助用戶優(yōu)化約束圖片生成效果。
為了便于用戶使用,這些能力也集成在了通義App首頁中。當然,不能不提的是,通義出色的用戶體驗除了仰仗產(chǎn)品優(yōu)秀設計與細致打磨,也離不開通義快速躍進的基礎模型能力。
今年6月,阿里發(fā)布了開源模型Qwen2-72B,一經(jīng)推出就在全球各個大模型排行榜中成為了全球性能最強的開源模型。

到了今年9月的云棲大會,通義旗艦模型Qwen-Max全方位升級,在諸多大語言模型權威基準測試中,直逼甚至超越全球最先進的OpenAI GPT-4o;其中通義千問新一代開源模型Qwen2.5中的旗艦模型Qwen2.5-72B更是超越了Meta的Llama 405B(模型參數(shù)量更少,但是測試成績更好),再次登上全球開源大模型王座。
這種“產(chǎn)品”與“技術實力”的交相輝映,也延續(xù)到了如今大模型最熱的視覺領域。在9月更新大語言模型“通義千問”的同時,阿里也更新了自己視覺大模型“通義萬相”,讓其AI生圖、AI生成視頻的能力再次獲得了提升。
“通義萬相”視頻生成模型主打更能聽懂中國話,更懂中國風的特點。用戶只要輸入任意文字提示詞,例如畫面內(nèi)容、空間構(gòu)圖、運動過程、運鏡方式,就可以生成影視級高清視頻,以及與畫面匹配的音效。
用戶還可以通過靈感擴寫功能,對自己的提示詞進行智能豐富,進一步提升視頻內(nèi)容表現(xiàn)力;圖生視頻功能更是支持用戶將任意圖片轉(zhuǎn)化為動態(tài)視頻,通過提示詞來控制視頻運動。
阿里團隊在“通義萬相”中突破性地采用了Diffusion Transformer架構(gòu),并且從一開始就采用了中英文雙語標注,讓中文文生視頻內(nèi)容的創(chuàng)作能力實現(xiàn)了飛躍。在模型發(fā)布的同時,用戶可通過通義APP及通義萬相官網(wǎng)免費體驗,率先做到了“技術到應用”的全鏈路發(fā)展。

過去一年,通義實現(xiàn)了多個里程碑式跨越,從大語言到視頻生成到多模態(tài)模型,大模型的能力邊仍在不斷擴展,在數(shù)學、代碼及推理等能力上持續(xù)攀升?;谶@些模型能力,通義App與PC端也持續(xù)上新,用戶可以與李白數(shù)字人對詩、視頻實時講解數(shù)學題、一句話生成應用,即時體驗大模型帶來的全新體驗。
隨著未來更多底層大模型技術突破的出現(xiàn),擁有海量AI人才和投入不設上限的阿里,必然能進一步豐富通義自身領先的基礎大模型能力。再以“解決實際問題”、“讓所有人用上”為邏輯,將各種大模型的能力與阿里出色的產(chǎn)品化能力相結(jié)合,最終做到大模型“實打?qū)崱钡穆涞嘏c應用。
也就是標題所提到的:既要超越技術,又要實在與先進并存。
堅持本心的通義
如果說“讓AI實打?qū)嵚涞貞谩边€只是通義天生的使命,那么對于“開源”、“讓技術和產(chǎn)品說話”、“要有愛”的堅持,則能直接體現(xiàn)通義的本心。
放眼整個大模型行業(yè),堅持開源政策的就沒幾家,更別說分秒必爭的頭部廠商。但通義基于促進創(chuàng)新、促進社區(qū)、促進生態(tài)的宗旨,每次更新基礎大模型都會直接開源。就拿上文提到的、能打敗Meta Llama的Qwen2.5-72B模型來說,也是發(fā)布即開源。
這種對于技術的本質(zhì)堅持,也體現(xiàn)在了落地的“形式”上。
上個月底,幾張國產(chǎn)AI產(chǎn)品廣告投放金額的圖片在AI圈內(nèi)徹底火了起來,因為其中好幾個國產(chǎn)AI大模型的季度投放都已經(jīng)破億。讓不少圍觀者感嘆道“這就去學做AI博主”、“用不用不知道,但說的是真的好聽”。
相比之下,通義的投放堪稱“可憐”,一個季度僅有450萬元。除了發(fā)布新版本的時候露個臉,剩下的全靠產(chǎn)品自己說話。這份自信,來自于通義強大的技術實力和產(chǎn)品力,哪怕投放少,用戶對通義產(chǎn)品的好評源源不斷,所累積的好口碑反而是靠錢堆出來曝光量換不來的。
今年7月,通義聯(lián)合上海美術電影制片廠推出國內(nèi)首個孤獨癥兒童AI繪本工具“追星星的AI”。這個調(diào)用了通義萬相多項能力、搭載在通義App中的應用,可以在提供簡單提示詞、篇幅、主角性別、避免出現(xiàn)內(nèi)容的情況下,快速而自動地自動生成一篇圖文并茂的繪本故事,并且自動為用戶朗讀。
這種極為高效的繪本生成能力,讓孤獨癥兒童有了進一步融入社會的可能性,在社交交往、正向情緒、語言溝通及行為矯正等方面施展積極干預效果。
很顯然,通義在堅持“以技術驅(qū)動產(chǎn)品,以產(chǎn)品體驗驅(qū)動用戶增長”的同時,也沒忘了對于“AI有愛”的堅持。
全面擁抱開源精神、讓產(chǎn)品自我證明、讓AI充滿溫情,這些原則雖然看似與技術硬實力無直接關聯(lián),但實際上它們深刻體現(xiàn)了通義的核心理念:將人工智能發(fā)展為一種普遍的生產(chǎn)力,使之普及至每個人。
秉承著“以終為始”的思維模式,通義正以其雄厚的技術實力和卓越的產(chǎn)品力,勢不可擋地引領著新的變革。
本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權事宜請聯(lián)系 hezuo@huxiu.com
熱門跟貼