打開網易新聞 查看精彩圖片

(圖片來源:林志佳拍攝)

國內活躍度最高的AI大模型應用正走向“多元化”。

12月3日消息,鈦媒體AGI獲悉,字節(jié)跳動豆包日前上線了一項實用功能——圖片理解。目前,豆包APP及豆包PC新增照片及相機按鈕,上傳圖片后可識別圖片內容。

相比普通的OCR識別(光學字符識別)技術,豆包的“圖片理解”并非識別文字,而是識別圖片信息。比如,問一個景點在哪里,問動漫人物是誰,豆包都能流暢進行回答。

打開網易新聞 查看精彩圖片

再比如,早前,馬斯克創(chuàng)立的人工智能公司xAI宣布為Grok增加了圖像理解功能,而馬斯克本人也出來官宣了,并發(fā)布以下圖片,稱“Grok現(xiàn)在能夠理解圖像了,甚至還可以解釋笑話”。

打開網易新聞 查看精彩圖片

這是一幅四格漫畫,內容是一個關于物理學家和牛頓的笑話。把這個四格漫畫發(fā)給豆包,也能看到它對這個笑話的解析。 1. 第一格:文字:“HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING”(我們怎么知道他們是真的死了還是只是假裝?)圖像:兩個人站在戰(zhàn)場上,周圍有許多倒地的士兵。 2. 第二格:文字:“PHYSICISTS”(物理學家),圖像:兩個人開始觀察和思考。 3. 第三格:文字:“Discovered”(發(fā)現(xiàn)了),圖像:兩個人似乎有了某種發(fā)現(xiàn),表情變得興奮。 4. 第四格:文字:“Isaac Newton invented gravity”(艾薩克·牛頓發(fā)明了重力),圖像:兩個人得出結論,表情滿意。 笑話解析:這個笑話諷刺了物理學家有時會提出一些看似荒謬但卻基于科學理論的解釋。漫畫中的兩個人在戰(zhàn)場上看到士兵倒地,他們沒有考慮士兵是死是活,而是思考這背后的科學原理。最后,他們得出結論是牛頓發(fā)明了重力,暗示士兵是因為重力而倒地。這種思維方式幽默地表現(xiàn)了物理學家對科學原理的執(zhí)著和有時不切實際的思考方式。

你認為,上述這個解析結果怎么樣?符合事實嗎?

事實上,隨著AI大模型狂飆兩年,企業(yè)越來越多瞄向更實用的落地場景,“圖片理解”就是其中一項,它可以解決一些搜索、查找評估、文本寫作等場景的需求,這使得大模型更加貼近實用場景需求。

QuestMobile最新數(shù)據(jù)顯示,2024年10月,AI原生應用行業(yè)月活躍用戶規(guī)模達到8976萬,同比增長373.0%。用于情感陪伴、職場辦公、趣味休閑、文案寫作、教育學習、生活助手、圖像生成、行業(yè)顧問等場景中。

公開資料顯示,字節(jié)跳動的豆包App已經成為中國日活用戶最高的AI大模型產品。

同時,截止到2024年10月,在網頁端訪問量方面,Kimi智能助手、文心一言、豆包、通義千問分別達到2863萬、2111萬、1688萬、1012萬;在移動端AI原生應用方面,行業(yè)月活規(guī)模總數(shù)達到8976萬,同比增長373%,其中,豆包、Kimi智能助手、文小言月活躍用戶分別為4839萬、1650萬、1179萬。

隨著AI浪潮的興起,各大廠商都在積極探索與AI大模型融合發(fā)展的新契機,AI有望引領全球新一輪科技創(chuàng)新周期,從而促使效率進一步增長。

據(jù)Statista數(shù)據(jù)顯示,預計到2030年,全球AI領域規(guī)模將超過1.8萬億美元。

(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)