
機(jī)器之心報(bào)道
機(jī)器之心編輯部
Q-Insight不再簡(jiǎn)單地讓模型擬合人眼打分,而是將評(píng)分視作一種引導(dǎo)信號(hào),促使模型深度思考圖像質(zhì)量的本質(zhì)原因。有了會(huì)思考的“大腦”,視頻云技術(shù)棧不僅得以重塑也讓用戶體驗(yàn)有了躍遷。
從 GPT-4o 吉卜力風(fēng)、即夢(mèng)的 3D 動(dòng)畫、再到蘋果 Vision Pro,AI 視覺(jué)創(chuàng)作正迎來(lái)生產(chǎn)力大爆炸。一個(gè)重要問(wèn)題隨之浮現(xiàn):如何評(píng)估機(jī)器生成的畫質(zhì)符合人眼審美?人眼能瞬間辨別圖像優(yōu)劣,但教會(huì)機(jī)器理解「好看」卻充滿挑戰(zhàn)。
視覺(jué)革命,呼喚新的畫質(zhì)「評(píng)估師」
作為人們?nèi)粘?nèi)容消費(fèi)的核心載體,音視頻在過(guò)去幾十年間經(jīng)歷了從低分辨率、有限色彩到超高清沉浸體驗(yàn)的技術(shù)躍遷。這場(chǎng)視覺(jué)革命的背后,音視頻相關(guān)技術(shù)始終是其中的技術(shù)支柱,支撐著內(nèi)容從生產(chǎn)、處理、編碼、傳輸?shù)较M(fèi)的全鏈路運(yùn)作。
隨著生成式人工智能與多模態(tài)大模型的發(fā)展,用戶視頻體驗(yàn)有了深刻變革。
首先,內(nèi)容生產(chǎn)將從 UGC/PGC 發(fā)展到 AIGC,伴隨視頻生成模型與智能工具的普及,極大的降低了視頻生產(chǎn)的門檻。同時(shí),AIGC 也推動(dòng)「音視頻」成為新的「通用」語(yǔ)言,為用戶提供了更多元、更生動(dòng)的交流方式。
其次,得益于 AI 的深度學(xué)習(xí)能力及其自我進(jìn)化的特性,交互方式正從以往的人機(jī)交互、人人交互,邁向人與 AI 融合交互的新時(shí)代。
最后,用戶的交互空間也在從 2D、3D、VR,逐步拓展到虛實(shí)融合的全新空間,這帶來(lái)了更沉浸的交互體驗(yàn),讓實(shí)時(shí)互動(dòng)更加「身臨其境」。
面對(duì)多模態(tài)大模型對(duì)視頻生態(tài)以及技術(shù)架構(gòu)影響,視頻云作為底層基礎(chǔ)設(shè)施正面臨機(jī)遇和挑戰(zhàn)。

Q-Insight:深度思考,「看懂」畫質(zhì)
在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環(huán)節(jié)大多都基于一個(gè)核心問(wèn)題展開,即人眼的畫質(zhì)感知。多模態(tài)大模型的快速發(fā)展為新時(shí)代的音視頻技術(shù)帶來(lái)了新的機(jī)遇,面對(duì)人眼感知的畫質(zhì)理解提供了一種全新的解決方案。
以往的畫質(zhì)理解的方法主要分為兩類:(1)評(píng)分型方法,這類方法通常只能提供單一的數(shù)值評(píng)分,缺乏明確的解釋性,難以深入理解圖像質(zhì)量背后的原因;(2)描述型方法,這類方法嚴(yán)重依賴于大規(guī)模文本描述數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),對(duì)標(biāo)注數(shù)據(jù)的需求巨大,泛化能力和靈活性不足。
針對(duì)上述問(wèn)題,北京大學(xué)與火山引擎多媒體實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。

論文鏈接:https://arxiv.org/pdf/2503.22679
與以往方法不同的是,Q-Insight 不再簡(jiǎn)單地讓模型擬合人眼打分,而是將評(píng)分視作一種引導(dǎo)信號(hào),促使模型深度思考圖像質(zhì)量的本質(zhì)原因。通過(guò)這種創(chuàng)新思路,Q-Insight 在質(zhì)量評(píng)分、退化感知、多圖比較、原因解釋等多個(gè)任務(wù)上均達(dá)到業(yè)界領(lǐng)先水平,具備出色的準(zhǔn)確性和泛化推理能力,并且不依賴大量高成本的文本數(shù)據(jù)標(biāo)注。

Q-Insight 首次將強(qiáng)化學(xué)習(xí)引入圖像質(zhì)量評(píng)估任務(wù),創(chuàng)造性地運(yùn)用了「群組相對(duì)策略優(yōu)化」(GRPO)算法,不再依賴大量的文本監(jiān)督標(biāo)注,而是挖掘大模型自身的推理潛力,實(shí)現(xiàn)對(duì)圖像質(zhì)量的深度理解。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結(jié)果,而是提供了從多個(gè)角度綜合評(píng)估畫質(zhì)的詳細(xì)推理過(guò)程。
實(shí)驗(yàn)結(jié)果充分驗(yàn)證了 Q-Insight 在圖像質(zhì)量評(píng)分、退化檢測(cè)和零樣本推理任務(wù)中的卓越表現(xiàn):在圖像質(zhì)量評(píng)分任務(wù)上,Q-Insight 在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)均超過(guò)當(dāng)前最先進(jìn)的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細(xì)的推理過(guò)程。

在退化感知任務(wù)上,Q-Insight 的表現(xiàn)顯著優(yōu)于現(xiàn)有的退化感知模型,尤其是在噪聲和 JPEG 壓縮退化類型識(shí)別的準(zhǔn)確性上。

在零樣本圖像比較推理任務(wù)上,Q-Insight 無(wú)需額外監(jiān)督微調(diào),即可準(zhǔn)確、細(xì)致地分析和比較圖像質(zhì)量,展示出強(qiáng)大的泛化推理能力。

大腦升級(jí),重塑視頻云技術(shù)棧
以多模態(tài)畫質(zhì)理解大模型 Q-insight 作為基石之一,火山引擎視頻云已經(jīng)圍繞多媒體鏈路搭建起基于大模型的解決方案。

大模型算法能力包含有生成式畫質(zhì)增強(qiáng)大模型、沉浸音頻大模型、生成式視頻編碼大模型、多模態(tài)內(nèi)容理解大模型等。此外,已有的傳統(tǒng)媒體處理能力也與大模型能力方案形成有機(jī)結(jié)合與互補(bǔ),其中包括軟件編解碼 BVC 系列、硬件編碼器、處理增強(qiáng)能力、分析和理解能力等。
通過(guò)基于 MLLM 實(shí)現(xiàn)的多媒體智能體,可以面向不同復(fù)雜的業(yè)務(wù)場(chǎng)景與用戶需求,做到感知理解、智能決策規(guī)劃和輸出算法能力方案。相比傳統(tǒng)依據(jù)經(jīng)驗(yàn)調(diào)控的方案,多媒體智能體具有鏈路更智能、算法效果上限更高,并且更貼近實(shí)際業(yè)務(wù)和人眼感知等優(yōu)勢(shì)。
此外,結(jié)合視頻云自研多媒體處理框架 BMF 以及大規(guī)模多媒體實(shí)驗(yàn)仿真平臺(tái) VLAB 等工程支持,進(jìn)一步提高了大模型媒體服務(wù)的穩(wěn)定性和效率,有效降低了部署成本。
超越技術(shù),體驗(yàn)躍遷
火山視頻云產(chǎn)品正在把用戶從流暢、實(shí)時(shí)、高清的數(shù)字視頻世界帶入更智能、更交互、更沉浸的 AI 視頻世界。這不僅意味著技術(shù)的飛躍,更代表著體驗(yàn)方式的一場(chǎng)變革。
在大模型和生成式 AI 技術(shù)的強(qiáng)勁推動(dòng)下,音視頻處理的底層技術(shù)正經(jīng)歷著深刻的變革。
首先對(duì)算力層的要求尤為顯著。生成式 AI 技術(shù)大幅降低了視頻生成的門檻,導(dǎo)致視頻數(shù)據(jù)以驚人速度增長(zhǎng)。所以也對(duì)計(jì)算成本和處理效率提出了嚴(yán)峻的挑戰(zhàn)。
在算法層,編解碼、處理、分析等音視頻處理的核心技術(shù),正在與大模型不斷的深度融合。這種融合不僅提升了編解碼效率以及畫質(zhì)表現(xiàn),更為用戶帶來(lái)了更加優(yōu)質(zhì)的視頻體驗(yàn)。
在框架層,隨著視頻生成大模型和預(yù)處理所需的計(jì)算需求日益增長(zhǎng),我們需要構(gòu)建更強(qiáng)大、更靈活的多媒體處理框架,不僅要能夠支持大模型的高效運(yùn)行,還要能夠滿足日益復(fù)雜的音視頻處理需求,以應(yīng)對(duì)生成式 AI 帶來(lái)的挑戰(zhàn)。

火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國(guó)際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎視頻云的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來(lái),多篇論文入選國(guó)際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國(guó)際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。
火山引擎視頻云,以「體驗(yàn)」為核心,基于字節(jié)跳動(dòng)億級(jí) DAU 打磨的音視頻技術(shù)融合 AI / 大模型技術(shù),打造集視頻直播、企業(yè)直播、視頻點(diǎn)播、智能處理、實(shí)時(shí)音視頻、云游戲、云手機(jī)、veImageX 等于一體的一站式音視頻服務(wù),幫助企業(yè)端到端提升視頻能力,實(shí)現(xiàn)播放體驗(yàn)、畫質(zhì)體驗(yàn)、交互體驗(yàn)、性能體驗(yàn)的全面提升與創(chuàng)新。
熱門跟貼