打開網(wǎng)易新聞 查看精彩圖片

用 AI,把手機(jī)影像再做一遍。

張磊,70 后,羅俊,80 后,兩位早已超過 35 歲門檻的男士,眼神帶著工作的疲憊,但身上卻沒有流出「中年焦慮」,反而更像剛畢業(yè)的學(xué)生一般充滿了干勁。

張磊是 AI 算法大牛,香港理工大學(xué)講座教授,在深圳帶著一個(gè)有 30 多號人的實(shí)驗(yàn)室,琢磨著如何通過 AI 讓手機(jī)影像更強(qiáng)。羅俊是他的搭檔,任職 OPPO 影像算法總監(jiān),頂在前面,拆解各種需求,并把算法工程化,裝到手機(jī)里。

在 OPPO 前海辦公樓里,剛認(rèn)識張磊不久,羅俊就意識到他是一個(gè)從學(xué)校里走出來的大牛,身上充滿學(xué)術(shù)氣息,他團(tuán)隊(duì)的不少人也都是門下學(xué)生,工作氛圍與公司其它部門有些不同,但它更有凝聚力。

不過,對于具體的手機(jī)影像鏈路和成像等工程方面,張磊團(tuán)隊(duì)欠缺實(shí)戰(zhàn)經(jīng)驗(yàn)。他的團(tuán)隊(duì)強(qiáng)項(xiàng)在 AI,是底層視覺技術(shù)和理論的專家。羅俊則從索尼公司開始,已積累了 20 年影像工程經(jīng)驗(yàn)。

小概率下,兩個(gè)學(xué)識、技能互補(bǔ)的人聚在了一起,在 OPPO 公司攜手做一件行業(yè)內(nèi)幾乎是從 0 到 1 的事:用 AI,把手機(jī)影像再做一遍。

01

「60 倍」的高難度開局

2022 年,張磊加入 OPPO。這一年底,ChatGPT 橫空出世,掀起新風(fēng)云,代表著 AI 從卷積神經(jīng)網(wǎng)絡(luò)向 Transformer 架構(gòu)的代際跨越,孕育出各種可能。

對于手機(jī)端,AI 大模型如何裝到小的手機(jī)里?更重要的是,AI 大模型能否真的可以幫助手機(jī)小尺寸的光學(xué)硬件「逆天改命」?這里隱約藏著變革機(jī)會。很多手機(jī)公司都在琢磨下一步的變化。OPPO 影像算法總監(jiān)羅俊,對算法競爭力負(fù)責(zé),「大模型對手機(jī)影像的影響比預(yù)判提前了兩年」。

打開網(wǎng)易新聞 查看精彩圖片

兩人的第一場 AI 戰(zhàn)役,趕上了 OPPO 的 Find X6 項(xiàng)目。通過這個(gè)項(xiàng)目,張磊和羅俊初步嘗試了用 AI 模型,來處理傳統(tǒng)的降噪超分計(jì)算,并且用 AI 的方式來替換傳統(tǒng)的色彩重建過程。這是對移動影像計(jì)算架構(gòu)的一次革新,用先進(jìn)的 AI 計(jì)算方法,替換了手機(jī)中存在十幾年的 ISP 計(jì)算方式。在傳統(tǒng) ISP 計(jì)算對降噪和色彩重建已經(jīng)達(dá)到了極限的現(xiàn)在,OPPO 用 AI 計(jì)算開拓出了計(jì)算影像的新可能。

小試牛刀 AI 之后,他們決定探索長焦,嘗試 AI 大模型。用大模型把 60 倍手機(jī)拍攝的模糊照片變清晰,就是一項(xiàng)突破(這個(gè)項(xiàng)目后來被稱作 AI 千里長焦)。張磊和羅俊知道,對于手機(jī)有限的尺寸來說,他們永遠(yuǎn)不可能要求一顆能夠直接拍攝出 60 倍的光學(xué)鏡頭。即使對于 Find X8 Ultra 這樣最前沿的手機(jī),6 倍的鏡頭已經(jīng)是最長的距離極限。而大模型和光學(xué)的結(jié)合,甚至是對光學(xué)物理規(guī)則極限的改寫。這讓他們無比興奮。

前提是代碼寫出來,算法跑通,成熟后再工程化落地,投到市場。

02

大模型「賽馬」

執(zhí)行任務(wù)落到張磊團(tuán)隊(duì)身上,成與敗,關(guān)系到張磊的顏面,更關(guān)系到 OPPO 在影像業(yè)內(nèi)的競爭力。

張磊讓團(tuán)隊(duì)分頭行頭,利用生成式擴(kuò)散大模型嘗試不同的技術(shù)路徑。

其中一個(gè)方案被稱為 CCSR,迭代頻數(shù)需要 50 步,后面不斷優(yōu)化,經(jīng)過兩個(gè)月迭代,降到 15 步,最終降到 3 步,已達(dá)到極限。

另一個(gè)方案,則被稱為 SeeSR。雖然迭代步數(shù)略微少,可是輸出圖像穩(wěn)定性不如 CCSR。只有減少步數(shù),才可以減少手機(jī)能耗,縮短拍照成像時(shí)間。

有了初步算法,想試試效果?!缸钤缒盟惴ㄐЧo手機(jī)影像相關(guān)的部門的人看,跑完了,大家發(fā)現(xiàn)畫質(zhì)幾乎沒有提升?!沟S著算法的演進(jìn),生成式大模型的優(yōu)勢逐漸體現(xiàn),CCSR 達(dá)到了預(yù)期的效果。

根據(jù)項(xiàng)目進(jìn)程,部署時(shí)間挺緊張。大家商量 CCSR 改到極限后,部署同事先著手工程化落地。這已經(jīng)到了 2024 年 3 月中旬,離 10 月份產(chǎn)品上市只有半年時(shí)間。

但 AI 技術(shù)進(jìn)化的頻率,還是超出了大家的預(yù)料。

有一天,張磊團(tuán)隊(duì)看到在圖像生成領(lǐng)域用 diffusion 做到單步生成也有不錯(cuò)的效果,這或許也同樣可以讓圖像復(fù)原的多步迭代步數(shù)減少。在團(tuán)隊(duì)嘗試做出第一版結(jié)果后,張磊頗為興奮:推理只用了單步,優(yōu)點(diǎn)明顯。隨后,張磊猜想另一位同學(xué)研究的「文生 3D」使用的分?jǐn)?shù)蒸餾(score distillation)方法,可以加進(jìn)來。

趕工幾周,算法逐漸成型,最后取名 OSEDiff(單步復(fù)原)。4 月中旬,大家著手整理實(shí)驗(yàn)和寫文章,經(jīng)過團(tuán)隊(duì)一起一個(gè)月的努力,文章寫好投到業(yè)內(nèi)頂會 NeurIPS 上。手機(jī)界領(lǐng)先蘋果和三星、首創(chuàng)的大模型復(fù)原 60 倍長焦圖像項(xiàng)目,自此有了算法雛形。

過了一段時(shí)間,張磊組織了一次盲選會,準(zhǔn)備了 100 張圖,分別由單步 OSEDiff 算法和 CCSR 復(fù)原而成,發(fā)給了認(rèn)知組、測試組、影像算法組、產(chǎn)品線等各個(gè)條線成員,讓他們挑選質(zhì)量更好的照片。單步算法完勝。OPPO 決定「高速路上換發(fā)動機(jī)」,在項(xiàng)目進(jìn)度已經(jīng)基本達(dá)到極限的情況下,毅然決定切換更優(yōu)質(zhì)的單步算法。

打開網(wǎng)易新聞 查看精彩圖片

千里長焦項(xiàng)目在 2024 年 10 月發(fā)布的 Find X8 上面第一次成功落地,它應(yīng)用生成式大模型,可以讓 60 倍數(shù)碼變焦拍攝的模糊圖像,經(jīng)過 2 秒鐘本地運(yùn)算后變得異常清晰;又在 2025 年 4 月 2 日發(fā)布的 LUMO 凝光影像系統(tǒng)中,脫胎換骨似地升級,把 60 倍甚至 30 倍變焦的效果都大大提升,就像給手機(jī)鏡頭又戴了一幅「AI 望遠(yuǎn)鏡」。張磊與羅俊完成了蘋果和其它安卓廠商都沒有實(shí)現(xiàn)的行業(yè)首創(chuàng)。

03

沒有先例的困局

做出千里長焦,張磊和羅俊不滿足,雖然這項(xiàng)技術(shù)展示了超強(qiáng)的 AI 能力,但「只能算 OPPO 的一個(gè)階段性成果」,真正能讓 AI 展示實(shí)力、向行業(yè)證明 OPPO 的 AI 能力,搭載在 OPPO 全新推出的 LUMO 凝光影像系統(tǒng),以及搭載這個(gè)系統(tǒng)的 Find X8 Ultra 上,里面有 AI 征服手機(jī)影像「紐北賽道」的一場新賽事。

設(shè)想在夜晚的重慶洪崖洞前,光線錯(cuò)綜復(fù)雜,遠(yuǎn)處有各種霓虹燈光,近景有人臉,背對著暗處——夜景人像曾經(jīng)是很多手機(jī)影像工程師的噩夢。興許 AI 加持,才可以有所突破。

不過,羅俊知道內(nèi)中難處,首先是數(shù)據(jù)。沒有數(shù)據(jù)的供給,再力大無窮的 AI,也會力不從心。

一方面,夜間光線稀薄,即使對于手機(jī)中最大的鏡頭來說,采集到的光線數(shù)據(jù)都不富裕,AI 只能反復(fù)利用有限的數(shù)據(jù),推理出該有的純凈畫面,但結(jié)果往往令人失望。另一方面,夜間光線又過于復(fù)雜,特別是中國城市 LED 燈光近年來的高速發(fā)展,即使對于造價(jià)十幾萬的大塊頭的相機(jī)來說,將五光十色的城市夜景和人物同時(shí)拍出彩,也不是一件可以輕而易舉完成的事情。

第一個(gè)問題,相對還算好解決,因?yàn)橛屑榷ǖ陌咐?a class="keyword-search" >相機(jī)代表的光學(xué)規(guī)律,就是答案。提升進(jìn)光量,提升光源的品質(zhì),喂給傳感器更多、更優(yōu)質(zhì)的數(shù)據(jù),這意味著下血本地增加光學(xué)模組的性能——簡單點(diǎn)說,就是用更大的鏡頭來吸收更多的光線數(shù)據(jù),用更好的鏡頭把光學(xué)提純,用更大尺寸的傳感器去接收消化這些數(shù)據(jù)?!杆惴ú荒苊撾x光學(xué),所以 OPPO 一直講軟硬結(jié)合,硬件決定了畫質(zhì)的下限,算法決定了畫質(zhì)上限?!沽_俊一直強(qiáng)調(diào)。

打開網(wǎng)易新聞 查看精彩圖片

在 LUMO 凝光影像中,OPPO 拿出了一顆全新的 70mm 焦段的人像主攝。這顆攝像頭的進(jìn)光量達(dá)到了前代產(chǎn)品的 150%,成為同級別中進(jìn)光量數(shù)一數(shù)二的「大塊頭」。不僅如此,為了更優(yōu)質(zhì)的光源數(shù)據(jù),羅俊的戰(zhàn)友——光學(xué)團(tuán)隊(duì),甚至「發(fā)明」了一種全新分子結(jié)構(gòu)的玻璃材料,對紅外光這種「雜質(zhì)」的過濾性甚至比傳統(tǒng)最好的一種玻璃材質(zhì)還要高 81%,就為了給到 AI 更優(yōu)質(zhì)的原始數(shù)據(jù)。

但第二個(gè)問題,夜間光線過于復(fù)雜的帶來的影響,即使在相機(jī)超過 100 多年的歷史中,也找不到答案。

在相機(jī)還統(tǒng)治攝影的上個(gè)世紀(jì),城市夜晚的人造光源,基本只有白熾燈和熒光燈兩種類型。而進(jìn)入 21 世紀(jì),LED 迅速成為光源的主力軍,甚至淘汰了前面的兩種光源。

LED 光源色彩是多種多樣的:暖黃的路燈(約 2700K)、冷白的建筑照明(5000K-6500K)、霓虹廣告的彩色光(RGB 混合)可能同時(shí)存在。

傳統(tǒng)相機(jī)的全局色溫算法(基于單一白平衡預(yù)設(shè)或自動檢測場景主光源)無法精準(zhǔn)適配多區(qū)域色溫差異,直接導(dǎo)致照片的局部色偏,也就是畫面中不同區(qū)域因光源色溫差異呈現(xiàn)割裂的效果,最典型的是在進(jìn)行夜景人像拍攝時(shí),人物的膚色會被多重色溫的光源嚴(yán)重「染色」。

羅俊和他的同事們,最開始也考慮過使用 AI 技術(shù)對畫面不同的區(qū)域進(jìn)行理解和分割處理,但缺少原始的色溫信息的數(shù)據(jù),AI 模型也無能為力。

「不得不去發(fā)明一個(gè)新的攝像頭,來給 AI 提供更精準(zhǔn)的色溫?cái)?shù)據(jù)。」這就是在即將發(fā)布的 Find X8 Ultra 上,多出的一個(gè)攝像頭——丹霞原彩鏡頭。它第一次能夠?qū)Ξ嬅嬷械纳珳匦畔⑦M(jìn)行空間區(qū)域的分割,分別采集各個(gè)光源區(qū)域中的色溫,這意味著后端等待的 AI,第一次對夜晚的光色,有了精準(zhǔn)的數(shù)據(jù)源。對于羅俊來說,更精準(zhǔn)的數(shù)據(jù),讓 AI,第一次在色彩這件事上有了大展拳腳的空間。

然而,被數(shù)據(jù)喂飽的 AI,又遇到了無法解決的新難題。即使 AI 已經(jīng)因?yàn)榈は荚淑R頭,可以看透夜色的本質(zhì),可以將夜色和人物的膚色準(zhǔn)確還原,但依然無法看透用戶的心。

04

科學(xué)家不懂藝術(shù)家

就在張磊加入 OPPO 的第二年,為了讓影像技術(shù)的角逐,回歸攝影的審美,統(tǒng)一照片審美認(rèn)知,OPPO 專門從一些美術(shù)學(xué)院、攝像協(xié)會挖來了一些攝影專家,成立了一個(gè)影像認(rèn)知組,對好的效果給出定義。

「關(guān)于效果的文字性描述,很難量化,無法確定客觀標(biāo)準(zhǔn)?!顾囆g(shù)圈與工程界跨圈層對話,中間隔著多少詞語與定義的暗礁,誰也說不清。張磊感嘆,「有時(shí)候,我盯著兩張圖片看,硬是找不到區(qū)別。」

羅俊同樣感受到的 AI 算法疊加的困難:「算法是一個(gè)黑盒,一些照片輸入進(jìn)去,誰也不知道它會輸出什么。而有時(shí)這些效果調(diào)好了,另外一些效果就因?yàn)榛コ舛鲥e(cuò)?!?/p>

2024 年 4 月份以來,張磊與羅俊持續(xù)與認(rèn)知組一起對齊標(biāo)準(zhǔn)。羅俊說,這項(xiàng)工作各廠家都在探索階段,以前從來沒有人做過,也就沒有工程標(biāo)準(zhǔn)化流程(SOP),甚至連采集多大量的數(shù)據(jù)集算夠,都沒有人能說清楚。

而且諸多工作又多了一個(gè)核準(zhǔn)維度。2024 年初,OPPO CEO 陳明永在內(nèi)部發(fā)起了一項(xiàng)組織變革,「深入一線,創(chuàng)造價(jià)值」,所有的工作都要到第一前線去面向用戶創(chuàng)造價(jià)值,反映到影像上面,調(diào)教出來的拍照,特別是人像照片,要以用戶喜愛為牽引線,同時(shí)還要有 OPPO 自身影像追求。

這讓科學(xué)家張磊感受到一個(gè)不大不小的挑戰(zhàn)。比如,前一段時(shí)間用戶受互聯(lián)網(wǎng)平臺影響,熱衷于擺拍,過了一段時(shí)間,風(fēng)潮陡變,年輕人又喜歡上轉(zhuǎn)著圈抓拍。不要小看這一變動,它對影像 AI 算法的調(diào)教影響幾乎是全方位的。

但好在,幾個(gè)團(tuán)隊(duì)在不到一年的時(shí)間里,迅速解決了主觀和客觀評價(jià)不容易的問題。為此,OPPO 甚至全新開發(fā)出了一個(gè)評價(jià)體系的軟件。通過這個(gè)軟件,負(fù)責(zé)審美的認(rèn)知同事,可以將用戶的輸入意見,以及經(jīng)典攝影審美的案例,轉(zhuǎn)化成客觀的數(shù)據(jù),交給技術(shù)人員來進(jìn)行客觀化地技術(shù)調(diào)整。比如對于 OPPO 凝光影像對夜景人像膚色的調(diào)整,其中包含了丹霞原彩鏡頭提供的技術(shù)上絕對準(zhǔn)確的信息,也包括了認(rèn)知審美對于亞洲各種膚色的研究,甚至還會包括與美妝機(jī)構(gòu)聯(lián)合研究的一些人因相關(guān)的因子。

打開網(wǎng)易新聞 查看精彩圖片

有了多次的錘煉,張磊和羅俊們已經(jīng)習(xí)慣摸索著進(jìn)前。一遍遍嘗試后,AI 算法成像逐步穩(wěn)定下來,他們有信心在 4 月份發(fā)布的全新 Find X8 系列上推出來,接受用戶檢閱。

05

理想,不過時(shí)

回首三年多死嗑 AI 影像的過程,張磊有些感慨,教授「再就業(yè)工程」在一系列偶然與必然的碰撞之后,逐漸走上正軌。如果沒有 OPPO 公司一再地堅(jiān)持拋橄欖枝,沒有 OPPO 對影像的執(zhí)念,沒有羅俊搭建起學(xué)術(shù)探索與工程實(shí)現(xiàn)之間的橋梁,沒有 Y Lab 實(shí)驗(yàn)室里年輕的博士生們不知疲倦的探索……這里面缺了任何一環(huán),他都可能鎩羽而歸,回到校園。

2018 年,通過中間人介紹,OPPO 副總裁劉暢找到張磊,邀請加入。OPPO 在技術(shù)研發(fā)的投入上雄心勃勃,有一系列研發(fā)上的大手筆蓄勢待發(fā),渴望頂尖人才加盟。

不過,劉暢來遲了,張磊當(dāng)時(shí)已基本確定去一家華東的互聯(lián)網(wǎng)大公司。劉暢叫上 OPPO CEO 陳明永,一起請張磊在深圳吃了一頓飯。陳明永給張磊留下了平易近人、務(wù)實(shí)的印象,「沒有大老板架子」。

此后,劉暢一直和張磊保持著聯(lián)系,出差到對方城市,會留出專門時(shí)間拜訪。在延攬張磊一事上,劉暢把 OPPO 公司「堅(jiān)持做正確的事」和「長期主義」信條發(fā)揮到極致。沒有他的堅(jiān)持,不會有張磊加入 OPPO。

三年過后,張磊打算換平臺。跟了三年多的劉暢是他的第一選擇,「我信任他」,張磊說:「劉暢是一個(gè)非常值得信任的人,我相信到 OPPO 可以實(shí)現(xiàn)我手機(jī)影像的理想」。

行業(yè)內(nèi),大家知道 OPPO 在影像上有相當(dāng)多積累。2012 年,OPPO 第一次為手機(jī)上帶來堆棧式傳感器,極大提升手機(jī)傳感器感光能力,讓手機(jī)在暗光環(huán)境拍照成為可能。2016 年,OPPO 創(chuàng)造性地提出了四合一像素聚合技術(shù),這甚至奠定了現(xiàn)在所有手機(jī)傳感器像素使用的規(guī)則,讓手機(jī)能拍出高品質(zhì)夜景照片。

2017 年巴塞羅那的 MWC 盛會上,OPPO 拿出了世界上第一個(gè)潛望式長焦攝像頭,這甚至顛覆了全球各大科技品牌和媒體記者的認(rèn)知。當(dāng)時(shí)的羅俊甚至沒怎么聽說過 OPPO 這個(gè)品牌。當(dāng)他看到那顆潛望長焦攝像頭后,覺得移動影像大有乾坤。

「我想,這也是打動張磊最重要原因」,劉暢認(rèn)為,「牛人更看重舞臺,更在意能否實(shí)現(xiàn)理想?!?/p>

*頭圖來源:OPPO

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你接觸過 OPPO 的 AI 影像嗎?感覺怎么樣?

播客上新

文章沒看夠,想了解更多文章寫作和熱點(diǎn)事件幕后?想跟離普編輯部小伙伴近距離互動?

速來關(guān)注由極客公園全新打造的科技行業(yè)漫談播客「逐漸離普」!我們將回顧當(dāng)周最熱的科技事件,為你蒸餾認(rèn)知、聊透行業(yè)真相。歡迎大家踴躍報(bào)題、積極吐槽,一同加入漫談日常!節(jié)目指路