在計(jì)算機(jī)視覺領(lǐng)域,Transformer通過(guò)自注意力機(jī)制,能夠在單層網(wǎng)絡(luò)內(nèi)直接建模圖像所有像素間的長(zhǎng)程依賴關(guān)系,突破了傳統(tǒng)CNN的局部感知局限,其在圖像分類、目標(biāo)檢測(cè)、圖像分割等任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),正在快速取代傳統(tǒng)CNN,成為解決復(fù)雜視覺任務(wù)的首選方案。

ViT、DETR、SegFormer、BEVFormer、CLIP等模型受到廣泛關(guān)注,并被實(shí)際落地應(yīng)用,比如使用DETR開發(fā)工業(yè)質(zhì)檢系統(tǒng),用CLIP搭建智能搜索平臺(tái),BEVFormer承擔(dān)智能駕駛的感知任務(wù)等。

打開網(wǎng)易新聞 查看精彩圖片

盡管上述算法大都已經(jīng)開源,但在實(shí)際使用中仍然存在較大問(wèn)題:

1.

在不同的數(shù)據(jù)或者應(yīng)用場(chǎng)景中,模型的性能差距較大,如何分析原因并制定優(yōu)化策略;

2.

不同的模型到底哪部分算子起到了提升精度的關(guān)鍵作用,以及為什么會(huì)提升;

3.

不同模型的優(yōu)劣勢(shì)是什么,導(dǎo)致這些優(yōu)劣勢(shì)的原因又是什么。

打開網(wǎng)易新聞 查看精彩圖片

想要系統(tǒng)化地掌握上述知識(shí),我推薦深藍(lán)學(xué)院的《視覺Transformer理論與實(shí)踐》。課程系統(tǒng)解析Transformer核心原理及其在視覺和多模態(tài)領(lǐng)域的創(chuàng)新應(yīng)用,涵蓋ViT/DETR/SETR/CLIP等經(jīng)典模型原理,幫助掌握視覺Transformer核心技術(shù),實(shí)現(xiàn)從“局部感知到“全局理解”的能力躍遷,最終具備復(fù)現(xiàn)和優(yōu)化先進(jìn)模型的實(shí)踐能力。并且對(duì)于探索端到端智駕(DriveVLM)、VLA機(jī)器人交互等前沿技術(shù),也有非常大的幫助。

掃碼添加,了解課程

備注【0507,搶占學(xué)習(xí)名額

講師介紹

打開網(wǎng)易新聞 查看精彩圖片

利物浦大學(xué)長(zhǎng)聘副教授

前商湯自動(dòng)駕駛感知團(tuán)隊(duì)研發(fā)副總監(jiān)

2017年博士畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,2017-2023擔(dān)任商湯科技自動(dòng)駕駛感知團(tuán)隊(duì)研發(fā)副總監(jiān),帶領(lǐng)團(tuán)隊(duì)完成多個(gè)大項(xiàng)目交付。

目前發(fā)表SCI和EI學(xué)術(shù)論文近80篇,被引用量近4000次,其中CCFA類國(guó)際期刊和會(huì)議(T-PAMI、IJCV、TIP、CVPR、ICCV、ECCV、AAA1、MultiMedia等)近30篇。申請(qǐng)國(guó)內(nèi)及國(guó)外專利申請(qǐng)30個(gè)以上。

現(xiàn)主要研究方向?yàn)閳D像/視頻場(chǎng)景理解,Deepfake Detection,機(jī)器人-自動(dòng)駕駛感知算法,以及語(yǔ)言-視覺聯(lián)合學(xué)習(xí)等。現(xiàn)主持(PI)一項(xiàng)Alan Turing Institute項(xiàng)目基金,并聯(lián)合主持(Co-1)一項(xiàng)歐盟Horizion project。

課程大綱

打開網(wǎng)易新聞 查看精彩圖片

課程亮點(diǎn)

1.全棧式知識(shí)體系構(gòu)建

從Transformer核心原理到CV經(jīng)典任務(wù)(分類、檢測(cè)、分割)再到多模態(tài)最前沿應(yīng)用,覆蓋ViT、DETR、SegFormer、CLIP、LLaVA等模型。

2.工業(yè)級(jí)實(shí)踐能力培養(yǎng)

通過(guò)大量代碼解析與實(shí)踐案例,強(qiáng)化動(dòng)手實(shí)踐能力,確保理論落地。

3.學(xué)術(shù)與工業(yè)雙棲講師

講師曾任商湯科技研究副總監(jiān),6年工業(yè)界工作經(jīng)驗(yàn),現(xiàn)為英國(guó)利物浦大學(xué)計(jì)算機(jī)科學(xué)系副教授,TACPS實(shí)驗(yàn)室負(fù)責(zé)人,IEEETPAMI、CVPR、ICCV等頂刊和頂會(huì)審稿人,主持過(guò)億級(jí)參數(shù)視覺大模型研發(fā)。

課程收獲

1.系統(tǒng)掌握Transformer在計(jì)算機(jī)視覺中的核心技術(shù),重點(diǎn)剖析自注意力機(jī)制原理,并深入講解基于Transformer的圖像分類、目標(biāo)檢測(cè)與語(yǔ)義分割等算法的理論框架及工程實(shí)踐;

2.全面解析CLIP、BLIP系列及LLaVA等多模態(tài)模型的架構(gòu)設(shè)計(jì)思想與技術(shù)實(shí)現(xiàn)細(xì)節(jié),結(jié)合典型應(yīng)用場(chǎng)景進(jìn)行實(shí)踐探討;

3.深度剖析新一代架構(gòu)Mamba的技術(shù)原理及其在視覺任務(wù)中的應(yīng)用優(yōu)勢(shì),同時(shí)前瞻性探討多模態(tài)大模型的研究進(jìn)展與產(chǎn)業(yè)落地案例;

4.創(chuàng)新性地融合算法理論與工程實(shí)踐,通過(guò)典型工業(yè)案例解析,為學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用提供雙向賦能。

適合人群

1.計(jì)算機(jī)視覺領(lǐng)域工作者;

2.對(duì)Transformer在圖像理解、多模態(tài)交互等領(lǐng)域感興趣的高校學(xué)生;

3.僅具備傳統(tǒng)深度學(xué)習(xí)基礎(chǔ)的CV從業(yè)者;

4.想在計(jì)算機(jī)視覺領(lǐng)域進(jìn)行科學(xué)研究,并發(fā)表相關(guān)論文的學(xué)生/學(xué)者。

*你將收獲的優(yōu)質(zhì)學(xué)習(xí)圈子

伙伴們大多是來(lái)自985、211及海外院校碩博,在這里大家一起學(xué)習(xí)、進(jìn)行討論與研究。獨(dú)一無(wú)二的優(yōu)質(zhì)圈子將是你未來(lái)學(xué)習(xí)與就業(yè)的寶貴資源。

打開網(wǎng)易新聞 查看精彩圖片

(學(xué)員院校/企業(yè)展示)

課程服務(wù)

1.作業(yè)批改:助教1V1批改作業(yè),定期針對(duì)作業(yè)中的“通病”進(jìn)行點(diǎn)評(píng);

2.結(jié)業(yè)證書:本課程將根據(jù)作業(yè)完成情況評(píng)選結(jié)業(yè)學(xué)員及優(yōu)秀學(xué)員,頒發(fā)證書;

3.實(shí)時(shí)答疑:講師/助教微信群答疑,及時(shí)解決大家遇到的問(wèn)題;

4.班班督學(xué):班主任全程帶班,不定時(shí)“關(guān)照”未交作業(yè)的同學(xué),克服拖延。

掃碼了解課程詳情

備注0507】,搶占學(xué)習(xí)名額