始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
擴(kuò)散模型的最新進(jìn)展極大推動了個性化圖像生成技術(shù)發(fā)展。在這一領(lǐng)域,傳統(tǒng)方法通常將主體驅(qū)動圖像生成和基于指令的圖像編輯這兩類任務(wù)分開處理,不僅面臨高質(zhì)量數(shù)據(jù)匱乏問題,還存在泛化能力不足的情況,難以同時保持主體一致性和指令遵循能力。
研究團(tuán)隊提出了 MIGE ,一個 統(tǒng)一了 主體驅(qū)動 可控 生成和基于指令編輯的 圖像生成 框架。 MIGE 通過利用多模態(tài)指令和條件輸入,實現(xiàn)了兩種任務(wù)的聯(lián)合訓(xùn)練,從而增強任務(wù)協(xié)同效應(yīng)并緩解數(shù)據(jù)稀缺問題。聯(lián)合訓(xùn)練還解鎖了新的能力,例如基于指令的主體驅(qū)動圖像編輯。
這一新任務(wù)還構(gòu)建了數(shù)據(jù)生成流程,并提出了用于評估的 MIGEBench 。實驗結(jié)果表明,聯(lián)合訓(xùn)練顯著提升了主體保真度和指令遵循能力,證明了任務(wù)統(tǒng)一帶來的優(yōu)勢。這一整合方式增強了可控性,并為未來的多模態(tài)圖像生成與編輯提供了新的發(fā)展方向?,F(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎前去體驗。

模型和數(shù)據(jù)集地址
https://wisemodel.cn/models/EurekaTian/MIGE
https://wisemodel.cn/datasets/EurekaTian/MIGEBench
01.
方法與模型
1.1.任務(wù)統(tǒng)一
現(xiàn)有方法通常將主體驅(qū)動的生成和基于指令的圖像編輯視為兩個獨立任務(wù),受限于數(shù)據(jù)稀缺和泛化能力不足,影響了整體性能。事實上,這兩類任務(wù)的核心目標(biāo)都是在保持視覺一致性的同時,實現(xiàn)指令要求的修改。
因此,統(tǒng)一這兩類任務(wù)可以實現(xiàn)相互增強。聯(lián)合訓(xùn)練多樣化的數(shù)據(jù)不僅提升了主體保持能力,也增強了指令遵循性,超越了單一任務(wù)模型的表現(xiàn)。
研究團(tuán)隊提出了 MIGE,通過多模態(tài)指令作為統(tǒng)一的任務(wù)表示,實現(xiàn)主體驅(qū)動生成與指令編輯的融合。該方法支持靈活的任務(wù)組合,并提供多模態(tài)指導(dǎo)。
此外,研究團(tuán)隊引入條件輸入來結(jié)構(gòu)化地統(tǒng)一任務(wù),從而提升視覺一致性。這種結(jié)合方式不僅提供了豐富的視覺和指令信息,還能自然地表示不同類型的任務(wù)。

圖2 MIGE 作為統(tǒng)一框架,能夠處理多模態(tài)指令和條件輸入,適用于多種任務(wù)和場景。
(1)統(tǒng)一的多模態(tài)指令:為了實現(xiàn)跨多個任務(wù)的聯(lián)合訓(xùn)練,建立統(tǒng)一的任務(wù)表示至關(guān)重要。我們引入了一種由交錯排列的圖像和文本組成的多模態(tài)指令,既提供了視覺參考,也包含了文本指導(dǎo),從而支持多種可控的生成任務(wù)。
如圖 2 所示,“ ”作為占位符,可以依次替換為輸入圖像,這些圖像既可以是參考主體,也可以是整個場景,從而與文本語義相結(jié)合,形成交錯表達(dá)。這種統(tǒng)一的方式不僅適用于主體驅(qū)動的生成和基于指令的編輯,還能夠擴(kuò)展到更復(fù)雜的組合任務(wù)。
(2)統(tǒng)一的條件輸入:我們采用條件輸入設(shè)計來在結(jié)構(gòu)上統(tǒng)一任務(wù),既確保了任務(wù)區(qū)分的清晰性,又能實現(xiàn)共享能力。通過拼接不同的條件輸入,我們可以區(qū)分不同的初始生成狀態(tài),并捕捉任務(wù)特定的細(xì)微差異,從而提高執(zhí)行的準(zhǔn)確性。
如圖 2 所示,在基于指令的編輯任務(wù)中,我們將 VAE 編碼后的源圖像與噪聲張量拼接,以指導(dǎo)模型在給定圖像的基礎(chǔ)上進(jìn)行編輯。而在主體驅(qū)動的生成任務(wù)中,我們使用全零張量作為輸入,相當(dāng)于一塊空白畫布,引導(dǎo)模型自由生成,同時保持指定的視覺特征。
這種設(shè)計能夠有效地區(qū)分兩個任務(wù),同時保證編輯任務(wù)中的輸入輸出一致性。此外,在統(tǒng)一框架內(nèi)對任務(wù)進(jìn)行結(jié)構(gòu)化建模,使得模型能夠共享能力,并輕松擴(kuò)展到新的任務(wù)。
2)模型架構(gòu)
如圖 3 所示,MIGE 的架構(gòu)由兩個主要組件組成:多模態(tài)編碼器(用于處理多模態(tài)指令)和基于 Transformer 的擴(kuò)散模型(用于建模輸入與輸出的關(guān)系)。擴(kuò)散模型將潛在空間的噪聲與條件輸入沿通道維度進(jìn)行拼接作為輸入,并在多模態(tài)條件的控制下進(jìn)行可控生成。
為了進(jìn)一步增強參考圖像中視覺信息與語義信息的融合,我們在編碼器中引入了一種新的特征融合機制。
(1)多模態(tài)編碼器
為了將多模態(tài)指令映射到統(tǒng)一的視覺-語言語義空間,我們設(shè)計了一種多模態(tài)編碼器,其主要由大語言模型(LLM)和圖像特征編碼組件組成。
圖像特征編碼組件包括:預(yù)訓(xùn)練的 VAE 編碼器(用于提取視覺特征)、來自 EVA-CLIP 的預(yù)訓(xùn)練 ViT(用于提取語義特征)、Q-Former 和一個線性投影層。每張圖像被表示為 32 個標(biāo)記,這些圖像標(biāo)記與文本標(biāo)記一起輸入 LLM ,作為統(tǒng)一的多模態(tài)條件。
與以往方法主要側(cè)重于提取參考圖像的語義特征不同,這些方法往往缺乏保留主體細(xì)節(jié)的能力。為了解決這一問題,我們提出了一種特征融合機制,結(jié)合不同視覺編碼器的優(yōu)勢:ViT 作為語義特征提取器,VAE 編碼器作為視覺特征提取器,利用其圖像壓縮與重建能力。
如圖 3 所示,我們使用 Q-Former 壓縮的 CLIP 語義特征作為引導(dǎo),自適應(yīng)地融合VAE 提取的視覺特征。
通過這一融合機制,我們可以在不增加額外圖像標(biāo)記的情況下,同時捕捉參考圖像的視覺信息和語義信息,從而提升模型的主體保持能力和生成質(zhì)量。

圖 3 MIGE 的整體框架由兩個主要組件組成:多模態(tài)編碼器用于處理多模態(tài)指令,基于 Transformer 的擴(kuò)散模型用于建模輸入與輸出的關(guān)系。編碼器引入了一種特征融合機制,以整合參考圖像的視覺與語義特征。
3)聯(lián)合訓(xùn)練
多模態(tài)指令和條件輸入統(tǒng)一了任務(wù)表示和輸入輸出格式,從而實現(xiàn)聯(lián)合訓(xùn)練。我們在所有任務(wù)的數(shù)據(jù)上對 MIGE 進(jìn)行微調(diào),以增強任務(wù)間的協(xié)同作用。
除了兩個圖像編碼器外,所有參數(shù)均參與聯(lián)合訓(xùn)練,以對齊擴(kuò)散模型的條件空間與多模態(tài)編碼器,如圖 3 所示。這種方法提高了任務(wù)之間的協(xié)調(diào)性,并增強了跨模態(tài)的一致性。
聯(lián)合訓(xùn)練能夠促進(jìn)多任務(wù)學(xué)習(xí),平衡主體保持與指令控制,同時建模任務(wù)之間的關(guān)系。為此,我們構(gòu)建了一個多任務(wù)數(shù)據(jù)集,用于多模態(tài)指令微調(diào),涵蓋以下三類任務(wù):主體驅(qū)動的圖像生成、基于指令的圖像編輯,基于指令的主體驅(qū)動圖像生成。

圖 4 用于基于指令的主體驅(qū)動圖像編輯的數(shù)據(jù)構(gòu)建流程。
在主體驅(qū)動的圖像生成任務(wù)中,我們參考 KOSMOS-G 和 UNIMO-G 的數(shù)據(jù)構(gòu)建方法,利用 LLM 從圖片描述中提取實體信息,并輸入 Grounded SAM 進(jìn)行目標(biāo)分割。
此外,我們還引入了 OmniControl 的 Subjects200k 數(shù)據(jù)集,以提升對目標(biāo)主體的保持能力。
在基于指令的圖像編輯任務(wù)中,我們從現(xiàn)有數(shù)據(jù)集中篩選高質(zhì)量樣本,并采用基于規(guī)則的方法構(gòu)造多模態(tài)指令數(shù)據(jù)。
基于指令的主體驅(qū)動圖像生成是一個新興任務(wù),包括兩個子任務(wù):基于指令的主體添加和主體替換。這一任務(wù)允許用戶通過多模態(tài)指令,在圖像中添加或替換指定主體。然而,目前尚無足夠規(guī)模的公開數(shù)據(jù)集可用于該任務(wù)。
為了構(gòu)建基于指令的主體驅(qū)動的添加任務(wù)數(shù)據(jù),我們提出了一條受 SAM-FB 啟發(fā)的數(shù)據(jù)構(gòu)建流程,如圖 4a 所示。具體步驟如下:
1.以 SA-1B 數(shù)據(jù)集為基礎(chǔ),構(gòu)造輸入-輸出樣本。
2.使用 SAM 進(jìn)行目標(biāo)分割,并利用 MLLM 過濾并保留主要主體。
3.對去除主體后的區(qū)域進(jìn)行背景修復(fù),確保完整的背景信息。
4.結(jié)合主體名稱與目標(biāo)圖像,使用 GPT-4o 生成多模態(tài)指令。
由于資源限制,我們僅處理了 SA-1B 數(shù)據(jù)集的一部分,共獲得約 20 萬個樣本,但該流程可擴(kuò)展以生成更多數(shù)據(jù)。
對于主體替換任務(wù),我們從現(xiàn)有編輯數(shù)據(jù)集中篩選樣本,使用 Grounded SAM 獲取主體分割結(jié)果,并構(gòu)造多模態(tài)指令,以形成輸入-輸出對,如圖 4b 所示。此外,我們引入了基于 IDM-VTON 生成的虛擬試衣(Virtual Try-on)數(shù)據(jù),共計約 11 萬個樣本。
02.
實驗與結(jié)果
1)實現(xiàn)細(xì)節(jié)
MIGE 由條件擴(kuò)散模型和多模態(tài)編碼器組成。我們的設(shè)計支持靈活選擇不同的擴(kuò)散模型,初始模型采用在512×512分辨率上預(yù)訓(xùn)練的PIXART-α。用于處理條件輸入的參數(shù)初始化為零,而模型的原始權(quán)重保持不變。
多模態(tài)編碼器由預(yù)訓(xùn)練的 Flan-T5-XXL作為 LLM 進(jìn)行初始化,并包含一個圖像編碼組件。該組件包括查詢標(biāo)記、Q-Former 和投影層,其初始化基于BLIP-2的pretrain_flant5xxl檢查點。
視覺特征提取器采用凍結(jié)的VAE 編碼器,與擴(kuò)散模型中的 VAE 一致。此外,在特征融合機制中引入了一個零初始化的 MLP 層,用于逐步融合視覺特征。
MIGE 在多任務(wù)數(shù)據(jù)集上進(jìn)行訓(xùn)練,優(yōu)化器采用AdamW,權(quán)重衰減設(shè)為0.03,學(xué)習(xí)率設(shè)為1e-5。訓(xùn)練過程持續(xù)18 輪,使用48 張 H20 GPU,總計6 天,批量大小為960(每張 GPU 處理 20 個樣本)。
在訓(xùn)練過程中,對主體添加和主體替換任務(wù)采用1:1 采樣策略。此外,在訓(xùn)練時,模型以5% 的概率隨機丟棄條件輸入或多模態(tài)條件,并有額外 5% 的概率同時丟棄兩者,以支持推理階段的無分類器引導(dǎo)(classifier-free guidance)。
2)評估結(jié)果
作為一個統(tǒng)一模型, MIGE 在各類圖像生成和編輯任務(wù)中表現(xiàn)出色,優(yōu)于現(xiàn)有的特定任務(wù)模型。本節(jié)重點展示其在主體驅(qū)動圖像生成和基于指令的編輯任務(wù)中的強大性能,并在我們新的基準(zhǔn)上展現(xiàn)其在基于指令的主體驅(qū)動圖像生成任務(wù)中的新興能力。更多定性比較結(jié)果參考圖9。

圖 5 主體驅(qū)動的圖像生成(頂部行)和基于指令的圖像編輯(底部行)的定性比較。我們分別在這兩個任務(wù)上比較了通用模型和特定任務(wù)模型。圖中列出的提示詞用于 MIGE 進(jìn)行生成,并根據(jù)每個模型的使用方式進(jìn)行調(diào)整。
(1)主體驅(qū)動的圖像生成(subuject-driven image generation)
從多模態(tài)提示中生成同時滿足圖像和文本約束的圖像是一個具有挑戰(zhàn)性的任務(wù)。我們將MIGE 與兩種同樣使用 MLLM 進(jìn)行多模態(tài)條件編碼的特定任務(wù)方法,以及兩種通用模型進(jìn)行比較,如表 1 所示。我們使用 DINO 和 CLIP-I 評估主體保真度,并使用 CLIP-T 評估對多模態(tài)指令的遵循情況。
在 DreamBench 上的實驗結(jié)果表明,MIGE 在保持競爭性文本一致性的同時,更好地保留了主體特征,尤其在 DINO 評價指標(biāo)上表現(xiàn)優(yōu)異。
圖 5 中的定性比較進(jìn)一步證明,MIGE 不僅在單主體生成任務(wù)上表現(xiàn)更好,而且在多主體生成任務(wù)中能夠保留每個主體的獨特特征,而其他模型要么未能保留所有主體,要么丟失了個體特征。
這一優(yōu)勢得益于 MIGE 能夠靈活地在多模態(tài)指令中結(jié)合多個參考實體,并通過其特征融合機制整合額外的視覺特征。

表 1 DreamBench 上主體驅(qū)動圖像生成的定量結(jié)果。MIGE 在主體保持方面優(yōu)于通用模型,并且在與針對該任務(wù)設(shè)計的模型的比較中保持競爭力。
(2)基于指令的圖像編輯(Instruction-based Image Editing)
基于指令的圖像編輯使用戶能夠根據(jù)自由形式的多模態(tài)指令修改源圖像,包括添加、移除、修改對象屬性或改變整體風(fēng)格。表2展示了對Emu Edit 和MagicBrush 測試集的定量分析。
DINO和CLIP-I評估與源圖像的相似度,而CLIP-T衡量與目標(biāo)描述的一致性。 量化文本和圖像CLIP向量變化之間的一致性,而L1和L2捕捉像素級差異。
如表2所示,MIGE取得了最高的CLIP-T分?jǐn)?shù),并且在指標(biāo)上超越了所有特定任務(wù)模型,這表明它在有效遵循多模態(tài)指令方面具有卓越的能力。
作為一個通用模型,MIGE在MagicBrush測試集的所有指標(biāo)上都優(yōu)于其他所有通用模型,取得了最低的L1和L2分?jǐn)?shù)以及最高的CLIP-I、DINO和CLIP-T分?jǐn)?shù),凸顯了其強大的指令保真度和對細(xì)節(jié)的保留能力。
圖5進(jìn)一步展示了這種能力,在圖5中,MIGE是唯一能夠準(zhǔn)確遵循指令在紅色手提箱上添加達(dá)菲鴨圖像且不改變其他無關(guān)區(qū)域的模型。

表 2 Emu Edit 測試集和 MagicBrush 測試集的基于指令的圖像編輯定量結(jié)果。MIGE 在 MagicBrush 測試集表現(xiàn)最佳,在通用模型具有較強的指令遵循性和細(xì)節(jié)保留能力。
(3)基于指令的主體驅(qū)動圖像編輯(Instruction-based Subject-driven Image Editing)
Benchmark 構(gòu)建:基于指令的主體驅(qū)動圖像編輯是一項新穎的任務(wù)?,F(xiàn)有方法依賴于掩碼或位置坐標(biāo)進(jìn)行編輯,但不支持基于指令的編輯。目前的基準(zhǔn)主要針對主體添加和替換任務(wù),分別評估前景和背景的相似性,但未提供完整編輯后的圖像作為標(biāo)準(zhǔn)答案,因此不適用于該任務(wù)。
為解決這些問題,我們構(gòu)建了一個包含 1,000 個測試樣本的基準(zhǔn)數(shù)據(jù)集,其中 500 個用于基于指令的主體添加,500 個用于主體替換。
數(shù)據(jù)來源于 SEED-Data-Edit,主體由 Grounded SAM提取。目標(biāo)圖像的描述由 GPT-4o 生成,并經(jīng)過人工審核優(yōu)化。為了與現(xiàn)有方法兼容,我們的基準(zhǔn)數(shù)據(jù)集還包含掩碼。

圖 6 MIGEBench中主體添加的例子

圖 7 MIGEBench中主體替換的例子
評估結(jié)果:評估重點關(guān)注編輯能力和主體保持能力。編輯能力使用 DINO、CLIP-I 和 CLIP-T 進(jìn)行評估,其中 DINO 和 CLIP-I 衡量編輯結(jié)果與標(biāo)準(zhǔn)答案圖像的相似度,CLIP-T 評估編輯后圖像與目標(biāo)描述的匹配度。
主體保持能力的評估方式是利用 Grounded SAM 提取編輯后的主體,并使用 DINO 和 CLIP-I 將其與輸入主體圖像進(jìn)行比對。這種評估方式將圖像級編輯能力與主體級特征保持能力分開衡量。

表 3 基于指令的主體驅(qū)動編輯的量化結(jié)果。在表格中,“Instruction”列中標(biāo)有叉號的方法使用掩碼進(jìn)行編輯,而其他方法則基于多模態(tài)指令生成圖像??傮w而言,MIGE 在兩項任務(wù)中均顯著優(yōu)于其他方法,展現(xiàn)出卓越的編輯能力和主體保持能力。
對于不支持基于指令編輯的方法,我們在表格中用叉號標(biāo)記,并在測試時使用掩碼。表 3a 和 3b 展示了與其他方法的量化對比結(jié)果。
此外,我們計算了源圖像與目標(biāo)圖像之間的 DINO 和 CLIP-I 指標(biāo),以及源圖像與目標(biāo)描述之間的 CLIP-T 指標(biāo),并在表格的第一行(標(biāo)注為“source-target”)作為基線結(jié)果進(jìn)行展示。
在編輯能力方面,MIGE 在所有指標(biāo)上均取得最高的整體提升,證明了其在多模態(tài)指令引導(dǎo)的編輯任務(wù)中的有效性。如圖 8 的定性對比所示,MIGE 能夠正確理解指令中的“替換”含義,而不僅僅是將主體粘貼到圖像上。
在主體保持能力方面,結(jié)果表明 MIGE 在兩項任務(wù)中均實現(xiàn)了最佳表現(xiàn),具體如圖 8 所示。

圖 8 主體添加和主體替換的定性結(jié)果。上半部分對比主體添加的結(jié)果,下半部分對比主體替換的結(jié)果。在測試過程中,多模態(tài)指令中的“ ”占位符會根據(jù)圖像序列進(jìn)行替換。MIGE 展現(xiàn)出高度的編輯靈活性,并在主體保持能力和輸入-輸出一致性方面表現(xiàn)出色。
3)消融實驗
(1)聯(lián)合訓(xùn)練的有效性
為了評估聯(lián)合訓(xùn)練的有效性,我們分別在單個數(shù)據(jù)集上訓(xùn)練模型(分別標(biāo)記為“only_subject data”,“only_edit data,”和“only_compositional data”),并將其性能與聯(lián)合訓(xùn)練的模型進(jìn)行對比。
表 1 和表 2 的結(jié)果顯示,聯(lián)合訓(xùn)練在所有指標(biāo)上均帶來了持續(xù)的提升,這表明主體驅(qū)動的生成與基于指令的編輯能夠相互促進(jìn)。進(jìn)一步地,如表 3 所示,聯(lián)合訓(xùn)練還提升了組合任務(wù)的性能,進(jìn)一步凸顯了其整體優(yōu)勢。這些結(jié)果強調(diào)了聯(lián)合訓(xùn)練的有效性和必要性。
總的來說,在我們的統(tǒng)一框架下進(jìn)行主體驅(qū)動生成與基于指令的編輯的聯(lián)合訓(xùn)練,不僅增強了組合能力,還提升了每個單獨任務(wù)的性能。
(2)特征融合的有效性
MIGE 在多模態(tài)編碼器中采用特征融合機制,將 ViT 提取的語義特征與 VAE 提取的視覺特征進(jìn)行融合。如表 1 和表 2 所示,與不使用 VAE 特征的模型(標(biāo)記為“wo_VAE feature”)相比,加入 VAE 特征顯著提升了參考圖像的細(xì)節(jié)保留能力,對主體驅(qū)動的圖像生成和基于指令的圖像編輯均有所幫助。
這一點尤其體現(xiàn)在 CLIP-I 和 DINO 評分的提升,以及 L1 和 L2 指標(biāo)的顯著降低,表明額外的視覺特征有助于保持輸入與輸出的一致性。
(3)基于指令的主體驅(qū)動圖像編輯數(shù)據(jù)的有效性
在主體驅(qū)動的圖像生成和基于指令的圖像編輯任務(wù)上進(jìn)行聯(lián)合訓(xùn)練,使模型能夠泛化到基于指令的主體驅(qū)動圖像編輯任務(wù)(標(biāo)記為“subject data + edit data”)。
為了增強 MIGE 在這一新任務(wù)中的能力,特別是對空間術(shù)語和尺寸描述的理解,我們構(gòu)建了一個專門的數(shù)據(jù)集用于聯(lián)合訓(xùn)練。如表 3a 和表 3b 所示,該任務(wù)特定數(shù)據(jù)顯著提升了模型的整體性能。這一結(jié)果證明了我們構(gòu)建的數(shù)據(jù)集的有效性,同時所提出的數(shù)據(jù)生成流程也可作為未來數(shù)據(jù)集構(gòu)建的重要參考。
(4)多模態(tài)指令的有效性
現(xiàn)有的基于指令的編輯方法通常使用純文本指令作為條件輸入,而我們將其擴(kuò)展為多模態(tài)指令。為了衡量多模態(tài)指令的優(yōu)勢,我們訓(xùn)練了僅使用文本編輯指令的模型進(jìn)行對比。如表 2 所示,相比于僅使用文本指令(標(biāo)記為“wo_multimodal instruction”),采用多模態(tài)指令能夠穩(wěn)定提升模型性能,并增強輸入輸出的一致性及指令遵循能力。
在多任務(wù)訓(xùn)練中,多模態(tài)指令帶來的顯著提升體現(xiàn)在 L1 和 L2 指標(biāo)的降低,表明其對圖像的控制更加精細(xì),編輯更準(zhǔn)確。雖然文本指令能夠提供必要的修改信息,但評分提升以及其他指標(biāo)的降低表明,多模態(tài)指令引入視覺上下文,使修改更加精準(zhǔn)且忠實于指令要求。

圖 9 主體驅(qū)動圖像生成(頂部)、基于指令的圖像編輯(中部)和基于指令的主體驅(qū)動圖像編輯(底部)的定性對比結(jié)果。
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
熱門跟貼