NExT-GPT:實現(xiàn)輸入到輸出「模態(tài)自由」, NUS華人團(tuán)隊開源
文源 機器之心編輯部
繼各類輸入端多模態(tài)大語言模型之后,新加坡國立大學(xué)華人團(tuán)隊近期開源一種支持任意模態(tài)輸入和任意模態(tài)輸出的真正「大一統(tǒng)」多模態(tài)大模型,火爆 AI 社區(qū)。

-
項目地址:https://next-gpt.github.io -
代碼地址:https://github.com/NExT-GPT/NExT-GPT -
論文地址:https://arxiv.org/abs/2309.05519






-
Text → Text + Image + Audio
-
Text + Image → Text + Image + Video + Image
-
Text + Video → Text + Image
-
Text + Video → Text + Audio
-
Text + Audio → Text + Image + Video
-
Text → Text + Image + Audio + Video
-
Text → Text + Image
-
Text + Video → Text + Image + Audio
-
Text → Text + Image + Audio + Video
-
Text → Text + Image

-
多模編碼階段:利用已開源的編碼器對各種輸入模態(tài)進(jìn)行編碼,然后通過一個投影層將這些特征投影為 LLM 所能夠理解的「類似語言的」表征。作者采用了 MetaAI 的 ImageBind 統(tǒng)一多模態(tài)編碼器。 -
推理中樞階段:利用開源 LLM 作為核心大腦來處理輸入信息,進(jìn)行語義理解和推理。LLM 可以直接輸出文本,同時其還將輸出一種「模態(tài)信號」token,作為傳遞給后層解碼端的指令,通知他們是否輸出相應(yīng)的模態(tài)信息,以及輸出什么內(nèi)容。作者目前采用了 Vicuna 作為其 LLM。 -
多模生成階段:利用各類開源的圖像擴(kuò)散模型、聲音擴(kuò)散模型以及視頻擴(kuò)散模型,接收來自 LLM 的特定指令信號,并輸出所對應(yīng)的模型內(nèi)容(如果需要生成的指令)。

-
一類是不久前所發(fā)布的 CoDi 模型,其整合了各種模態(tài)的 diffusion 模型,可以同時處理和生成各種組合的模態(tài)內(nèi)容。然而作者指出,CoDi 由于缺乏 LLMs 作為其核心部件,其僅限于成對(Parallel)內(nèi)容的輸入和生成,而無法實現(xiàn)復(fù)雜的內(nèi)容推理和決策,根據(jù)用戶輸入的指令靈活響應(yīng)。 -
另一類工作則試圖將 LLMs 與現(xiàn)有的外部工具結(jié)合,以實現(xiàn)近似的「任意多模態(tài)」理解和生成,代表性的系統(tǒng)如 Visual-ChatGPT 和 HuggingGPT。但作者指出,由于這類系統(tǒng)在不同模塊之間的信息傳遞完全依賴于 LLM 所生成的文本,其割裂、級聯(lián)的架構(gòu)容易不可避免地引入了噪音,降低不同模塊之間的特征信息傳遞效用。并且其僅利用現(xiàn)有外部工作進(jìn)行預(yù)測,缺乏一種整體的端到端訓(xùn)練,這對于充分理解用戶的輸入內(nèi)容和指令是不利的。
-
關(guān)鍵點-1:低成本實現(xiàn)復(fù)雜推理 + 多模態(tài) in 和多模態(tài) out
-
關(guān)鍵點-2:高效率端到端訓(xùn)練和模態(tài)對齊學(xué)習(xí)



關(guān)注公眾號【機器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀
臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完
深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀
深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法!
戳我,查看GAN的系列專輯~!
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》
附下載 |《計算機視覺中的數(shù)學(xué)方法》分享
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
《禮記·學(xué)記》有云:獨學(xué)而無友,則孤陋而寡聞
點擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入 AI生成創(chuàng)作與計算機視覺 知識星球!
評論
圖片
表情
