1. 綜述 | 多模態(tài) LLM,大模型的未來

        共 7761字,需瀏覽 16分鐘

         ·

        2024-04-10 15:58

        本文來源  機器之心編輯部

        多模態(tài)大型語言模型進展如何? 盤點 26 個當(dāng)前最佳多模態(tài)大型語言模型。


        當(dāng)前 AI 領(lǐng)域的關(guān)注重心正從大型語言模型(LLM)向多模態(tài)轉(zhuǎn)移,于是乎,讓 LLM 具備多模態(tài)能力的多模態(tài)大型語言模型(MM-LLM)就成了一個備受關(guān)注的研究主題。


        近日,騰訊 AI Lab、京都大學(xué)和穆罕默德?本?扎耶德人工智能大學(xué)的一個研究團隊發(fā)布了一份綜述報告,全面梳理了 MM-LLM 的近期進展。文中不僅總結(jié)了 MM-LLM 的模型架構(gòu)和訓(xùn)練流程,而且還梳理了 26 個當(dāng)前最佳的 MM-LLM。如果你正考慮研究或使用 MM-LLM,不妨考慮從這份報告開始研究,找到最符合你需求的模型。


        4b694740883fbb6d7e39c1e4c21be454.webp


        • 論文標題:MM-LLMs: Recent Advances in MultiModal Large Language Models

        • 論文地址:https://arxiv.org/abs/2401.13601

         

        報告概覽


        近些年來,多模態(tài)(MM)預(yù)訓(xùn)練研究進展迅速,讓許多下游任務(wù)的性能不斷突破到新的邊界。但是,隨著模型和數(shù)據(jù)集規(guī)模不斷擴大,傳統(tǒng)多模態(tài)模型也遭遇了計算成本過高的問題,尤其是當(dāng)從頭開始訓(xùn)練時。考慮到多模態(tài)研究位于多種模態(tài)的交叉領(lǐng)域,一種合乎邏輯的方法是充分利用現(xiàn)成的預(yù)訓(xùn)練單模態(tài)基礎(chǔ)模型,尤其是強大的大型語言模型(LLM)。


        這一策略的目標是降低多模態(tài)預(yù)訓(xùn)練的計算成本并提升其效率,這樣一來就催生出了一個全新領(lǐng)域:MM-LLM,即多模態(tài)大型語言模型。


        MM-LLM 使用 LLM 提供認知功能,讓其處理各種多模態(tài)任務(wù)。LLM 能提供多種所需能力,比如穩(wěn)健的語言泛化能力、零樣本遷移能力和上下文學(xué)習(xí)(ICL)。與此同時,其它模態(tài)的基礎(chǔ)模型卻能提供高質(zhì)量的表征??紤]到不同模態(tài)的基礎(chǔ)模型都是分開預(yù)訓(xùn)練的,因此 MM-LLM 面臨的核心挑戰(zhàn)是如何有效地將 LLM 與其它模態(tài)的模型連接起來以實現(xiàn)協(xié)作推理。


        在這個領(lǐng)域內(nèi),人們關(guān)注的主要焦點是優(yōu)化提升模態(tài)之間的對齊(alignment)以及讓模型與人類意圖對齊。這方面使用的主要工作流程是多模態(tài)預(yù)訓(xùn)練(MM PT)+ 多模態(tài)指令微調(diào)(MM IT)。


        2023 年發(fā)布的 GPT-4 (Vision) 和 Gemini 展現(xiàn)出了出色的多模態(tài)理解和生成能力;由此激發(fā)了人們對 MM-LLM 的研究熱情。


        一開始,研究社區(qū)主要關(guān)注的是多模態(tài)內(nèi)容理解和文本生成,此類模型包括 (Open) Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT-4、MultiModal-GPT、VideoChat、Video-LLaMA、IDEFICS、Fuyu-8B、Qwen-Audio。


        為了創(chuàng)造出能同時支持多模態(tài)輸入和輸出的 MM-LLM,還有一些研究工作探索了特定模態(tài)的生成,比如 Kosmos-2 和 MiniGPT-5 研究的是圖像生成,SpeechGPT 則聚焦于語音生成。


        近期人們關(guān)注的重點是模仿類似人類的任意模態(tài)到任意模態(tài)的轉(zhuǎn)換,而這或許是一條通往通用人工智能(AGI)之路。


        一些研究的目標是將 LLM 與外部工具合并,以達到近似的任意到任意的多模態(tài)理解和生成;這類研究包括 Visual-ChatGPT、ViperGPT、MM-REACT、HuggingGPT、AudioGPT。


        反過來,為了減少級聯(lián)系統(tǒng)中傳播的錯誤,也有一些研究團隊想要打造出端到端式的任意模態(tài) MM-LLM;這類研究包括 NExT-GPT 和 CoDi-2。


        圖 1 給出了 MM-LLM 的時間線。


        7f40ff6983c911c3dabf17dc377dc041.webp


        為了促進 MM-LLM 的研究發(fā)展,騰訊 AI Lab、京都大學(xué)和穆罕默德?本?扎耶德人工智能大學(xué)的這個團隊整理出了這份綜述報告。機器之心整理了該報告的主干部分,尤其是其中對 26 個當(dāng)前最佳(SOTA)MM-LLM 的介紹。


        模型架構(gòu)


        這一節(jié),該團隊詳細梳理了一般模型架構(gòu)的五大組件,另外還會介紹每個組件的實現(xiàn)選擇,如圖 2 所示。


        bcf23007d676e36fc8c9ac52e06b67be.webp


        專注于多模態(tài)理解的 MM-LLM 僅包含前三個組件。


        在訓(xùn)練階段,模態(tài)編碼器、LLM 骨干和模態(tài)生成器通常保持在凍結(jié)狀態(tài)。其優(yōu)化的要點是輸入和輸出投影器。由于投影器是輕量級的組件,因此相比于總參數(shù)量,MM-LLM 中可訓(xùn)練參數(shù)的占比非常?。ㄍǔ<s為 2%)??倕?shù)量取決于 MM-LLM 中使用的核心 LLM 的規(guī)模。因此,在針對各種多模態(tài)任務(wù)訓(xùn)練 MM-LLM 時,可以取得很高的訓(xùn)練效率。


        模態(tài)編碼器(Modality Encoder/ME):編碼不同模態(tài)的輸入,以得到相應(yīng)的特征。


        輸入投影器(Input Projector):將已編碼的其它模態(tài)的特征與文本特征空間對齊。


        LLM 骨干:MM-LLM 使用 LLM 作為核心智能體,因此也繼承了 LLM 的一些重要特性,比如零樣本泛化、少樣本上下文學(xué)習(xí)、思維鏈(CoT)和指令遵從。LLM 骨干的任務(wù)是處理各種模態(tài)的表征,其中涉及到與輸入相關(guān)的語義理解、推理和決策。它的輸出包括 (1) 直接的文本輸出,(2) 其它模態(tài)的信號 token(如果有的話)。這些信號 token 可用作引導(dǎo)生成器的指令 —— 是否生成多模態(tài)內(nèi)容,如果是,則指定所要生成的內(nèi)容。


        MM-LLM 中常用的 LLM 包括 Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。


        輸出投影器:將來自 LLM 骨干的信號 token 表征映射成可被后續(xù)模態(tài)生成器理解的特征。


        模態(tài)生成器:生成不同對應(yīng)模態(tài)的輸出。目前的研究工作通常是使用現(xiàn)有的隱擴散模型(LDM),即使用 Stable Diffusion 來合成圖像、使用 Zeroscope 來合成視頻、使用 AudioLDM-2 來合成音頻。

         

        訓(xùn)練流程


        MM-LLM 的訓(xùn)練流程可以分為兩個主要階段:MM PT(多模態(tài)預(yù)訓(xùn)練)和 MM IT(多模態(tài)指令微調(diào))。


        MM PT


        在預(yù)訓(xùn)練階段(通常是利用 XText 數(shù)據(jù)集),通過優(yōu)化預(yù)定義的目標來訓(xùn)練輸入和輸出投影器,使其對齊不同的模態(tài)。(有時候也會將參數(shù)高效型微調(diào)(PEFT)技術(shù)用于 LLM 骨干。)


        MM IT


        MM IT 這種方法需要使用一組指令格式的數(shù)據(jù)集對預(yù)訓(xùn)練的 MM-LLM 進行微調(diào)。通過這個微調(diào)過程,MM-LLM 可以泛化到未曾見過的任務(wù),執(zhí)行新指令,從而增強零樣本性能。


        MM IT 包含監(jiān)督式微調(diào)(SFT)和根據(jù)人類反饋的強化學(xué)習(xí)(RLHF),目標是與人類意圖或偏好對齊并提升 MM-LLM 的交互能力。


        SFT 可將預(yù)訓(xùn)練階段的部分數(shù)據(jù)轉(zhuǎn)換成指令感知型的格式。


        SFT 之后,RLHF 會對模型進行進一步的微調(diào),這需要有關(guān) MM-LLM 所給響應(yīng)的反饋信息(比如由人類或 AI 標注的自然語言反饋(NLF))。這個過程采用了一種強化學(xué)習(xí)算法來有效整合不可微分的 NLF。模型的訓(xùn)練目標是根據(jù) NLF 生成對應(yīng)的響應(yīng)。


        現(xiàn)有的 MM-LLM 在 MM PT 和 MM IT 階段使用的數(shù)據(jù)集有很多,但它們都是表 3 和表 4 中數(shù)據(jù)集的子集。


        當(dāng)前最佳的 MM-LLM


        該團隊比較了 26 個當(dāng)前最佳(SOTA)MM-LLM 的架構(gòu)和訓(xùn)練數(shù)據(jù)集規(guī)模,如表 1 所示。另外他們還簡單總結(jié)了每種模型的核心貢獻和發(fā)展趨勢。


        939eb2064dbbfd73196bc0066329f9c5.webp


        (1) Flamingo:一系列設(shè)計用于處理交織融合的視覺數(shù)據(jù)和文本的視覺語言(VL)模型,可輸出自由形式的文本。


        (2) BLIP-2:提出了一種能更高效利用資源的框架,其中使用了輕量級的 Q-Former 來連接不同模態(tài),還使用了凍結(jié)的 LLM。使用 LLM,可通過自然語言 prompt 引導(dǎo) BLIP-2 執(zhí)行零樣本圖像到文本生成。


        (3) LLaVA:率先將指令微調(diào)技術(shù)遷移到多模態(tài)領(lǐng)域。為了解決數(shù)據(jù)稀疏性問題,LLaVA 使用 ChatGPT/GPT-4 創(chuàng)建了一個全新的開源多模態(tài)指令遵從數(shù)據(jù)集和一個多模態(tài)指令遵從基準 LLaVA-Bench。


        (4) MiniGPT-4:提出了一種經(jīng)過精簡的方法,其中僅訓(xùn)練一個線性層來對齊預(yù)訓(xùn)練視覺編碼器與 LLM。這種高效方法展現(xiàn)出的能力能媲美 GPT-4。


        (5) mPLUG-Owl:提出了一種全新的用于 MM-LLM 的模塊化訓(xùn)練框架,并整合了視覺上下文。為了評估不同模型在多模態(tài)任務(wù)上的性能,該框架還包含一個指示性的評估數(shù)據(jù)集 OwlEval。


        (6) X-LLM:擴展到了包括音頻在內(nèi)的多個模態(tài),展現(xiàn)出了強大的可擴展性。利用了 QFormer 的語言可遷移能力,X-LLM 成功在漢藏語系漢語語境中得到了應(yīng)用。


        (7) VideoChat:開創(chuàng)了一種高效的以聊天為中心的 MM-LLM 可用于進行視頻理解對話。這項研究為該領(lǐng)域的未來研究設(shè)定了標準,并為學(xué)術(shù)界和產(chǎn)業(yè)界提供了協(xié)議。


        (8) InstructBLIP:該模型是基于 BLIP-2 模型訓(xùn)練得到的,在 MM IT 階段僅更新了 Q-Former。通過引入指令感知型的視覺特征提取和對應(yīng)的指令,該模型可以提取靈活且多樣化的特征。


        (9) PandaGPT 是一種開創(chuàng)性的通用模型,有能力理解 6 種不同模態(tài)的指令并遵照行事:文本、圖像 / 視頻、音頻、熱量、深度和慣性測量單位。


        (10) PaLIX:其訓(xùn)練過程使用了混合的視覺語言目標和單模態(tài)目標,包括前綴補全和掩碼 token 補全。研究表明,這種方法可以有效用于下游任務(wù),并在微調(diào)設(shè)置中到達了帕累托邊界。


        (11) Video-LLaMA:提出了一種多分支跨模態(tài)預(yù)訓(xùn)練框架,讓 LLM 可以在與人類對話的同時處理給定視頻的視覺和音頻內(nèi)容。該框架對齊了視覺與語言以及音頻與語言。


        (12) Video-ChatGPT:該模型是專門針對視頻對話任務(wù)設(shè)計的,可以通過整合時空視覺表征來生成有關(guān)視頻的討論。


        (13) Shikra:提出了一種簡單但統(tǒng)一的預(yù)訓(xùn)練 MM-LLM,并且專門針對參考對話(Referential Dialogue)任務(wù)進行了調(diào)整。參考對話任務(wù)涉及到討論圖像中的區(qū)域和目標。該模型表現(xiàn)出了值得稱道的泛化能力,可有效處理未曾見過的情況。


        (14) DLP:提出了用于預(yù)測理想 prompt 的 P-Former,并在一個單模態(tài)語句的數(shù)據(jù)集上完成了訓(xùn)練。這表明單模態(tài)訓(xùn)練可以用于增強多模態(tài)學(xué)習(xí)。


        (15) BuboGPT:為了全面理解多模態(tài)內(nèi)容,該模型在構(gòu)建時學(xué)習(xí)了一個共享式語義空間。其探索了圖像、文本和音頻等不同模態(tài)之間的細粒度關(guān)系。


        (16) ChatSpot:提出了一種簡單卻有效的方法,可為 MM-LLM 精細化調(diào)整精確引用指令,從而促進細粒度的交互。通過集成精確引用指令(由圖像級和區(qū)域級指令構(gòu)成),多粒度視覺語言任務(wù)描述得以增強。


        (17) Qwen-VL:一種支持英語和漢語的多語言 MM-LLM。Qwen-VL 還允許在訓(xùn)練階段輸入多張圖像,這能提高其理解視覺上下文的能力。


        (18) NExT-GPT:這是一種端到端、通用且支持任意模態(tài)到任意模態(tài)的 MM-LLM,支持自由輸入和輸出圖像、視頻、音頻和文本。其采用了一種輕量的對齊策略 —— 在編碼階段使用以 LLM 為中心的對齊,在解碼階段使用指令遵從對齊。


        (19) MiniGPT-5:這種 MM-LLM 整合了轉(zhuǎn)化成生成式 voken 的技術(shù),并集成了 Stable Diffusion。它擅長執(zhí)行交織融合了視覺語言輸出的多模態(tài)生成任務(wù)。其在訓(xùn)練階段加入了無分類器指導(dǎo),以提升生成質(zhì)量。


        (20) LLaVA-1.5:該模型基于 LLaVA 框架并進行了簡單的修改,包括使用一種 MLP 投影,引入針對學(xué)術(shù)任務(wù)調(diào)整過的 VQA 數(shù)據(jù),以及使用響應(yīng)格式簡單的 prompt。這些調(diào)整讓模型的多模態(tài)理解能力得到了提升。


        (21) MiniGPT-v2:這種 MM-LLM 的設(shè)計目標是作為多樣化視覺語言多任務(wù)學(xué)習(xí)的一個統(tǒng)一接口。為了打造出能熟練處理多種視覺語言任務(wù)的單一模型,每個任務(wù)的訓(xùn)練和推理階段都整合了標識符(identifier)。這有助于明確的任務(wù)區(qū)分,并最終提升學(xué)習(xí)效率。


        (22) CogVLM:一種開源 MM-LLM,其通過一種用在注意力和前饋層中的可訓(xùn)練視覺專家模塊搭建了不同模態(tài)之間的橋梁。這能讓多模態(tài)特征深度融合,同時不會損害在下游 NLP 任務(wù)上的性能。


        (23) DRESS:提出了一種使用自然語言反饋提升與人類偏好的對齊效果的方法。DRESS 擴展了條件式強化學(xué)習(xí)算法以整合不可微分的自然語言反饋,并以此訓(xùn)練模型根據(jù)反饋生成適當(dāng)?shù)捻憫?yīng)。


        (24) X-InstructBLIP:提出了一種使用指令感知型表征的跨模態(tài)框架,足以擴展用于助力 LLM 處理跨多模態(tài)(包括圖像 / 視頻、音頻和 3D)的多樣化任務(wù)。值得注意的是,它不需要特定模態(tài)的預(yù)訓(xùn)練就能做到這一點。


        (25) CoDi-2:這是一種多模態(tài)生成模型,可以出色地執(zhí)行多模態(tài)融合的指令遵從、上下文生成以及多輪對話形式的用戶 - 模型交互。它是對 CoDi 的增強,使其可以處理復(fù)雜的模態(tài)交織的輸入和指令,以自回歸的方式生成隱含特征。


        (26) VILA:該模型在視覺任務(wù)上的性能出色,并能在保持純文本能力的同時表現(xiàn)出卓越的推理能力。VILA 之所以性能優(yōu)異,是因為其充分利用了 LLM 的學(xué)習(xí)能力,使用了圖像 - 文本對的融合屬性并實現(xiàn)了精細的文本數(shù)據(jù)重新混合。

         

        當(dāng)前 MM-LLM 的發(fā)展趨勢:


        (1) 從專注于多模態(tài)理解向特定模態(tài)生成發(fā)展,并進一步向任意模態(tài)到任意模態(tài)轉(zhuǎn)換發(fā)展(比如 MiniGPT-4 → MiniGPT-5 → NExT-GPT)。

        (2) 從 MM PT 到 SFT 再到 RLHF,訓(xùn)練流程持續(xù)不斷優(yōu)化,力求更好地與人類意圖對齊并增強模型的對話互動能力(比如 BLIP-2 → InstructBLIP → DRESS)。

        (3) 擁抱多樣化的模態(tài)擴展(比如 BLIP-2 → X-LLM 和 InstructBLIP → X-InstructBLIP)。

        (4) 整合質(zhì)量更高的訓(xùn)練數(shù)據(jù)集(比如 LLaVA → LLaVA-1.5)。

        (5) 采用更高效的模型架構(gòu),從 BLIP-2 和 DLP 中復(fù)雜的 Q-Former 和 P-Former 輸入投射器模塊到 VILA 中更簡單卻有效的線性投影器。

         

        基準和性能


        為了全面比較各模型的性能,該團隊編制了一個表格,其中包含從多篇論文中收集的主要 MM-LLM 的數(shù)據(jù),涉及 18 個視覺語言基準,見表 2。


        83ae5b047df5ecce4c8d7f59c1b4edcf.webp


        未來方向


        該團隊最后討論了 MM-LLM 領(lǐng)域比較有前景的一些未來研究方向:


        • 更強大的模型:增強 MM-LLM 的能力,其中主要通過這四個關(guān)鍵途徑:擴展模態(tài)、實現(xiàn) LLM 多樣化、提升多模態(tài)指令微調(diào)的數(shù)據(jù)集質(zhì)量、增強多模態(tài)生成能力。

        • 難度更大的基準

        • 移動 / 輕量級部署

        • 具身智能

        • 持續(xù)指令微調(diào)



        關(guān)注公眾號【機器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀

        不是一杯奶茶喝不起,而是我T M直接用來跟進 AIGC+CV視覺 前沿技術(shù),它不香?!

        臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完

        深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴散模型論文解讀

        深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法! 

        經(jīng)典GAN不得不讀:StyleGAN

        9a4c28ad2bac66bfac4dd48e4cf3531d.webp  戳我,查看GAN的系列專輯~! 最新最全100篇匯總!生成擴散模型Diffusion Models ECCV2022 | 生成對抗網(wǎng)絡(luò)GAN部分論文匯總
        CVPR 2022 | 25+方向、最新50篇GAN論文
         ICCV 2021 | 35個主題GAN論文匯總
        超110篇!CVPR 2021最全GAN論文梳理
        超100篇!CVPR 2020最全GAN論文梳理

        拆解組新的GAN:解耦表征MixNMatch

        StarGAN第2版:多域多樣性圖像生成

        附下載 | 《可解釋的機器學(xué)習(xí)》中文版

        附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》

        附下載 |《計算機視覺中的數(shù)學(xué)方法》分享

        《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

        《零樣本圖像分類綜述: 十年進展》

        《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


        《禮記·學(xué)記》有云:獨學(xué)而無友,則孤陋而寡聞

        點擊 跟進 AIGC+CV視覺 前沿技術(shù),真香! ,加入  AI生成創(chuàng)作與計算機視覺  知識星球!

        瀏覽 48
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 能看黄色电影的网站 | 走基层熟女x88v | 潘金莲一级淫片aaaa | 伦理片在线播放无遮无挡 | 亚洲无码视频在线观看 |