1. LLaVA-1.5:僅用1.2M數(shù)據(jù)、8個(gè)A100,一天完成訓(xùn)練,刷新11個(gè)基準(zhǔn)SOTA!

        共 3421字,需瀏覽 7分鐘

         ·

        2023-10-14 23:19

        文章來(lái)源  機(jī)器之心  編輯:蛋醬、小舟


        多模態(tài)大模型落地的風(fēng),最終還是刮了起來(lái)。


        十幾天前,OpenAI 為 ChatGPT 添加了圖像識(shí)別功能,允許用戶使用上傳一張或多張圖像配合進(jìn)行對(duì)話。從 OpenAI 自己公開的簡(jiǎn)短文檔,我們得知, ChatGPT 識(shí)圖功能的背后是一個(gè)名為 GPT-4V 的新款大模型。


        實(shí)際上,這一能力在半年前 GPT-4 發(fā)布之時(shí)就已存在,但一直未對(duì)普通用戶公開。在 AI 領(lǐng)域,多模態(tài)大模型 早已成為公認(rèn)的趨勢(shì),也被認(rèn)為是通用 AI 助手的關(guān)鍵模塊。


        鑒于 OpenAI 對(duì)「閉源」的堅(jiān)持,很多研究者也率先一步推出了自己的多模態(tài)大模型研究成果。比如兩大代表作「LLaVA」和「MiniGPT-4」,都在自然指令跟蹤和視覺推理能力方面展示了令人印象深刻的結(jié)果。


        今年 4 月,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)研究者共同發(fā)布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結(jié)果。


        如今,這一成果迎來(lái)重磅升級(jí):LLaVA-1.5 已正式發(fā)布,通過(guò)對(duì)原始 LLaVA 的簡(jiǎn)單修改,在 11 個(gè)基準(zhǔn)上刷新了 SOTA。



        • 論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

        • Demo 地址:https://llava.hliu.cc/


        僅使用 120 萬(wàn)公開數(shù)據(jù),LLaVA-1.5 在單個(gè) 8-A100 節(jié)點(diǎn)上用不到 1 天的時(shí)間就完成了訓(xùn)練。



        在論文中,研究者介紹了兩項(xiàng)簡(jiǎn)單的改進(jìn):一個(gè) MLP 跨模態(tài)連接器,以及合并 VQA 等學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)。與 LLaVA 一起使用時(shí),這兩項(xiàng)改進(jìn)帶來(lái)了更好的多模態(tài)理解能力。


        相比于 InstructBLIP 或 Qwen-VL 在數(shù)億甚至數(shù)十億的圖像文本配對(duì)數(shù)據(jù)上訓(xùn)練專門設(shè)計(jì)的視覺重采樣器,LLaVA 使用了最簡(jiǎn)單的架構(gòu)設(shè)計(jì),只需要在 600K 個(gè)圖像 - 文本對(duì)上訓(xùn)練一個(gè)簡(jiǎn)單的全連接投影層。



        和 GPT-4V 比,能不能打?


        在讀論文之前,我們先來(lái)看看 LLaVA-1.5 的識(shí)別能力如何,能不能與 GPT-4V 相較量。


        命題一:將雜貨轉(zhuǎn)換為 JSON


        指令:需要識(shí)別所有水果(僅水果),然后為每種水果創(chuàng)建一個(gè)具有名稱屬性和營(yíng)養(yǎng)屬性的對(duì)象,營(yíng)養(yǎng)屬性包括估計(jì)熱量、碳水化合物、脂肪和蛋白質(zhì)屬性。


        LLaVA-1.5 的回答結(jié)果:



        GPT-4V 的回答結(jié)果:



        命題二:從簡(jiǎn)化的草圖識(shí)別電影名稱


        指令:這個(gè)圖講的是哪部電影?注:我改了角色的名字,讓識(shí)別變得更難。


        LLaVA-1.5 的回答結(jié)果:



        GPT-4V 的回答結(jié)果:



        論文細(xì)節(jié)


        LLaVA 在視覺推理方面表現(xiàn)出值得稱贊的能力,在現(xiàn)實(shí)生活中的視覺指令任務(wù)的各種基準(zhǔn)上超越了多個(gè)最新模型,而僅在通常需要簡(jiǎn)短答案的學(xué)術(shù)基準(zhǔn)上有所欠缺。研究團(tuán)隊(duì)認(rèn)為后者歸因于 LLaVA 沒有像其他方法那樣在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。


        具體來(lái)說(shuō),該研究首先在下表 1 中選擇的三個(gè)數(shù)據(jù)集上分析了擴(kuò)展數(shù)據(jù)、模型和輸入圖像分辨率的影響;然后在表 2 中的 12 個(gè)不同基準(zhǔn)上進(jìn)行比較實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,LLaVA 架構(gòu)對(duì)于視覺指令調(diào)整而言功能強(qiáng)大且數(shù)據(jù)高效,并且使用比所有其他方法少得多的計(jì)算和訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了最佳性能。




        響應(yīng)格式 prompt


        該研究發(fā)現(xiàn):InstructBLIP 等方法無(wú)法在短格式和長(zhǎng)格式 VQA 之間取得平衡主要有兩點(diǎn)原因:


        首先,給 LLM 的 prompt 在響應(yīng)格式上不明確。例如,「Q:{問(wèn)題} A:{答案} 」這樣的 prompt 并不能清楚地闡明所需的輸出格式。即使對(duì)于自然的視覺對(duì)話,也可能使 LLM 過(guò)度適合給出簡(jiǎn)短的答案。


        其次,沒有對(duì) LLM 進(jìn)行微調(diào)。例如,InstructBLIP 需要 Qformer 的視覺輸出 token 來(lái)控制 LLM 的輸出長(zhǎng)度(長(zhǎng)格式 / 短格式),但由于其容量有限,Qformer 可能缺乏正確執(zhí)行此操作的能力。


        為了解決這個(gè)問(wèn)題,該研究提出使用一個(gè)明確指定輸出格式的「響應(yīng)格式 prompt」,例如當(dāng)需要模型給出簡(jiǎn)短回答時(shí),在 VQA 問(wèn)題的末尾加一句:「使用單個(gè)詞語(yǔ)或短語(yǔ)回答問(wèn)題」。



        該研究通過(guò)實(shí)驗(yàn)表明:當(dāng) LLM 使用此類 prompt 進(jìn)行微調(diào)時(shí),LLaVA 能夠根據(jù)用戶的指令適當(dāng)調(diào)整輸出格式,并且不需要使用 ChatGPT 對(duì) VQA 數(shù)據(jù)進(jìn)行額外處理。



        此外,該研究還發(fā)現(xiàn),與原始模型相比,通過(guò)雙層 MLP 提高視覺 - 語(yǔ)言連接器的表征能力可以提高 LLaVA 的多模態(tài)能力。并且,該研究還面向?qū)W術(shù)任務(wù)擴(kuò)展了數(shù)據(jù),包括額外的面向?qū)W術(shù)任務(wù)的 VQA 數(shù)據(jù)集,用于 VQA、OCR 和區(qū)域級(jí)感知,以增強(qiáng)模型的多模態(tài)能力。




        感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。


        參考鏈接:

        https://twitter.com/rowancheung/status/1710736745904721955

        https://twitter.com/imhaotian/status/1710192818159763842


        關(guān)注公眾號(hào)【機(jī)器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來(lái)讀

        臥剿,6萬(wàn)字!30個(gè)方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完

        深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀

        深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法! 

        經(jīng)典GAN不得不讀:StyleGAN

         戳我,查看GAN的系列專輯~!
        一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!
        最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models
        ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
        CVPR 2022 | 25+方向、最新50篇GAN論文
         ICCV 2021 | 35個(gè)主題GAN論文匯總
        超110篇!CVPR 2021最全GAN論文梳理
        超100篇!CVPR 2020最全GAN論文梳理

        拆解組新的GAN:解耦表征MixNMatch

        StarGAN第2版:多域多樣性圖像生成

        附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

        附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

        附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

        《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

        《零樣本圖像分類綜述: 十年進(jìn)展》

        《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


        《禮記·學(xué)記》有云:獨(dú)學(xué)而無(wú)友,則孤陋而寡聞

        點(diǎn)擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺 知識(shí)星球!

        瀏覽 319
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 色婷婷精品国产一区二区三区 | 寂寞少妇色按摩bd | 粉嫩壁肉被粗大慢慢撑开视频 | 嗯啊h水患者护士啪啪np文字 | 扒开美女屁股喷白水视频 |