1. 后Sora時代,CV從業(yè)者如何選擇模型?卷積還是ViT,監(jiān)督學習還是C...

        共 5208字,需瀏覽 11分鐘

         ·

        2024-04-10 22:59

        本文來源  機器之心 編輯:蛋醬

        如何衡量一個視覺模型?又如何選擇適合自己需求的視覺模型?MBZUAI和Meta的研究者給出了答案。


        一直以來,ImageNet 準確率是評估模型性能的主要指標,也是它最初點燃了深度學習革命的火種。但對于今天的計算視覺領(lǐng)域來說,這一指標正變得越來越不「夠用」。 因為計算機視覺模型已變得越來越復雜,從早期的 ConvNets 到 Vision Transformers,可用模型的種類已大幅增加。同樣,訓練范式也從 ImageNet 上的監(jiān)督訓練發(fā)展到自監(jiān)督學習和像 CLIP 這樣的圖像 - 文本對訓練。 ImageNet 并不能捕捉到不同架構(gòu)、訓練范式和數(shù)據(jù)所產(chǎn)生的細微差別。如果僅根據(jù) ImageNet 準確率來判斷,具有不同屬性的模型可能看起來很相似。當模型開始過度擬合 ImageNet 的特異性并使準確率達到飽和時,這種局限性就會變得更加明顯。 CLIP 就是個值得一提的例子:盡管 CLIP 的 ImageNet 準確率與 ResNet 相似,但其視覺編碼器的穩(wěn)健性和可遷移性要好得多。這引發(fā)了對 CLIP 獨特優(yōu)勢的探索和研究,如果當時僅從 ImageNet 指標來看,這些優(yōu)勢并不明顯。這表明,分析其他屬性有助于發(fā)現(xiàn)有用的模型。 此外,傳統(tǒng)的基準并不能完全反映模型處理真實世界視覺挑戰(zhàn)的能力,例如不同的相機姿勢、光照條件或遮擋物。例如,在 ImageNet 等數(shù)據(jù)集上訓練的模型往往很難將其性能應(yīng)用到現(xiàn)實世界的應(yīng)用中,因為現(xiàn)實世界的條件和場景更加多樣化。 這些問題,為領(lǐng)域內(nèi)的從業(yè)者帶來了新的困惑:如何衡量一個視覺模型?又如何選擇適合自己需求的視覺模型? 在最近的一篇論文中,MBZUAI 和 Meta 的研究者對這一問題開展了深入討論。

        9e779aaf72e652e91ab8be16fd8ed11a.webp

        • 論文標題:ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy

        • 論文鏈接:https://arxiv.org/pdf/2311.09215.pdf


        論文聚焦 ImageNet 準確性之外的模型行為,分析了計算機視覺領(lǐng)域的四個主要模型:分別在監(jiān)督和 CLIP 訓練范式下的 ConvNeXt(作為 ConvNet 的代表)和 Vision Transformer (ViT) 。 所選模型的參數(shù)數(shù)量相似,且在每種訓練范式下對 ImageNet-1K 的準確率幾乎相同,確保了比較的公平性。研究者深入探討了一系列模型特性,如預測誤差類型、泛化能力、習得表征的不變性、校準等,重點關(guān)注了模型在沒有額外訓練或微調(diào)的情況下表現(xiàn)出的特性,為希望直接使用預訓練模型的從業(yè)人員提供了參考。

        838add52f467070ef5c3c0ed9fef7993.webp

        在分析中,研究者發(fā)現(xiàn)不同架構(gòu)和訓練范式的模型行為存在很大差異。例如,模型在 CLIP 范式下訓練的分類錯誤少于在 ImageNet 上訓練。不過,監(jiān)督模型的校準效果更好,在 ImageNet 穩(wěn)健性基準測試中普遍更勝一籌。ConvNeXt 在合成數(shù)據(jù)上有優(yōu)勢,但比 ViT 更偏重紋理。同時,有監(jiān)督的 ConvNeXt 在許多基準測試中表現(xiàn)出色,其可遷移性表現(xiàn)與 CLIP 模型相當。 可以看出,各種模型以獨特的方式展現(xiàn)了自己的優(yōu)勢,而這些優(yōu)勢是單一指標無法捕捉到的。研究者強調(diào),需要更詳細的評估指標來準確選擇特定情境下的模型,并創(chuàng)建與 ImageNet 無關(guān)的新基準。 基于這些觀察,Meta AI 首席科學家 Yann LeCun 轉(zhuǎn)發(fā)了這項研究并點贊:

        35de44afcea7ab9a22deeea38e29f7ed.webp

        模型選擇 對于監(jiān)督模型,研究者使用了 ViT 的預訓練 DeiT3- Base/16,它與 ViT-Base/16 架構(gòu)相同,但訓練方法有所改進;此外還使用了 ConvNeXt-Base。對于 CLIP 模型,研究者使用了 OpenCLIP 中 ViT-Base/16 和 ConvNeXt-Base 的視覺編碼器。 請注意,這些模型的性能與最初的 OpenAI 模型略有不同。所有模型檢查點都可以在 GitHub 項目主頁中找到。詳細的模型比較見表 1:

        fdf28d87edeb4cb832708ce4fed0a57d.webp

        對于模型的選擇過程,研究者做出了詳細解釋:

        1、由于研究者使用的是預訓練模型,因此無法控制訓練期間所見數(shù)據(jù)樣本的數(shù)量和質(zhì)量。

        2、為了分析 ConvNets 和 Transformers,之前的許多研究都對 ResNet 和 ViT 進行了比較。這種比較通常對 ConvNet 不利,因為 ViT 通常采用更先進的配方進行訓練,能達到更高的 ImageNet 準確率。ViT 還有一些架構(gòu)設(shè)計元素,例如 LayerNorm,這些元素在多年前 ResNet 被發(fā)明時并沒有納入其中。因此,為了進行更平衡的評估,研究者將 ViT 與 ConvNeXt 進行了比較,后者是 ConvNet 的現(xiàn)代代表,其性能與 Transformers 相當,并共享了許多設(shè)計。

        3、在訓練模式方面,研究者對比了監(jiān)督模式和 CLIP 模式。監(jiān)督模型在計算機視覺領(lǐng)域一直保持著最先進的性能。另一方面,CLIP 模型在泛化和可遷移性方面表現(xiàn)出色,并提供了連接視覺和語言表征的特性。

        4、由于自監(jiān)督模型在初步測試中表現(xiàn)出與監(jiān)督模型類似的行為,因此未被納入結(jié)果中。這可能是由于它們最終在 ImageNet-1K 上進行了有監(jiān)督的微調(diào),而這會影響到許多特性的研究。


        接下來,我們看下研究者如何對不同的屬性進行了分析。 分析 模型錯誤 ImageNet-X 是一個對 ImageNet-1K 進行擴展的數(shù)據(jù)集,其中包含對 16 個變化因素的詳細人工注釋,可對圖像分類中的模型錯誤進行深入分析。它采用錯誤比例度量(越低越好)來量化模型在特定因素上相對于整體準確性的表現(xiàn),從而對模型錯誤進行細致入微的分析。ImageNet-X 的結(jié)果表明:

        1. 相對于監(jiān)督模型,CLIP 模型在 ImageNet 準確性方面犯的錯誤更少。

        2. 所有模型都主要受到遮擋等復雜因素的影響。

        3. 紋理是所有模型中最具挑戰(zhàn)性的因素。


        0bd869e519c1a4f3d81e88ea286c9a43.webp

        形狀 / 紋理偏差


        形狀 - 紋理偏差會檢測模型是否依賴于脆弱的紋理捷徑,而不是高級形狀線索。這種偏差可以通過結(jié)合不同類別的形狀和紋理的線索沖突圖像來研究。這種方法有助于了解,與紋理相比,模型的決策在多大程度上是基于形狀的。研究者對線索沖突數(shù)據(jù)集上的形狀 - 紋理偏差進行了評估,發(fā)現(xiàn) CLIP 模型的紋理偏差小于監(jiān)督模型,而 ViT 模型的形狀偏差高于 ConvNets。

        93768167078d18cb171b779dbc8b4c57.webp

        模型校準 校準可量化模型的預測置信度與其實際準確度是否一致,可以通過預期校準誤差 (ECE) 等指標以及可靠性圖和置信度直方圖等可視化工具進行評估。研究者在 ImageNet-1K 和 ImageNet-R 上對校準進行了評估,將預測分為 15 個等級。在實驗中,研究者觀察到以下幾點:

        4cb9a806171443be35986a31a6777300.webp

        1. CLIP 模型過于自信,而監(jiān)督模型則略顯不足。

        2. 有監(jiān)督的 ConvNeXt 比有監(jiān)督的 ViT 校準效果更好。


        穩(wěn)健性和可遷移性 模型的穩(wěn)健性和可遷移性對于適應(yīng)數(shù)據(jù)分布變化和新任務(wù)至關(guān)重要。研究者使用各種 ImageNet 變體對穩(wěn)健性進行了評估,結(jié)果發(fā)現(xiàn),雖然 ViT 和 ConvNeXt 模型的平均性能相當,但除 ImageNet-R 和 ImageNet-Sketch 外,有監(jiān)督模型在穩(wěn)健性方面普遍優(yōu)于 CLIP。在可遷移性方面,通過使用 19 個數(shù)據(jù)集的 VTAB 基準進行評估,有監(jiān)督的 ConvNeXt 優(yōu)于 ViT,幾乎與 CLIP 模型的性能相當。

        d638f5030d0c46abe6641da7affd9226.webp

        合成數(shù)據(jù) PUG-ImageNet 等合成數(shù)據(jù)集可以精確控制攝像機角度和紋理等因素,是一種很有前景的研究路徑,因此研究者分析了模型在合成數(shù)據(jù)上的性能。PUG-ImageNet 包含逼真的 ImageNet 圖像,姿態(tài)和光照等因素存在系統(tǒng)性變化,性能以絕對 top-1 準確率為衡量標準。研究者提供了 PUG-ImageNet 中不同因素的結(jié)果,發(fā)現(xiàn) ConvNeXt 在幾乎所有因素上都優(yōu)于 ViT。這表明 ConvNeXt 在合成數(shù)據(jù)上優(yōu)于 ViT,而 CLIP 模型的差距較小,因為 CLIP 模型的準確率低于監(jiān)督模型,這可能與原始 ImageNet 的準確率較低有關(guān)。

        3e6265d6d784fb3e39cb2a44d8c751d4.webp

        變換不變性 變換不變性是指模型能夠產(chǎn)生一致的表征,不受輸入變換的影響從而保留語義,如縮放或移動。這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。研究者使用的方法包括調(diào)整圖像大小以實現(xiàn)比例不變性,移動 crops 以實現(xiàn)位置不變性,以及使用插值位置嵌入調(diào)整 ViT 模型的分辨率。 他們在 ImageNet-1K 上通過改變 crop 比例 / 位置和圖像分辨率來評估比例、移動和分辨率的不變性。在有監(jiān)督的訓練中,ConvNeXt 的表現(xiàn)優(yōu)于 ViT??傮w而言,模型對規(guī)模 / 分辨率變換的穩(wěn)健性高于對移動的穩(wěn)健性。對于需要對縮放、位移和分辨率具有較高穩(wěn)健性的應(yīng)用,結(jié)果表明有監(jiān)督的 ConvNeXt 可能是最佳選擇。

        c70a11dd0eaa514220d14b46889f1337.webp

        總結(jié) 總體來說,每種模型都有自己獨特的優(yōu)勢。這表明模型的選擇應(yīng)取決于目標用例,因為標準性能指標可能會忽略特定任務(wù)的關(guān)鍵細微差別。此外,許多現(xiàn)有的基準都來自于 ImageNet,這也會使評估產(chǎn)生偏差。開發(fā)具有不同數(shù)據(jù)分布的新基準對于在更具現(xiàn)實世界代表性的環(huán)境中評估模型至關(guān)重要。 以下是本文結(jié)論的概括: ConvNet 與 Transformer

        1. 在許多基準上,有監(jiān)督 ConvNeXt 的性能都優(yōu)于有監(jiān)督 ViT:它的校準效果更好,對數(shù)據(jù)轉(zhuǎn)換的不變性更高,并表現(xiàn)出更好的可遷移性和穩(wěn)健性。

        2. ConvNeXt 在合成數(shù)據(jù)上的表現(xiàn)優(yōu)于 ViT。

        3. ViT 的形狀偏差更大。


        監(jiān)督與 CLIP 1. 盡管 CLIP 模型在可轉(zhuǎn)移性方面更勝一籌,但有監(jiān)督的 ConvNeXt 在這項任務(wù)中表現(xiàn)出了競爭力。這展示了有監(jiān)督模型的潛力。 2. 有監(jiān)督模型在穩(wěn)健性基準方面表現(xiàn)更好,這可能是因為這些模型都是 ImageNet 變體。 3. CLIP 模型的形狀偏差更大,與 ImageNet 的準確性相比,分類錯誤更少。

        關(guān)注公眾號【機器學習與AI生成創(chuàng)作】,更多精彩等你來讀

        不是一杯奶茶喝不起,而是我T M直接用來跟進 AIGC+CV視覺 前沿技術(shù),它不香?!

        臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完

        深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴散模型論文解讀

        深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法! 

        經(jīng)典GAN不得不讀:StyleGAN

        f0639056c77096e9921445db83a2b7f9.webp  戳我,查看GAN的系列專輯~! 最新最全100篇匯總!生成擴散模型Diffusion Models ECCV2022 | 生成對抗網(wǎng)絡(luò)GAN部分論文匯總
        CVPR 2022 | 25+方向、最新50篇GAN論文
         ICCV 2021 | 35個主題GAN論文匯總
        超110篇!CVPR 2021最全GAN論文梳理
        超100篇!CVPR 2020最全GAN論文梳理

        拆解組新的GAN:解耦表征MixNMatch

        StarGAN第2版:多域多樣性圖像生成

        附下載 | 《可解釋的機器學習》中文版

        附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》

        附下載 |《計算機視覺中的數(shù)學方法》分享

        《基于深度學習的表面缺陷檢測方法綜述》

        《零樣本圖像分類綜述: 十年進展》

        《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學習綜述》


        《禮記·學記》有云:獨學而無友,則孤陋而寡聞

        點擊 跟進 AIGC+CV視覺 前沿技術(shù),真香! ,加入  AI生成創(chuàng)作與計算機視覺  知識星球!

        瀏覽 53
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 婷婷色五月网站 | 淫荡国产| 国产视频久久久久久 | 想操逼视频| 丁香五月婷婷亚洲综合另类精品 |