1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        TPAMI 2023 | 生成式AI與圖像合成最新綜述

        共 2411字,需瀏覽 5分鐘

         ·

        2023-09-20 03:39

           
        來(lái)源:CVHub 深度學(xué)習(xí)技術(shù)前沿
        本文約1300字,建議閱讀5分鐘
        生成式AI方法是如何生成以假亂真的視覺(jué)效果?又是如何利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)畫作、3D生成以及其他創(chuàng)造性任務(wù)的呢?


        生成式AI作為當(dāng)前人工智能領(lǐng)域的前沿技術(shù),已被廣泛的應(yīng)用于各類視覺(jué)合成任務(wù)。隨著DALL-E2,Stable Diffusion和DreamFusion的發(fā)布,AI 作畫和3D 合成實(shí)現(xiàn)了令人驚嘆的視覺(jué)效果并且在全球范圍內(nèi)的爆炸式增長(zhǎng)。這些生成式AI技術(shù)深刻地拓展了人們對(duì)于AI圖像生成能力的認(rèn)識(shí),那么這些生成式AI方法是如何生成以假亂真的視覺(jué)效果?又是如何利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)畫作、3D生成以及其他創(chuàng)造性任務(wù)的呢?我們的綜述論文將會(huì)給您提供這些問(wèn)題的答案。


        論文地址:https://arxiv.org/abs/2112.13592
        代碼地址:
        https://github.com/fnzhan/Generative-AI
        項(xiàng)目地址:https://fnzhan.com/Generative-AI/

        在第一章節(jié),我們將為您描述多模態(tài)圖像合成與編輯任務(wù)的意義和整體發(fā)展,以及本論文的貢獻(xiàn)與總體結(jié)構(gòu)。


        在第二章節(jié),根據(jù)引導(dǎo)圖片合成與編輯的數(shù)據(jù)模態(tài),該綜述論文介紹了比較常用的視覺(jué)引導(dǎo),文字引導(dǎo),語(yǔ)音引導(dǎo),還有近期DragGAN提出的控制點(diǎn)引導(dǎo)等,并且介紹了相應(yīng)模態(tài)數(shù)據(jù)的處理方法。


        在第三章節(jié),根據(jù)圖像合成與編輯的模型框架,該論文對(duì)目前的各種方法進(jìn)行了分類,包括基于GAN的方法,擴(kuò)散模型方法,自回歸方法,和神經(jīng)輻射場(chǎng)(NeRF)方法。


        由于基于 GAN 的方法一般使用條件 GAN 和 GAN 反演,因此該論文進(jìn)一步根據(jù) 控制條件的融合方式,模型的結(jié)構(gòu),損失函數(shù)設(shè)計(jì),多模態(tài)對(duì)齊,和跨模態(tài)監(jiān)督進(jìn)行了詳細(xì)描述。


        近期,火熱的擴(kuò)散模型也被廣泛應(yīng)用于多模態(tài)合成與編輯任務(wù)。例如效果驚人的DALLE-2和Imagen都是基于擴(kuò)散模型實(shí)現(xiàn)的。相比于GAN,擴(kuò)散式生成模型擁有一些良好的性質(zhì),比如靜態(tài)的訓(xùn)練目標(biāo)和易擴(kuò)展性。該論文依據(jù)條件擴(kuò)散模型和預(yù)訓(xùn)練擴(kuò)散模型對(duì)現(xiàn)有方法進(jìn)行了分類與詳細(xì)分析。


        相比于基于GAN和擴(kuò)散模型的方法,自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù),以及利用目前流行的Transformer模型。自回歸方法一般先學(xué)習(xí)一個(gè)向量量化編碼器將圖片離散地表示為token序列,然后自回歸式地建模token的分布。由于文本和語(yǔ)音等數(shù)據(jù)都能表示為token并作為自回歸建模的條件,因此各種多模態(tài)圖片合成與編輯任務(wù)都能統(tǒng)一到一個(gè)框架當(dāng)中。


        以上方法主要聚焦于2D圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(chǎng)(NeRF)的迅速發(fā)展,3D感知的多模態(tài)合成與編輯也吸引了越來(lái)越多的關(guān)注。由于需要考慮多視角一致性,3D感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務(wù)。本文針對(duì)單場(chǎng)景優(yōu)化NeRF,生成式NeRF兩種方法對(duì)現(xiàn)有工作進(jìn)行了分類與總結(jié)。


        隨后,該綜述對(duì)以上四種模型方法的進(jìn)行了比較和討論??傮w而言,相比于GAN,目前最先進(jìn)的模型更加偏愛(ài)自回歸模型和擴(kuò)散模型。而NeRF在多模態(tài)合成與編輯任務(wù)的應(yīng)用為這個(gè)領(lǐng)域的研究打開(kāi)了一扇新的窗戶。


        在第四章節(jié),該綜述匯集了多模態(tài)合成與編輯領(lǐng)域流行的數(shù)據(jù)集以及相應(yīng)的模態(tài)標(biāo)注,并且針對(duì)各模態(tài)典型任務(wù)(語(yǔ)義圖像合成,文字到圖像合成,語(yǔ)音引導(dǎo)圖像編輯)對(duì)當(dāng)前方法進(jìn)行了定量的比較。同時(shí)也對(duì)多種模態(tài)同時(shí)控制生成的結(jié)果進(jìn)行了可視化。


        在第五章節(jié),該綜述對(duì)此領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析,包括大規(guī)模的多模態(tài)數(shù)據(jù)集,準(zhǔn)確可靠的評(píng)估指標(biāo),高效的網(wǎng)絡(luò)架構(gòu),以及3D感知的發(fā)展方向。

        在第六和第七章節(jié),該綜述分別闡述了此領(lǐng)域潛在的社會(huì)影響和總結(jié)了文章的內(nèi)容與貢獻(xiàn)。

        對(duì)本綜述感興趣的小伙伴歡迎點(diǎn)擊文末閱讀原文。


        編輯:文婧

        瀏覽 208
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日韩精品免费一区二区中文字幕 | 骚逼被日| 伊人精品综合 | 鲁丝片一区二区三区 | 亚洲最大性爱网站 | 婷婷色激情| 久久人人爽人人爽人人 | 国产毛片AAAAAAA做受 | 午夜在线一区二区 | 猛男大粗爽h男人味69XXmadou 天天干好逼网 |