1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        女媧算法,殺瘋了!

        共 1732字,需瀏覽 4分鐘

         ·

        2021-12-01 17:53

        大家好,我是周末加班寫技術文的 Jack。

        今天分享一個「多模態(tài)」算法 NüWA(女媧)。

        8項典型的視覺生成任務

        論文的開頭,就放出了效果,NüWA 包攬了 8 項經(jīng)典的視覺生成任務的 SOTA。

        論文表示,NüWA 更是在文本到圖像生成中“完虐” OpenAI DALL-E。

        碾壓各種對比的算法效果,殺瘋了!

        NüWA 效果

        我們先看下 NüWA 這算法在 8 項經(jīng)典的視覺生成任務中的表現(xiàn)。

        Text-To-Image(T2I)

        文字轉(zhuǎn)圖片任務,其實就是根據(jù)一段文字描述,生成對應描述的圖片。

        比如:

        A dog with gogglesstaring at the camera.

        一只戴著護目鏡,盯著攝像機的狗。

        還有更多效果:

        NüWA 生成的效果看起來就沒那么違和,從論文的效果看,很真實!

        效果非常 Amazing。

        Sketch-To-Image (S2I)

        草圖轉(zhuǎn)圖片任務,就是根據(jù)草圖的布局,生成對應的圖片。

        比如:

        在一張圖片上,畫個大致輪廓,就可以自動“腦補”圖片。

        這效果真是開了眼了,真實效果真如論文這般的話,那確實很強。

        這個算法,可以用在很多有意思的場景。

        Image Completion (I2I)

        圖像補全,如果一副圖片殘缺了,算法可以自動“腦補”出殘缺的部分。

        好家伙,是不是又有一些大膽的想法了?

        這個遮擋還算可以,還有更細碎的。

        圖片碎成這樣,還能“腦補”出畫面,我很期待代碼。

        Image Manipulation (TI2I)

        圖片處理,根據(jù)文字描述,處理圖片。

        比如:

        有一副草原的圖片,然后增加一段描述:

        a horse is running on the grassland

        一匹馬奔跑在草原上,然后就可以生成對應的圖片。

        這驚人的理解力。

        這讓我想起來了 P 圖吧大神,惡搞的作品。

        有了這個算法,咱也可以試一試了,哈哈。

        Video

        這還不算完,除了上述的生成圖片的四種效果,NüWA 還可以生成視頻!

        對應的四種視頻生成任務:

        • Text-To-Video (T2V)
        • Sketch-To-Video (S2V)
        • Sketch-To-Video (S2V)
        • Video Manipulation (TV2V)

        既可以玩圖片又可以玩視頻。

        NüWA 原理

        NüWA模型的整體架構(gòu)包含一個支持多種條件的 adaptive 編碼器和一個預訓練的解碼器,能夠同時使圖像和視頻的信息。

        對于圖像補全、視頻預測、圖像處理和視頻處理任務,將輸入的部分圖像或視頻直接送入解碼器即可。

        而編碼解碼器都是基于一個3D Nearby的自注意力機制(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:

        W 表示可學習的權(quán)重,X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。

        3DNA 考慮了完整的鄰近信息,并為每個 token 動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出 3DNA 的關注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

        更多細節(jié),可以直接看論文:

        論文地址:

        https://arxiv.org/abs/2111.12417

        NüWA 代碼

        NüWA 的代碼還沒有開源,不過 Github 已經(jīng)建立。

        Github:

        https://github.com/microsoft/NUWA

        作者表示,很快就會開源:

        公司有開源審批流程,代碼也得梳理下,所以可以先 Star 上標記下,耐心等等。

        微軟亞研院和北大聯(lián)合打造的一個多模態(tài)預訓練模型 NüWA,在首屆微軟峰會上亮相過。

        這種應該不會鴿的~

        總結(jié)

        今年算是多模態(tài) Transformer 大力發(fā)展的一年,從各種頂會的論文就能看出,各種多模態(tài)。

        就聊這么多吧,今天寫完技術文,我繼續(xù)做視頻了。

        我是 Jack,我們下期見~

        ·················END·················

        推薦閱讀

        ?? ?這個項目,我能玩一年?? ?這兩個練手項目,我王多魚投了????從高考到程序員的成長之路

        瀏覽 37
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产麻豆剧传媒精品国产 | 香蕉A片| 一区二区三区在线观看视频 | 女人高潮69xxxx | 天天射一射 | 女人高潮av国产伦理剧 | 涩涩小视频在线观看 | 三上悠亚国产精品一区内容阅读 | 超碰激情| 欧美日韩在线观看一区二区三区 |