點擊上方“機器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標

新智元 來源:berkeley 編輯:好困
最近幾個月,AI生成藝術(shù)領(lǐng)域的發(fā)展如同雨后春筍一般。自從OpenAI開源了CLIP模型的權(quán)重和代碼之后,網(wǎng)友們就開始利用它去創(chuàng)造各種有趣的視覺藝術(shù)。而CLIP模型創(chuàng)造力是如此之強,僅根據(jù)這些短短的文字,就能以不可思議的抽象風(fēng)格將它們呈現(xiàn)出來。而你,并不會知道出現(xiàn)的會是什么:可能是迷幻的偽現(xiàn)實場景,或者是更加抽象的東西。例如,輸入 「夜晚的城市景觀」,就會生成這種很酷、很抽象的畫面。CLIP也可以用來生成短的動畫,例如這個「星空」。自然語言輸入是一個完全開放的沙盒,如果能按照模型的喜好使用文字,你幾乎可以創(chuàng)造任何東西。在概念上,這種從文本描述生成圖像的想法與OpenAI的DALL-E模型驚人地相似。但實際上卻完全不同。DALL-E是直接從語言中產(chǎn)生高質(zhì)量的圖像而進行的端到端訓(xùn)練,而CLIP則是使用語言來引導(dǎo)現(xiàn)有的無條件圖像生成模型。不過,這些基于CLIP的方法要相對拙略一些,所以輸出的結(jié)果并不像DALL-E那樣具有很高質(zhì)量和精確度。相反,這些生成的圖像是怪異、迷幻和抽象的。正是這種怪異使這些基于CLIP的作品如此獨特,讓人在熟悉的事物上看到完全不同的結(jié)果。「牛油果形狀的扶手椅」:上圖由DALL-E生成,下圖由CLIP生成的2021年1月5日,OpenAI開源了CLIP:一個用來給圖像進行標注的模型。在數(shù)以億計的圖像中學(xué)習(xí)之后,CLIP不僅在給圖像挑選最佳的標注方面變得相當熟練,而且在分類方面還展示出了比以往任何模型都更強大的魯棒性。除此以外,CLIP還學(xué)會了抽象的視覺表征,在某種程度上這還是第一次。但很顯然,沒有任何跡象表明CLIP還能在生成藝術(shù)方面帶來任何幫助。然而,網(wǎng)友們只花了一天時間就發(fā)現(xiàn),通過一個簡單的技巧,CLIP就可以用來指導(dǎo)現(xiàn)有的圖像生成模型(如GANs、Autoencoders或像SIREN這樣的隱式神經(jīng)表征),輸出基于給定文字描述的圖像。其中,CLIP在生成模型的潛在空間進行搜索,從而找到與給定的文字描述相匹配的潛在圖像。不過,在短短的幾周之后就有了突破性進展,advadnoun發(fā)布并開源了Big Sleep的代碼:一種基于CLIP并使用Big GAN作為生成模型的文本到圖像技術(shù)。有趣的是,模型的名字起源于一部超現(xiàn)實主義的黑色電影The Big Sleep。The Big Sleep以其獨特的方式,幾乎可以呈現(xiàn)任何能用文字表達的東西。在一切的盡頭,搖搖欲墜的建筑和刺破天空的武器——The Big Sleep看到這些作品,也就不難想象為何網(wǎng)友給出一個富有「哲學(xué)」的觀點了:你可以把CLIP的輸出看作是單純的統(tǒng)計平均數(shù)的產(chǎn)物:計算語言和視覺之間的相關(guān)性的結(jié)果,因為它們存在于互聯(lián)網(wǎng)上。因此,從這個角度來看,CLIP的輸出更像是在窺視時代潮流,并把事情看成是類似于 「互聯(lián)網(wǎng)的統(tǒng)計平均值」。
2020年12月17日,海德堡大學(xué)的研究人員發(fā)表了他們的論文「Taming Transformers for High-Resolution Image Synthesis」,提出了一種新的GAN架構(gòu):VQ-GAN。VQ-GAN將conv-nets和transformers結(jié)合在一起,并充分地利用了conv-nets在局部感應(yīng)偏差和transformers在全局注意力上的優(yōu)勢。在四月初,advadnoun和RiversHaveWings開始把VQ-GAN和CLIP結(jié)合到一起,嘗試從文本提示中生成圖像。新的方法與The Big Sleep基本相同,只不過原本的生成模型Big-GAN,變成了VQ-GAN。結(jié)果就是,生成的圖像在風(fēng)格上發(fā)生了巨大的轉(zhuǎn)變。VQ-GAN+CLIP的輸出看起來不像是The Big Sleep那樣的繪畫,而更像一個雕塑。這個結(jié)果有些出乎意料,只是把生成模型從Big-Gan換成VQ-Gan,就能獲得一個全新風(fēng)格的「藝術(shù)家」。當然,這也從側(cè)面說明了CLIP的通用性:可以插入任何一個生成模型,并在之后產(chǎn)生具有全新風(fēng)格和形式的藝術(shù)。除了可以切換生成模型來改變輸出的風(fēng)格以外,還有一個更簡單的技巧可以做到這一點。只需要添加一些特定的關(guān)鍵詞到文字提示中,CLIP就能對輸出的圖像做出相應(yīng)地修改——以它所「理解」的方式。這其中最有吸引力的一個技巧就是:「虛幻引擎技巧」。其中,虛幻引擎是一個由Epic Games開發(fā)的3D創(chuàng)作渲染工具。網(wǎng)友jbustter發(fā)現(xiàn),如果在文字提示中加入 「在虛幻引擎中渲染」,輸出結(jié)果看起來會更真實。CLIP似乎學(xué)習(xí)了很多被標記為「用虛幻引擎渲染」的電腦游戲圖片,因此,通過在文字提示中加入這一點,就能有效地激勵了模型去「復(fù)現(xiàn)」那些由虛幻引擎渲染的圖像。一個神奇的童話屋,虛幻引擎——VQ-GAN+CLIP在某種程度上,虛幻引擎的技巧是一種突破。它使人們認識到在提示中添加關(guān)鍵詞可以有多大的效果。于是,有越來越多復(fù)雜的提示被使用,用來盡可能地提取最高質(zhì)量的輸出。「山頂附近暴風(fēng)雪中的小木屋,黃昏時分打開一盞燈 | artstation | 虛幻引擎」——VQ-GAN+CLIP「山頂上的房子在午夜時分的啞光畫,小螢火蟲在周圍飛來飛去,是吉卜力工作室的風(fēng)格 | artstation | 虛幻引擎」——VQ-GAN+CLIP這些看起來與之前VQ-GAN+CLIP生成的圖像完全不同。它們看起來更像是經(jīng)過編輯的照片或視頻游戲的場景。根據(jù)這些關(guān)鍵詞,模型將會輸出風(fēng)格各異的藝術(shù)作品,同時,隨著生成模型的發(fā)展,也將會有更多更出色的作品產(chǎn)生。
參考資料:
https://ml.berkeley.edu/blog/posts/clip-art/?continueFlag=ae8c92b06679c71e74349cb040d81f29
猜您喜歡:
等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識別的遺留難題
CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總
經(jīng)典GAN不得不讀:StyleGAN
最新最全20篇!基于 StyleGAN 改進或應(yīng)用相關(guān)論文
超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 | 《Python進階》中文版
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實用教程》
附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》
附下載 | 《可解釋的機器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計算機視覺中的數(shù)學(xué)方法》分享