真假難辨!AI人像生成再進化!HyperHuman:基于隱式結(jié)構(gòu)擴散的超逼真人像生成
大家好,今天和大家分享最新的一篇 AI生成相關(guān)的工作,本文的重點在于對于人像生成的優(yōu)化,之前的工作,例如stable diffusion等,對于真人生成效果存在一定的缺陷,基于此為出發(fā)點,本文貢獻了新的數(shù)據(jù)集,并提出一個新的隱式結(jié)構(gòu)擴散模型結(jié)合姿態(tài)圖、深度圖等,生成更逼真的人像圖片。
好久沒更新原創(chuàng)啦,兄弟們點點贊,以后多多更新,fighting?。?!
歡迎大家留言,你更想看到的內(nèi)容,實戰(zhàn)?論文?或經(jīng)驗分享?
https://snap-research.github.io/HyperHuman/
https://github.com/snap-research/HyperHuman
https://snap-research.github.io/HyperHuman/content/hyperhuman.pdf
標題:HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

背景:
現(xiàn)在文本到圖像模型取得了重大進展,但實現(xiàn)超逼真的人類圖像生成仍然是一項理想但尚未解決的任務(wù)?,F(xiàn)有模型(例如stable diffusion和 DALL·E 2)往往會生成部分不連貫或姿勢不自然的人像圖片。為了應對這些挑戰(zhàn),作者認為,人類圖像本質(zhì)上是跨多個粒度的結(jié)構(gòu),從粗粒度的身體骨骼到細粒度的空間幾何。因此,在一個模型中捕獲顯式外觀和隱式結(jié)構(gòu)之間的這種相關(guān)性對于生成連貫且自然的人像圖片至關(guān)重
主要貢獻:
提出了一個統(tǒng)一的框架 HyperHuman,它可以生成高度真實和多樣化布局的開放場景下的人像圖片。具體如下:
1)首先構(gòu)建以人類為中心的大規(guī)模數(shù)據(jù)集,名為 HumanVerse,它由 3.4 億張圖像組成,具有人體姿勢、深度和表面法向量等詳細標注。
2)提出了一種隱式結(jié)構(gòu)擴散模型(Latent Structural Diffusion Model),該模型可以同時對深度和表面法向量以及合成的 RGB 圖像進行去噪。模型在統(tǒng)一網(wǎng)絡(luò)中強制執(zhí)行圖像外觀、空間關(guān)系和幾何形狀的聯(lián)合學習,其中模型中的每個分支在結(jié)構(gòu)意識和紋理豐富性方面相互補充。
3)最后,為了進一步提高視覺質(zhì)量,提出了一種結(jié)構(gòu)引導細化器來組合預測條件,以更詳細地生成更高分辨率。大量的實驗表明,我們的框架具有SOTA的性能,可以在不同的場景下生成超逼真的人類圖像。
效果展示:






和其他算法對比:

整體框架:

HyperHuman 框架概述。在潛在結(jié)構(gòu)擴散模型(紫色)中,圖像 x、深度 d 和表面法線 n 對圖片描述 c 和姿勢骨架 p 進行聯(lián)合去噪調(diào)節(jié)。在結(jié)構(gòu)引導精煉器(藍色)中,我們構(gòu)建了更高分辨率生成的預測條件。請注意,灰色圖像是指隨機丟棄條件,以實現(xiàn)更穩(wěn)健的訓練。
定量分析結(jié)果:


