論文探討—Everybody Dance Now



Original Source Here

GAN Mapping

經過前面的pose detection及pose normalization後,我們要正式進入model了

model overview

就像我們一開始說的,在取得姿勢以及正規化後後,利用Pix2PixHD來合成

相較起傳統使用MSE來計算pixel之間的誤差,利用VGG 取得feature之後,計算兩張frame feature之間的誤差,可以看到更global的內容、semantic上也更加相似 (有興趣可參考原始論文: https://arxiv.org/pdf/1603.08155v1.pdf)

由於pix2pixHD原先是針對單一影像所設計,但是對於影片來說,我們必須考慮frame的關聯以及平滑程度,於是作者多加上了temporal smoothing

temporal smoothing

x: generated y:ground truth

由上圖可以看到,在目標函數當中,Discriminator 所判斷的內容不只是單一影像,還包含了前一張影像,讓整體影像品質更連貫。

FaceGAN

對於臉部,作者額外訓練了一個FaceGAN model,讓生成影像在臉部能夠更加真實,與前面model不同地方在於使用了residual的方式生成影像。

Experiments

為了瞭解增加temporal smoothing以及FaceGAN對於整體的幫助

作者使用Ablation condition(拿掉部分的網路),並使用SSIM(Structural Similarity)以及LPIPS(Learned Perceptual Image Patch Similarity)兩個metric來衡量

SSIM越高越好 LPIPS越低越好

上表中,FBF為Frame-by-Frame(即pix2pixHD)、TS為temporal smoothing、FG為FaceGAN

可以看到,最右側(也就是加上TS以及FG)在各項指標中皆表現最好,但是就如同作者所說的,FaceGAN對於整體表現雖然有所幫助,但影響不大(相較起TS的表現)

Limitation

儘管結果表現相當優異,依然還是有可以改善的部分

左邊第一章圖可以看出頭髮和較寬鬆的衣服生成品質不佳

中間的圖則可看到少了一隻手

右側則是在衣服皺摺上不夠真實

以上三點,作者認為取得更多的Data以及改善pose detection model後可以有所改善

同時,作者也表示在比較極端的動作(跳躍、劇烈移動)時生成表現不佳

而在normalization的部分則無法對於關節長度還有相機距離調整

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: