Exploiting Spatial Dimensions of Latent in GAN for Real time Image Editing

发布 : 2021-08-19 分类 : 深度学习 浏览 :

2021 CVPR《Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing》 论文笔记。github
作者认为现有的编码器将图像压缩到纠缠的一维向量,这很难进行保留高频细节的图像重建。提出了带有空间维度的latent,StyleMapGAN。它将一维latent改为带有空间维度的stylemap。Mapping Net将stylemap映射到高纬度。stylemap是包含色彩、纹理和形状信息的,它利于图像的重建。

方法

1. Stylemap-based generator

与stylegan相同,在高斯分布采样z,经过MLP映射。但最后将原本一维的latent,reshape到了二维。对于生成器的不同分辨率,通过可学习的映射网络,将stylemap进行上采样。这里用element-wise级别的仿射变换替换掉了AdaIN。由于stylemap已经引入了空间多样性,所以解码器去除了nosie输入。
image.png
stylegan 原来的AdaIN中的放射变换的参数 $\gamma$ 和 $\beta$ 的维度只到通道维度。而本文方法对空间进行了扩展, $\gamma_{i}, \beta_{i} \in \mathbb{R}^{C_{i} \times H_{i} \times W_{i}}$ 如此实现了对空间维度的控制。
image.png

2. Training procedure and losses

图二上半部分展示了训练过程,表1是所使用的Loss,多个loss联合训练。这里需要注意的是,编码器在GAN训练阶段一同进行了训练。E只有一处进行了梯度隔离,图2中已标出。
image.png
image.png

3. Local editing

图2的下半部分展示了如何进行编辑,需要注意的是文中为了描述简洁,以编辑stylemap进行了举例,实际操作是在$w+$空间进行的。
image.png
文中是以局部编辑举例的,直接操作 $w+$ 空间的map。替换后,实验结果展示了对应属性确实进行了改变,说明 $w+$ 空间的map具有色彩、纹理和形状等信息。

实验

1. Effects of stylemap resolution

stylemap分辨率越高,GAN Inversion得到的图像细节保留越丰富。
image.png
作者猜测随着stylemap分辨率的增加,encoder得到的latent被投影到域外。最后折中选择, $8\times 8$ 的stylemap。
image.png

2. Local editing

效果展示
image.png
image.png
量化结果
image.png

3. Unaligned transplantation

非对称位置移植展示
image.png

本文作者 : HeoLis
原文链接 : http://ishero.net/Exploiting%20Spatial%20Dimensions%20of%20Latent%20in%20GAN%20for%20Real%20time%20Image%20Editing.html
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

学习、记录、分享、获得

微信扫一扫, 向我投食

微信扫一扫, 向我投食