Improved Training of Wasserstein GANs
设G是生成网络(generator),D是判别网络(critic),原始GAN的训练目标是 \[ \min_G\max_D\ \mathbb{E}_{\mathbf{x}\sim\mathbb{P}_r}[\log(D(x))]+\mathbb{E}_{\mathbf{\tilde x}\sim\mathbb{P}_g}[\log(D(\tilde x))] \] 其中\(\mathbb{P}_r\)是数据分布,\(\mathbb{P}_g\)是G生成的数据分布。
WGAN训练的目标是 \[ \min_G\max_{D\in\mathcal{D}} \mathbb{E}_{\mathbf{x}\sim\mathbb{P}_r}[D(\mathbf{x})] - \mathbb{E}_{\tilde{\mathbf{x}}\sim\mathbb{P}_g}[D(\tilde{\mathbf{x}})] \] 其中\(\mathcal{D}\)是1-Lipschitz函数的集合。最小化G实际上是最小化Wasserstein距离\(W(\mathbb{P}_r,\mathbb{P}_g)\),而最大化\(D\)实际是逼近Wasserstein距离\(W(\mathbb{P}_r,\mathbb{P}_g)\)。原始的WGAN文献中,为了让D满足Lipschitz条件,对D的参数做了裁剪,限制它们的取值范围为\([-c,c]\),这样得到的的\(D\)的集合是\(k\)-Lipschitz函数集合的子集。然而这么裁剪会产生一些问题。
- 会限制critic的表达能力,critic会学到非常简单的函数。
- \(c\)需要精细调节,否则会梯度消失或者梯度爆炸。
Properties of the optimal WGAN critic
令\(D^*\)是optimal ciritic,并且假设可微。从\(\mathbb{P}_r\)和\(\mathbb{P}_g\)分别采样\(x\)和\(y\),令\(x_t=(1-t)x+ty\)且\(t\)位于\([0,1]\)。那么 \[ \nabla D^*(x_t)=\frac{y-x_t}{||y-x_t||} \] 也就是说\(D^*\)在采样区域上的梯度是\(1\)。
Gradient penalty
基于optimal critic的性质,作者提出了另一种加上Lipschitz限制的方法,直接要求D的梯度的范数在真实分布和生成分布以及它们之间的区域上接近1。在损失函数中加上对梯度大小的惩罚项 \[ L=\mathbb{E}_{\tilde{\mathbb{x}}\sim\mathbb{P}_g}[D(\tilde{\mathbb{x}})]-\mathbb{E}_{\mathbb{x}\sim\mathbb{P}_r}[D(\mathbb{x})] + \lambda\mathbb{E}_{\hat{\mathbb{x}}\sim\mathbb{P}_{\hat{\mathbb{x}}}}[(||\nabla_{\hat{\mathbb{x}}}D(\hat{\mathbb{x}})||_2-1)^2]. \] 作者建议\(\lambda\)设成10,在D中以使用layer normalization ,而不能使用 batch normalization。
\(\hat{\mathbf{x}}\sim\mathbb{P}_{\hat{\mathbf{x}}}\)的意思是:先从\(\mathbb{P}_r\)和\(\mathbb{P}_g\)采样一对真假样本\(\mathbf{x}\)和\(\tilde{\mathbf{x}}\) ,从\([0,1]\)上的均匀分布采样\(\epsilon\) ,然后差值采样\(\hat{\mathbf{x}}=\epsilon\mathbf{x}+(1-\epsilon)\tilde{\mathbf{x}}\)。
参考文献
- arxiv:1704.00028,Improved Training of Wasserstein GANs