7 年之前 · 5597a8e691
--- a/bicycle-gan.py
+++ b/bicycle-gan.py
@@ -19,19 +19,19 @@ parser.add_argument('--train', default=True, type=str2bool,
 
																                     help="Training mode")
															
 
																 parser.add_argument('--task', type=str, default='edges2shoes',
															
 
																                     help='Task name')
															
 
																-parser.add_argument('--gamma', type=float, default=1,
															
 
																-                    help='Loss coefficient')
															
 
																-parser.add_argument('--lambda1', type=float, default=1,
															
 
																-                    help='Loss coefficient')
															
 
																-parser.add_argument('--lambda2', type=float, default=1,
															
 
																-                    help='Loss coefficient')
															
 
																+parser.add_argument('--coeff_kl', type=float, default=0.01,
															
 
																+                    help='Loss coefficient for KL divergence')
															
 
																+parser.add_argument('--coeff_reconstruct', type=float, default=10,
															
 
																+                    help='Loss coefficient for reconstruct')
															
 
																+parser.add_argument('--coeff_latent', type=float, default=0.5,
															
 
																+                    help='Loss coefficient for latent cycle')
															
 
																 parser.add_argument('--instance_normalization', default=False, type=bool,
															
 
																                     help="Use instance norm instead of batch norm")
															
 
																 parser.add_argument('--log_step', default=100, type=int,
															
 
																                     help="Tensorboard log frequency")
															
 
																 parser.add_argument('--batch_size', default=1, type=int,
															
 
																                     help="Batch size")
															
 
																-parser.add_argument('--image_size', default=128, type=int,
															
 
																+parser.add_argument('--image_size', default=256, type=int,
															
 
																                     help="Image size")
															
 
																 parser.add_argument('--latent_dim', default=8, type=int,
															
 
																                     help="Dimensionality of latent vector")
															
--- a/discriminator_z.py
+++ b/discriminator_z.py
@@ -1,26 +0,0 @@
 
																-import tensorflow as tf
															
 
																-from utils import logger
															
 
																-import ops
															
 
																-
															
 
																-
															
 
																-class DiscriminatorZ(object):
															
 
																-    def __init__(self, name, is_train, norm='batch', activation='relu'):
															
 
																-        logger.info('Init DiscriminatorZ %s', name)
															
 
																-        self.name = name
															
 
																-        self._is_train = is_train
															
 
																-        self._norm = norm
															
 
																-        self._activation = activation
															
 
																-        self._reuse = False
															
 
																-
															
 
																-    def __call__(self, input):
															
 
																-        with tf.variable_scope(self.name, reuse=self._reuse):
															
 
																-            D = input
															
 
																-            for i in range(3):
															
 
																-                D = ops.mlp(D, 512, 'FC512_{}'.format(i), self._is_train,
															
 
																-                            self._reuse, self._norm, self._activation)
															
 
																-            D = ops.mlp(D, 1, 'FC1_{}'.format(i), self._is_train,
															
 
																-                        self._reuse, norm=None, activation=None)
															
 
																-
															
 
																-            self._reuse = True
															
 
																-            self.var_list = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, self.name)
															
 
																-            return D
															
--- a/encoder.py
+++ b/encoder.py
@@ -26,9 +26,13 @@ class Encoder(object):
 
																                 E = ops.conv_block(E, n, 'C{}_{}'.format(n, i), 4, 2, self._is_train,
															
 
																                                 self._reuse, norm=self._norm if i else None, activation='leaky')
															
 
																             E = tf.reshape(E, [-1, 512])
															
 
																-            E = ops.mlp(E, self._latent_dim, 'FC8', self._is_train, self._reuse,
															
 
																+            mu = ops.mlp(E, self._latent_dim, 'FC8_mu', self._is_train, self._reuse,
															
 
																                         norm=None, activation=None)
															
 
																+            log_sigma = ops.mlp(E, self._latent_dim, 'FC8_sigma', self._is_train, self._reuse,
															
 
																+                        norm=None, activation=None)
															
 
																+
															
 
																+            z = mu + tf.random_normal(shape=tf.shape(self._latent_dim)) * tf.exp(log_sigma)
															
 
																             self._reuse = True
															
 
																             self.var_list = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, self.name)
															
 
																-            return E
															
 
																+            return z, mu, log_sigma
															
--- a/generator.py
+++ b/generator.py
@@ -14,7 +14,6 @@ class Generator(object):
 
																     def __call__(self, input, z):
															
 
																         with tf.variable_scope(self.name, reuse=self._reuse):
															
 
																-            self._dropout = tf.constant(1.0)
															
 
																             batch_size = int(input.get_shape()[0])
															
 
																             latent_dim = int(z.get_shape()[-1])
															
 
																             num_filters = [64, 128, 256, 512, 512, 512, 512]
															
@@ -23,24 +22,24 @@ class Generator(object):
 
																             layers = []
															
 
																             G = input
															
 
																+            z = tf.reshape(z, [batch_size, 1, 1, latent_dim])
															
 
																+            z = tf.tile(z, [1, self._image_size, self._image_size, 1])
															
 
																+            G = tf.concat([G, z], axis=3)
															
 
																             for i, n in enumerate(num_filters):
															
 
																                 G = ops.conv_block(G, n, 'C{}_{}'.format(n, i), 4, 2, self._is_train,
															
 
																                                 self._reuse, norm=self._norm if i else None, activation='leaky')
															
 
																                 layers.append(G)
															
 
																-            z = tf.reshape(z, [batch_size, 1, 1, latent_dim])
															
 
																-            G = tf.concat([G, z], axis=3)
															
 
																-
															
 
																             layers.pop()
															
 
																             num_filters.pop()
															
 
																             num_filters.reverse()
															
 
																             for i, n in enumerate(num_filters):
															
 
																                 G = ops.deconv_block(G, n, 'CD{}_{}'.format(n, i), 4, 2, self._is_train,
															
 
																-                                self._reuse, norm=self._norm, activation='relu', dropout=self._dropout)
															
 
																+                                self._reuse, norm=self._norm, activation='relu')
															
 
																                 G = tf.concat([G, layers.pop()], axis=3)
															
 
																             G = ops.deconv_block(G, 3, 'last_layer', 4, 2, self._is_train,
															
 
																-                               self._reuse, norm=None, activation='tanh', dropout=self._dropout)
															
 
																+                               self._reuse, norm=None, activation='tanh')
															
 
																             self._reuse = True
															
 
																             self.var_list = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, self.name)
															
--- a/model.py
+++ b/model.py
@@ -9,7 +9,6 @@ import numpy as np
 
																 from generator import Generator
															
 
																 from encoder import Encoder
															
 
																 from discriminator import Discriminator
															
 
																-from discriminator_z import DiscriminatorZ
															
 
																 from utils import logger
															
@@ -19,9 +18,9 @@ class BicycleGAN(object):
 
																         self._batch_size = args.batch_size
															
 
																         self._image_size = args.image_size
															
 
																         self._latent_dim = args.latent_dim
															
 
																-        self._lambda1 = args.lambda1
															
 
																-        self._lambda2 = args.lambda2
															
 
																-        self._gamma = args.gamma
															
 
																+        self._coeff_reconstruct = args.coeff_reconstruct
															
 
																+        self._coeff_latent = args.coeff_latent
															
 
																+        self._coeff_kl = args.coeff_kl
															
 
																         self._augment_size = self._image_size + (30 if self._image_size == 256 else 15)
															
 
																         self._image_shape = [self._image_size, self._image_size, 3]
															
@@ -60,53 +59,48 @@ class BicycleGAN(object):
 
																         D = Discriminator('D', is_train=self.is_train,
															
 
																                           norm='batch', activation='leaky',
															
 
																                           image_size=self._image_size)
															
 
																-        Dz = DiscriminatorZ('Dz', is_train=self.is_train,
															
 
																-                             norm='batch', activation='relu')
															
 
																         # Encoder
															
 
																         E = Encoder('E', is_train=self.is_train,
															
 
																                     norm='batch', activation='relu',
															
 
																                     image_size=self._image_size, latent_dim=self._latent_dim)
															
 
																-        # Generate images (a->b)
															
 
																+        # conditional VAE-GAN: B -> z -> B'
															
 
																+        z_encoded, z_encoded_mu, z_encoded_log_sigma = E(image_b)
															
 
																+        image_ab_encoded = G(image_a, z_encoded)
															
 
																+
															
 
																+        # conditional Latent Regressor-GAN: z -> B' -> z'
															
 
																         image_ab = self.image_ab = G(image_a, z)
															
 
																-        z_reconstruct = E(image_ab)
															
 
																+        z_recon, z_recon_mu, z_recon_log_sigma = E(image_ab)
															
 
																-        # Encode z (G(A, z) -> z)
															
 
																-        z_encoded = E(image_b)
															
 
																-        image_ab_encoded = G(image_a, z_encoded)
															
 
																         # Discriminate real/fake images
															
 
																         D_real = D(image_b)
															
 
																         D_fake = D(image_ab)
															
 
																         D_fake_encoded = D(image_ab_encoded)
															
 
																-        Dz_real = Dz(z)
															
 
																-        Dz_fake = Dz(z_encoded)
															
 
																-        loss_image_reconstruct = tf.reduce_mean(tf.abs(image_b - image_ab_encoded))
															
 
																+        loss_vae_gan = (tf.reduce_mean(tf.squared_difference(D_real, 0.9)) +
															
 
																+            tf.reduce_mean(tf.square(D_fake_encoded)))
															
 
																-        loss_gan = (tf.reduce_mean(tf.squared_difference(D_real, 0.9)) +
															
 
																-            tf.reduce_mean(tf.square(D_fake))) * 0.5
															
 
																+        loss_image_cycle = tf.reduce_mean(tf.abs(image_b - image_ab_encoded))
															
 
																-        loss_image_cycle = (tf.reduce_mean(tf.squared_difference(D_real, 0.9)) +
															
 
																-            tf.reduce_mean(tf.square(D_fake_encoded))) * 0.5
															
 
																+        loss_gan = (tf.reduce_mean(tf.squared_difference(D_real, 0.9)) +
															
 
																+            tf.reduce_mean(tf.square(D_fake)))
															
 
																-        loss_latent_cycle = tf.reduce_mean(tf.abs(z - z_reconstruct))
															
 
																+        loss_latent_cycle = tf.reduce_mean(tf.abs(z - z_recon))
															
 
																-        loss_Dz = (tf.reduce_mean(tf.squared_difference(Dz_real, 0.9)) +
															
 
																-            tf.reduce_mean(tf.square(Dz_fake))) * 0.5
															
 
																+        loss_kl = -0.5 * tf.reduce_mean(1 + 2 * z_encoded_log_sigma - z_encoded_mu ** 2 -
															
 
																+                                       tf.exp(2 * z_encoded_log_sigma), 1)
															
 
																-        loss = self._gamma * loss_Dz \
															
 
																-            + loss_image_cycle - self._lambda1 * loss_image_reconstruct \
															
 
																-            + loss_gan - self._lambda2 * loss_latent_cycle
															
 
																+        loss = loss_vae_gan + self._coeff_reconstruct * loss_image_cycle + \
															
 
																+            loss_gan + self._coeff_latent * loss_latent_cycle + \
															
 
																+            self._coeff_kl * loss_kl
															
 
																         # Optimizer
															
 
																         self.optimizer_D = tf.train.AdamOptimizer(learning_rate=self.lr, beta1=0.5) \
															
 
																                             .minimize(loss, var_list=D.var_list, global_step=self.global_step)
															
 
																         self.optimizer_G = tf.train.AdamOptimizer(learning_rate=self.lr, beta1=0.5) \
															
 
																                             .minimize(-loss, var_list=G.var_list)
															
 
																-        self.optimizer_Dz = tf.train.AdamOptimizer(learning_rate=self.lr, beta1=0.5) \
															
 
																-                            .minimize(loss, var_list=Dz.var_list)
															
 
																         self.optimizer_E = tf.train.AdamOptimizer(learning_rate=self.lr, beta1=0.5) \
															
 
																                             .minimize(-loss, var_list=E.var_list)
															
@@ -115,20 +109,18 @@ class BicycleGAN(object):
 
																         self.loss_image_cycle = loss_image_cycle
															
 
																         self.loss_latent_cycle = loss_latent_cycle
															
 
																         self.loss_gan = loss_gan
															
 
																-        self.loss_Dz = loss_Dz
															
 
																+        self.loss_z_kl = loss_z_kl
															
 
																         self.loss = loss
															
 
																         tf.summary.scalar('loss/image_reconstruct', loss_image_reconstruct)
															
 
																         tf.summary.scalar('loss/image_cycle', loss_image_cycle)
															
 
																         tf.summary.scalar('loss/latent_cycle', loss_latent_cycle)
															
 
																         tf.summary.scalar('loss/gan', loss_gan)
															
 
																-        tf.summary.scalar('loss/Dz', loss_Dz)
															
 
																+        tf.summary.scalar('loss/Dz', loss_z_kl)
															
 
																         tf.summary.scalar('loss/total', loss)
															
 
																         tf.summary.scalar('model/D_real', tf.reduce_mean(D_real))
															
 
																         tf.summary.scalar('model/D_fake', tf.reduce_mean(D_fake))
															
 
																         tf.summary.scalar('model/D_fake_encoded', tf.reduce_mean(D_fake_encoded))
															
 
																-        tf.summary.scalar('model/Dz_real', tf.reduce_mean(Dz_real))
															
 
																-        tf.summary.scalar('model/Dz_fake', tf.reduce_mean(Dz_fake))
															
 
																         tf.summary.scalar('model/lr', self.lr)
															
 
																         tf.summary.image('image/A', image_a[0:1])
															
 
																         tf.summary.image('image/B', image_b[0:1])
															
@@ -141,7 +133,9 @@ class BicycleGAN(object):
 
																         logger.info('  {} images from A'.format(len(data_A)))
															
 
																         logger.info('  {} images from B'.format(len(data_B)))
															
 
																-        data_size = min(len(data_A), len(data_B))
															
 
																+        assert len(data_A) == len(data_B), \
															
 
																+            'Data size mismatch dataA(%d) dataB(%d)' % (len(data_A), len(data_B))
															
 
																+        data_size = len(data_A)
															
 
																         num_batch = data_size // self._batch_size
															
 
																         epoch_length = num_batch * self._batch_size
															
@@ -170,7 +164,8 @@ class BicycleGAN(object):
 
																             image_a = np.stack(data_A[iter*self._batch_size:(iter+1)*self._batch_size])
															
 
																             image_b = np.stack(data_B[iter*self._batch_size:(iter+1)*self._batch_size])
															
 
																-            sample_z = np.random.uniform(-1, 1, size=(self._batch_size, self._latent_dim))
															
 
																+            #sample_z = np.random.uniform(-1, 1, size=(self._batch_size, self._latent_dim))
															
 
																+            sample_z = np.random.normal(size=(self._batch_size, self._latent_dim))
															
 
																             fetches = [self.loss,
															
 
																                        self.optimizer_D, self.optimizer_Dz,
															
@@ -184,15 +179,13 @@ class BicycleGAN(object):
 
																                                                    self.lr: lr,
															
 
																                                                    self.z: sample_z})
															
 
																-            z = np.random.uniform(-1, 1, size=(1, self._latent_dim))
															
 
																-            image_ab = sess.run(self.image_ab, feed_dict={self.image_a: image_a,
															
 
																-                                                   self.image_b: image_b,
															
 
																-                                                   self.lr: lr,
															
 
																-                                                    self.z: z,
															
 
																-                                                    self.is_train: True})
															
 
																-            imsave('results/r_{}.jpg'.format(step), np.squeeze(image_ab, axis=0))
															
 
																-
															
 
																             if step % self._log_step == 0:
															
 
																+                z = np.random.normal(size=(1, self._latent_dim))
															
 
																+                image_ab = sess.run(self.image_ab, feed_dict={self.image_a: image_a,
															
 
																+                                                            self.z: z,
															
 
																+                                                            self.is_train: False})
															
 
																+                imsave('results/r_{}.jpg'.format(step), np.squeeze(image_ab, axis=0))
															
 
																+
															
 
																                 summary_writer.add_summary(fetched[-1], step)
															
 
																                 summary_writer.flush()
															
 
																                 t.set_description('Loss({:.3f})'.format(fetched[0]))
															
@@ -203,44 +196,37 @@ class BicycleGAN(object):
 
																             step += 1
															
 
																             image_a = np.expand_dims(dataA, axis=0)
															
 
																             image_b = np.expand_dims(dataB, axis=0)
															
 
																-            images = []
															
 
																-            images.append(image_a)
															
 
																-            images.append(image_b)
															
 
																+            images_random = []
															
 
																+            images_random.append(image_a)
															
 
																+            images_random.append(image_b)
															
 
																+            images_linear = []
															
 
																+            images_linear.append(image_a)
															
 
																+            images_linear.append(image_b)
															
 
																             for i in range(23):
															
 
																                 z = np.random.uniform(-1, 1, size=(1, self._latent_dim))
															
 
																                 image_ab = sess.run(self.image_ab, feed_dict={self.image_a: image_a,
															
 
																                                                         self.z: z,
															
 
																-                                                        self.is_train: True})
															
 
																-                images.append(image_ab)
															
 
																+                                                        self.is_train: False})
															
 
																+                images_random.append(image_ab)
															
 
																+
															
 
																+                z = np.zeros((1, self._latent_dim))
															
 
																+                z[0][0] = (i / 23.0 - 0.5) * 2.0
															
 
																+                image_ab = sess.run(self.image_ab, feed_dict={self.image_a: image_a,
															
 
																+                                                        self.z: z,
															
 
																+                                                        self.is_train: False})
															
 
																+                images_linear.append(image_ab)
															
 
																             image_rows = []
															
 
																             for i in range(5):
															
 
																-                image_rows.append(np.concatenate(images[i*5:(i+1)*5], axis=2))
															
 
																+                image_rows.append(np.concatenate(images_random[i*5:(i+1)*5], axis=2))
															
 
																             images = np.concatenate(image_rows, axis=1)
															
 
																             images = np.squeeze(images, axis=0)
															
 
																             imsave(os.path.join(base_dir, 'random_{}.jpg'.format(step)), images)
															
 
																-        step=0
															
 
																-        for (dataA, dataB) in tqdm(zip(data_A, data_B)):
															
 
																-            step += 1
															
 
																-            image_a = np.expand_dims(dataA, axis=0)
															
 
																-            image_b = np.expand_dims(dataB, axis=0)
															
 
																-            images = []
															
 
																-            images.append(image_a)
															
 
																-            images.append(image_b)
															
 
																-
															
 
																-            for i in range(23):
															
 
																-                z = np.zeros((1, self._latent_dim))
															
 
																-                z[0][0] = (i / 23.0 - 0.5) * 2.0
															
 
																-                image_ab = sess.run(self.image_ab, feed_dict={self.image_a: image_a,
															
 
																-                                                        self.z: z,
															
 
																-                                                        self.is_train: True})
															
 
																-                images.append(image_ab)
															
 
																-
															
 
																             image_rows = []
															
 
																             for i in range(5):
															
 
																-                image_rows.append(np.concatenate(images[i*5:(i+1)*5], axis=2))
															
 
																+                image_rows.append(np.concatenate(images_linear[i*5:(i+1)*5], axis=2))
															
 
																             images = np.concatenate(image_rows, axis=1)
															
 
																             images = np.squeeze(images, axis=0)
															
 
																             imsave(os.path.join(base_dir, 'linear_{}.jpg'.format(step)), images)
															
--- a/ops.py
+++ b/ops.py
@@ -106,10 +106,9 @@ def residual(input, num_filters, name, is_train, reuse, norm, pad='REFLECT'):
 
																         return tf.nn.relu(input + out)
															
 
																 def deconv_block(input, num_filters, name, k_size, stride, is_train, reuse,
															
 
																-                 norm, activation, dropout):
															
 
																+                 norm, activation):
															
 
																     with tf.variable_scope(name, reuse=reuse):
															
 
																         out = conv2d_transpose(input, num_filters, k_size, stride, reuse)
															
 
																         out = _norm(out, is_train, reuse, norm)
															
 
																-        out = tf.nn.dropout(out, dropout)
															
 
																         out = _activation(out, activation)
															
 
																         return out