styleGAN2 논문리뷰_1. StyleGAN2 이전 연구들

논문 읽기

코딩펭귄 2023. 2. 19. 01:54

논문제목 : Analyzing and Improving the Image Quality of StyleGAN

발행년도 : 2020.03.23

[연구배경] Generative adversarial networks (GAN)

l 생성자와 판별자, 두개의 네트워크를 활용한 생성모델

- 생성자 generator : 학습이 다 되고나면 생성자만을 이용해서 이미지를 만들수있다

- 판별자 discriminator : 생성자를 학습시키기위한 목적으로 사용되는 보조적인 네트워크

- 하나의 목적함수를 통해서 두개의 네트워크를 학습하는 방식으로 생성모델을 만들수있다

[연구배경] progressive growing of GANS (PGGAN=Pro GAN)

l 학습을 진행하는 과정에서 점진적으로 네트워크에 convolution레이어를 붙여 나간다

- 학습 시간에 따라 점진적으로 레이어가 붙여나가지면서 전체 네트워크 아키텍저가 커짐

즉, 생성자가 만든 이미지를 판별자가 진짜인지 판별하게 만들고, 생성자는 판별자를 속일수있는 이미지를 만들도록 하는게 이 네트워크의 장점임

한계점) 근사한 이미지 만드는건 가능, 하지만 이미지에 안경이나 모자 쓰이는것처럼 변형을 가하는것은 힘들다. -> Style GAN에서 개선됨

[연구배경] style GAN (CVPR 2019)

l 고화질 이미지 생성에 적합한 아키텍처를 제안한다.

1) PGGAN 베이스라인 아키텍처의 성능을 향상시킴. 즉, 고해상도 더 잘 만든다

2) Disentanglement 특성을 향상시킴 : 다양한특징 분리해서 더 잘 컨트롤할수있음

3) 고해상도 얼굴 데이터셋(FFHQ) 발표 : 현존하는 사람얼굴데이터셋중 고해상도

[연구배경] Style GAN 아키텍처 : Disentanglement Properties of StyleGAN

- z벡터를 직접 사용하지 않고, 매핑 네트워크를 거쳐 계산된 w벡터가 생성자의 중간중간에 A 를 거쳐 입력될수있도록 해서 좋은결과를 만들수있음

= StyleGAN의 생성자는 더욱 linear하며 덜 entangled(꼬임)되어있음((w->A->입력)더 세분화시킴)

- AdaIN layer : styleGAN1에는 있고, styleGAN2에는 없음

[연구배경] Style GAN 아키텍처 : Style Modules(ADAin)

노이즈에 대한 정보도 입력으로 넣어줌 -> 이미지해상도가 증가해감에 따라 컨볼루션 결과인 아웃풋 텐서에 노이즈가 섞여 들어가며 이미지의 확률적인 측면에 노이즈로부터 입력될수 있도록 유고함. ex)주근깨, 여드름, 머리카락 배치 등의 정보 등

[연구배경] Style GAN 아키텍처 : Stochastic Variation

스타일, 노이즈 두가지 다 입력으로 들어감

스타일 : 이미지가 어떤사람인지 판단하게 해줌 ex) 얼굴형, 포즈, 안경의 유무

노이즈 : 학습시기나 테스트시기에 이미지 생성할 때마다 확률적으로 넣어줌 : stochastic variation (앞쪽레이어 coarse noise, 뒤쪽레이어 : Fine noise-배경색등 일부만 영향 줌)

1) 18개의 스타일벡터 중 앞쪽 4개의 스타일벡터는 결과적으로 만들어지는 아웃풋이미지의 넓은 패치에 영향을 미친다 ex) 얼굴 방향등 이미지 전반에 영향 미치는 큰 부분

2) 뒤쪽 레이어 일수록 더 fine 한 스타일정보를 담당함 ex) 색상정보와 같은 정보만을 바꿀수있음

[연구배경] Style GAN : Disentanglement 관련 두가지 성능 측정 지표 제안

-> 해당값이 작을수록 좋은성능

- Path length : 두벡터를 보간(interpolation)할 때 얼마나 급격하게 이미지 특징이 바뀌는지

- Separability : latent space 에서 attributes가 얼마나 선형적으로 분류될수있는지 평가

- w공간(space)이 z공간보다 이상적인 성질을 가지고있음