styleGAN2 논문리뷰_1. StyleGAN2 이전 연구들
논문제목 : Analyzing and Improving the Image Quality of StyleGAN
논문 사이트 : 1912.04958.pdf (arxiv.org)
발행년도 : 2020.03.23
[연구배경] Generative adversarial networks (GAN)
l 생성자와 판별자, 두개의 네트워크를 활용한 생성모델
- 생성자 generator : 학습이 다 되고나면 생성자만을 이용해서 이미지를 만들수있다
- 판별자 discriminator : 생성자를 학습시키기위한 목적으로 사용되는 보조적인 네트워크
- 하나의 목적함수를 통해서 두개의 네트워크를 학습하는 방식으로 생성모델을 만들수있다
[연구배경] progressive growing of GANS (PGGAN=Pro GAN)
l 학습을 진행하는 과정에서 점진적으로 네트워크에 convolution레이어를 붙여 나간다
- 학습 시간에 따라 점진적으로 레이어가 붙여나가지면서 전체 네트워크 아키텍저가 커짐
즉, 생성자가 만든 이미지를 판별자가 진짜인지 판별하게 만들고, 생성자는 판별자를 속일수있는 이미지를 만들도록 하는게 이 네트워크의 장점임
한계점) 근사한 이미지 만드는건 가능, 하지만 이미지에 안경이나 모자 쓰이는것처럼 변형을 가하는것은 힘들다. -> Style GAN에서 개선됨
[연구배경] style GAN (CVPR 2019)
l 고화질 이미지 생성에 적합한 아키텍처를 제안한다.
1) PGGAN 베이스라인 아키텍처의 성능을 향상시킴. 즉, 고해상도 더 잘 만든다
2) Disentanglement 특성을 향상시킴 : 다양한특징 분리해서 더 잘 컨트롤할수있음
3) 고해상도 얼굴 데이터셋(FFHQ) 발표 : 현존하는 사람얼굴데이터셋중 고해상도
[연구배경] Style GAN 아키텍처 : Disentanglement Properties of StyleGAN
- z벡터를 직접 사용하지 않고, 매핑 네트워크를 거쳐 계산된 w벡터가 생성자의 중간중간에 A 를 거쳐 입력될수있도록 해서 좋은결과를 만들수있음
= StyleGAN의 생성자는 더욱 linear하며 덜 entangled(꼬임)되어있음((w->A->입력)더 세분화시킴)
- AdaIN layer : styleGAN1에는 있고, styleGAN2에는 없음
[연구배경] Style GAN 아키텍처 : Style Modules(ADAin)
노이즈에 대한 정보도 입력으로 넣어줌 -> 이미지해상도가 증가해감에 따라 컨볼루션 결과인 아웃풋 텐서에 노이즈가 섞여 들어가며 이미지의 확률적인 측면에 노이즈로부터 입력될수 있도록 유고함. ex)주근깨, 여드름, 머리카락 배치 등의 정보 등
[연구배경] Style GAN 아키텍처 : Stochastic Variation
스타일, 노이즈 두가지 다 입력으로 들어감
스타일 : 이미지가 어떤사람인지 판단하게 해줌 ex) 얼굴형, 포즈, 안경의 유무
노이즈 : 학습시기나 테스트시기에 이미지 생성할 때마다 확률적으로 넣어줌 : stochastic variation (앞쪽레이어 coarse noise, 뒤쪽레이어 : Fine noise-배경색등 일부만 영향 줌)
1) 18개의 스타일벡터 중 앞쪽 4개의 스타일벡터는 결과적으로 만들어지는 아웃풋이미지의 넓은 패치에 영향을 미친다 ex) 얼굴 방향등 이미지 전반에 영향 미치는 큰 부분
2) 뒤쪽 레이어 일수록 더 fine 한 스타일정보를 담당함 ex) 색상정보와 같은 정보만을 바꿀수있음
[연구배경] Style GAN : Disentanglement 관련 두가지 성능 측정 지표 제안
-> 해당값이 작을수록 좋은성능
- Path length : 두벡터를 보간(interpolation)할 때 얼마나 급격하게 이미지 특징이 바뀌는지
- Separability : latent space 에서 attributes가 얼마나 선형적으로 분류될수있는지 평가
- w공간(space)이 z공간보다 이상적인 성질을 가지고있음
설명속 이미지 출처 : (7) StyleGAN2 설명 (쉽고 자세한 최신 딥러닝 논문 설명) - YouTube