GAN ch1 update after some corrections from issues tickets

hwaneest · hwaneest · commit 0543fa3be9b5 · 2021-02-02T20:46:03.000+09:00
diff --git a/book/chapters/GAN/Ch1-Introduction.ipynb b/book/chapters/GAN/Ch1-Introduction.ipynb
@@ -4,36 +4,40 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Contents\n",
-    " - 개요\n",
-    " - 1.1 개념\n",
-    "   - (1.1.1 원리)\n",
-    "   - (1.1.2 종류)\n",
-    " - 1.2 GAN 모델\n",
-    "   - 1.2.1 모델 구조\n",
-    "   - 1.2.2 CGAN\n",
-    "   - 1.2.3 평가메트릭  \n",
-    " - 1.3 적용사례\n",
-    "   - 1.3.1 가짜이미지 / NVIDIA\n",
-    "   - 1.3.2 오바마 가짜연설영상 / 워싱턴대학교\n",
-    "   - 1.3.3 Eye In-Painting / Facebook\n",
-    " - 1.4 한계점\n",
-    "   \n",
-    "<hr>"
+    "# 1. GAN 소개 (Introduction to GAN)"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# 1. GAN 소개 (Introduction to GAN)"
+    "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Pseudo-Lab/Tutorial-Book/blob/master/book/chapters/GAN/Ch1-Introduction.ipynb)"
    ]
   },
   {
-   "cell_type": "markdown",
-   "metadata": {},
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<iframe width=\"560\" height=\"315\" src=\"https://www.youtube.com\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture\" allowfullscreen></iframe>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Pseudo-Lab/Tutorial-Book/blob/master/book/chapters/GAN/Ch1-Introduction.ipynb)"
+    "from IPython.display import HTML  # 영상 변경!!!!!! -- .../embed/JOzDr2eGFcM / embed/JO... -> ...\n",
+    "HTML('<iframe width=\"560\" height=\"315\" src=\"https://www.youtube.com\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture\" allowfullscreen></iframe>')"
    ]
   },
   {
@@ -49,7 +53,9 @@
    "source": [
     "GAN은 Generative Adversarial Networks의 약자로 우리말로는 \"적대적 생성 신경망\"이라고 번역되는 AI기술 중 하나입니다. 이름에서 알 수 있듯 GAN은 두 개의 네트워크를 적대적으로(adversarial) 학습시키며 실제 데이터와 비슷한 데이터를 생성(generative)해내는 모델인데 이렇듯 정해진 label값이 없기 때문에 비지도 학습 기반 생성모델로 분류됩니다. \n",
     "\n",
-    "GAN은 구글 브레인에서 머신러닝을 연구했던 Ian Goodfellow에 의해 2014년 처음으로 신경정보처리시스템학회(NIPS)에서 제안되었고, 이후 텍스트 생성, 이미지 생성 등에 다양하게 응용되고 있습니다."
+    "GAN은 구글 브레인에서 머신러닝을 연구했던 Ian Goodfellow에 의해 2014년 처음으로 신경정보처리시스템학회(NIPS)에서 제안되었고, 이후 텍스트 생성, 이미지 생성 등에 다양하게 응용되고 있습니다.\n",
+    "\n",
+    "이번 1장에서는 GAN의 개념을 비롯하여 GAN 모델의 구조와 평가지표, 적용 사례 등에 대해 알아봅니다. 1.1절에서는 GAN의 등장과 개념에 대해서 설명하고 1.2절에서는 GAN 모델을 구조와 GAN의 한 종류인 CGAN 모델, 그리고 GAN 모델의 평가지표에 대해서 설명합니다. 이어 1.3절에서는 GAN을 적용한 사례들을 살펴보며 1.4절에서는 GAN이 가진 한계점을 설명하고 있습니다."
    ]
   },
   {
@@ -70,14 +76,33 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img112.png'>"
+    "<img src='./pic3/GAN-ch1img112.png'>"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "zsh:1: unknown file attribute: h\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "![](https://github.com/Pseudo-Lab/Tutorial-Book/blob/master/book/pics/GAN-ch1img112.png?raw=true)"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "생성 모델은 진짜 지폐와 비슷한 가짜 지폐를 만들어 경찰을 속이려 하는 위조지폐범 팀과 같고, 반대로 판별모델은 위조지폐범이 만들어낸 가짜 지폐를 탐지하려는 경찰팀과 유사한데 이러한 경쟁이 계속됨에 따라 위조지폐범 팀은 경찰을 속이지 못한 데이터를, 경찰팀은 위조지폐범에게 속은 데이터를 각각 입력받아 적대적으로 학습하게 되는 것입니다. 이 게임에서의 경쟁은 경쟁은 위조지폐가 진짜 지폐와 구별되지 않을 때까지, 즉 주어진 표본이 실제 표본이 될 확률이 0.5에 가까운 값을 가질 때까지 계속됩니다."
+    "생성 모델은 진짜 지폐와 비슷한 가짜 지폐를 만들어 경찰을 속이려 하는 위조지폐범 팀과 같고, 반대로 판별모델은 위조지폐범이 만들어낸 가짜 지폐를 탐지하려는 경찰팀과 유사한데 이러한 경쟁이 계속됨에 따라 위조지폐범 팀은 경찰을 속이지 못한 데이터를, 경찰팀은 위조지폐범에게 속은 데이터를 각각 입력받아 적대적으로 학습하게 되는 것입니다. 이 게임에서의 경쟁은 경쟁은 위조지폐가 진짜 지폐와 구별되지 않을 때까지, 즉 주어진 표본이 실제 표본이 될 확률이 0.5에 가까운 값을 가질 때까지 계속됩니다.\n",
+    "\n",
+    "다음 절에서는 GAN 모델의 구조와 그 한 갈래인 CGAN 모델, 그리고 GAN 모델의 평가지표에 대해서 살펴봅니다."
    ]
   },
   {
@@ -105,7 +130,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img02.png'>"
+    "<img src='./pic3/GAN-ch1img02.png'>"
    ]
   },
   {
@@ -127,7 +152,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img03.png'>"
+    "<img src='./pic3/GAN-ch1img03.png'>"
    ]
   },
   {
@@ -146,7 +171,7 @@
     "\n",
     "먼저 D의 관점에서 실제 데이터(x)를 입력하면 D(x)가 커지면서 log값이 커지면서 높은 확률값이 나오도록 하고, 가짜 데이터(G(z))를 입력하면 log값이 작아짐에 따라 낮은 확률값이 나오도록 학습됩니다. 다시 말해 D는 실제 데이터와 G가 만든 가짜 데이터를 잘 구분하도록 조금씩 업데이트되는 것입니다. <br>\n",
     "\n",
-    "G에서는 랜덤한 노이즈를 멀티레이어 퍼셉트론에 통과시켜 샘플들을 생성하며 이 가짜 데이터 G(z)를 (??Zero-Mean Gaussian 노이즈 z를 받아 생성된 가짜 데이터를??) D에 input으로 넣었을 때 실제 데이터처럼 확률이 높게 나오도록 학습됩니다. 즉 D(G(z))값을 낮추 전체 확률 값이 낮아지도록 하는 것이며 이는 다시 말해 G가 'D가 잘 구분하지 못하는' 데이터를 생성하도록 조금씩 업데이트되는 것입니다.  <br>\n",
+    "G에서는 Zero-Mean Gaussian 분포에서 노이즈 z를 멀티레이어 퍼셉트론에 통과시켜 샘플들을 생성하며 이 생성된 가짜 데이터 G(z)를 D에 input으로 넣었을 때 실제 데이터처럼 확률이 높게 나오도록 학습됩니다. 즉 D(G(z))값을 높도록, 그리고 전체 확률 값이 낮아지도록 하는 것이며 이는 다시 말해 G가 'D가 잘 구분하지 못하는' 데이터를 생성하도록 조금씩 업데이트되는 것입니다.  <br>\n",
     "\n",
     "실제 학습을 진행할 때는 G와 D 두 네트워크를 동시에 학습시키지 않고 하나의 네트워크를 고정한 상태에서 다른 한 네트워크를 업데이트하는 방식으로 따로따로 업데이트합니다."
    ]
@@ -178,7 +203,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src = '../pic3/GAN-ch1img89.png'>"
+    "<img src = './pic3/GAN-ch1img89.png'>"
    ]
   },
   {
@@ -199,7 +224,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img1221.png'>"
+    "<img src='./pic3/GAN-ch1img1221.png'>"
    ]
   },
   {
@@ -213,7 +238,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img1222.png'>"
+    "<img src='./pic3/GAN-ch1img1222.png'>"
    ]
   },
   {
@@ -234,7 +259,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img1223.png'>"
+    "<img src='./pic3/GAN-ch1img1223.png'>"
    ]
   },
   {
@@ -248,7 +273,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 1.2.3. 평가메트릭 (Evaluation Metrics)"
+    "### 1.2.3. 평가 지표 (Evaluation Metrics)"
    ]
   },
   {
@@ -262,16 +287,16 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "2018년 GAN의 평가 메트릭의 장단점을 기술한 논문에서 Ali Borji는 \"GAN 모델의 강점과 한계점을 반영하는 가장 적절한 메트릭에 대해서는 아직도 의견의 일치가 이루어지지는 않았다\"고 언급했습니다. 이와 같이 GAN 모델은 생성 대상의 도메인 문맥에 따라 생성된 이미지의 퀄리티에 기반하여 평가되고는 했습니다."
+    "2018년 GAN의 평가 지표의 장단점을 기술한 논문에서 Ali Borji는 \"GAN 모델의 강점과 한계점을 반영하는 가장 적절한 지표에 대해서는 아직도 의견의 일치가 이루어지지는 않았다\"고 언급했습니다. 이와 같이 GAN 모델은 생성 대상의 도메인 문맥에 따라 생성된 이미지의 퀄리티에 기반하여 평가되고는 했습니다."
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "그 이후인 2019년 Macquarie 대학교의 Hamed Alqahtani가 발표한 논문에서는 GAN 모델의 평가메트릭에 대한 연구를 통해 10여 개의 GAN 모델의 평가메트릭을 제시하였습니다. Hamed에 따르면 GAN의 평가지표는 크게 정성적인 지표와 정량적인 지표 2가지로 분류되며 일반적으로 정성적인 지표는 사람이 이미지를 평가하므로 비용이 많이 든다고 합니다.\n",
+    "그 이후인 2019년 Macquarie 대학교의 Hamed Alqahtani가 발표한 논문에서는 GAN 모델의 평가지표에 대한 연구를 통해 10여 개의 GAN 모델의 평가지표를 제시하였습니다. Hamed에 따르면 GAN의 평가지표는 크게 정성적인 지표와 정량적인 지표 2가지로 분류되며 일반적으로 정성적인 지표는 사람이 이미지를 평가하므로 비용이 많이 든다고 합니다.\n",
     "\n",
-    "정성적인 지표에는 Nearest Neighbor, Rating and Preference Judgement, Rapid Scene Categorization이 있으며 정량적인 지표에는 FID(Freechet Inception Distance), IS(Inception Score), Mode Score, Maximum Mean Discrepancy 등이 있습니다. 우리는 아래에서 NVIDIA의 논문에 모델 비교시 핵심적으로 사용했던 IS와 자주 쓰이는 FIS 2가지에 대해서 알아보겠습니다."
+    "정성적인 지표에는 Nearest Neighbor, Rating and Preference Judgement, Rapid Scene Categorization이 있으며 정량적인 지표에는 FID(Freechet Inception Distance), IS(Inception Score), Mode Score, Maximum Mean Discrepancy 등이 있습니다. 우리는 아래에서 NVIDIA의 논문에 모델 비교시 핵심적으로 사용했던 IS와 자주 쓰이는 FID 2가지에 대해서 알아보겠습니다."
    ]
   },
   {
@@ -298,22 +323,22 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Inception Score는 <font style='colr:red'>Salimans et al.</font>에 의해 제안되었는데 GAN의 평가에 널리 쓰이는 지표입니다. 이 지표는 클래스 label과 관련하여 고도로 분류 가능하고 다양한 생성된 샘플들의 바람직한 속성들을 잡아내기 위해 pre-trained 신경망을 사용합니다. 아래는 IS 값을 도출하는 수식인데 샘플의 조건부 분포 p(y|x)와 모든 샘플에서 얻은 주변분포 p(y) 사이의 average KL divergence를 측정하는 것이며 이 값이 높을수록 좋은 성능를 낸다고 해석할 수 있습니다. 하지만 IS에는 실제 샘플 대신 생성된 이미지를 사용해 계산하고, 클래스 당 하나의 이미지만 생성하면 다양성이 부족하더라도 p(y)가 균등 분포에 가깝게 나오기 때문에 성능을 왜곡할 수 있다는 단점이 있습니다."
+    "Inception Score는 <font style='colr:red'>Salimans et al.</font>에 의해 제안되었는데 GAN의 평가에 널리 쓰이는 지표입니다. 이 지표는 클래스 label과 관련하여 특징적인 속성들을 잡아내기 위해 pre-trained 신경망을 사용합니다. 아래는 IS 값을 도출하는 수식인데 샘플의 조건부 분포 p(y|x)와 모든 샘플에서 얻은 주변분포 p(y) 사이의 평균적인 KL 발산 정도(Average KL Divergence)를 측정하는 것이며 이 값이 높을수록 좋은 성능를 낸다고 해석할 수 있습니다. 하지만 IS에는 실제 샘플 대신 생성된 이미지를 사용해 계산하고 클래스 당 하나의 이미지만 생성하면 다양성이 부족하더라도 p(y)가 균등 분포에 가깝게 나오기 때문에 성능을 왜곡할 수 있다는 단점이 있습니다."
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img123.png'>"
+    "<img src='./pic3/GAN-ch1img123.png'>"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
     "#### Frechet Inception Distance (FID)\n",
-    "Frechet Inception Distance는 생성되는 이미지의 퀄리티 일관성을 유지하기 위해 이용되는 메트릭입니다. 실제 데이터의 분포를 활용하지 않는 단점을 보완하여 실제 데이터와 생성된 데이터에서 얻은 feature의 평균과 공분산을 비교하는 방식이며 FID가 낮을수록 이미지의 퀄리티가 더 좋아지는데 이는 실제 이미지와 생성된 이미지의 유사도가 높아지는 것을 말합니다. 즉 쉽게 말해 FID는 생성된 샘플들의 통계와 실제 샘플들의 통계를 비교하는 것입니다."
+    "Frechet Inception Distance는 생성되는 이미지의 퀄리티 일관성을 유지하기 위해 이용되는 지표입니다. 실제 데이터의 분포를 활용하지 않는 단점을 보완하여 실제 데이터와 생성된 데이터에서 얻은 feature의 평균과 공분산을 비교하는 방식이며 FID가 낮을수록 이미지의 퀄리티가 더 좋아지는데 이는 실제 이미지와 생성된 이미지의 유사도가 높아지는 것을 말합니다. 즉 쉽게 말해 FID는 생성된 샘플들의 통계와 실제 샘플들의 통계를 비교하는 것입니다."
    ]
   },
   {
@@ -328,6 +353,13 @@
     "(...)  일반적으로 모델을 비교할 때 샘플링하여 비교하는 것은 매우 번거롭고 그릇될 여지를 가지고 있는 방식입니다. 하지만 Annealed Importance Sampling에서는 decoder-based 모델에 대해서 log-likelihood가 측정되고, 양방향 몬테카를로 알고리즘을 통해 정확도가 검증됩니다."
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "이어서 다음 절에서는 GAN을 적용한 사례들에 대해서 살펴보겠습니다."
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -353,7 +385,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img98.png'>"
+    "<img src='./pic3/GAN-ch1img98.png'>"
    ]
   },
   {
@@ -369,7 +401,7 @@
    "source": [
     "2017년 글로벌 GPU 설계 회사 NVIDIA에서 공개한 '실존하지 않는 사람들의 이미지'가 GAN의 대표적인 적용 사례입니다. 당시 NVIDIA는 기존의 GAN 결과들보다 이미지 품질, 안정성, 다양성 등을 향상시킨 새로운 훈련 방법론을 제시하였고 그 결과 생성된 이미지는 위와 같이 사람의 눈으로는 실존 인물인지 가상 인물인지 판별하기 어려운 수준으로 나타났습니다.  \n",
     "\n",
-    "NVIDIA가 제시한 GAN의 새로운 훈련 방법론의 핵심은 Generator와 Discriminator를 둘 다 낮은 <font style='color:red'>'결과값'</font>에서 시작하여 훈련이 진행되면서 모델이 아주 서서히 <font style='color:red'>'학습'</font>하도록 새로운 레이어를 쌓아가며 점진적으로 성장시키는 것입니다. NVIDIA는 이 방식을 통해 기존보다 높은 IS Score(GAN의 평가 메트릭)를 달성했으며 나아가 이미지 퀄리티와 다양성을 모두 고려한 새로운 평가 메트릭을 제안하고 있습니다.\n",
+    "NVIDIA가 제시한 GAN의 새로운 훈련 방법론의 핵심은 Generator와 Discriminator를 둘 다 낮은 <font style='color:red'>'결과값'</font>에서 시작하여 훈련이 진행되면서 모델이 아주 서서히 <font style='color:red'>'학습'</font>하도록 새로운 레이어를 쌓아가며 점진적으로 성장시키는 것입니다. NVIDIA는 이 방식을 통해 기존보다 높은 IS Score(GAN의 평가지표)를 달성했으며 나아가 이미지 퀄리티와 다양성을 모두 고려한 새로운 평가지표를 제안하고 있습니다.\n",
     "\n",
     "또한, 논문에서 NVIDIA는 사람뿐 아니라 침실, 화분, 소파, 버스 등의 사물도 실제와 같은 이미지로 만들어낼 수 있음을 보여주고 있으며 이는 저해상도의 사진을 고해상도로 만드는 등 손상된 이미지를 복원할 때에도 활용될 수 있습니다."
    ]
@@ -385,7 +417,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img99.png'>"
+    "<img src='./pic3/GAN-ch1img99.png'>"
    ]
   },
   {
@@ -420,14 +452,14 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img97.png'>"
+    "<img src='./pic3/GAN-ch1img97.png'>"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "<img src='../pic3/GAN-ch1img95.png'>"
+    "<img src='./pic3/GAN-ch1img95.png'>"
    ]
   },
   {
@@ -441,7 +473,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "2017년 12월 Facebook은 ExGAN 기술을 개발하여 사람이 눈을 감은 사진에서 눈을 뜬 사람의 모습의 사진으로 바꾸는 과정을 공개했습니다. Real Eye Openerf라는 명칭으로 불리는 이 작업은 GAN을 통해 진짜같은 가짜 눈을 만들어 눈을 감은 사진에 합성시킨 이미지입니다. 특정 장소나 다시 찍을 수 없는 사진에서 눈을 감고 있는 모습을 보정할 때에 활용할 수 있는 것입니다."
+    "2017년 12월 Facebook은 ExGAN 기술을 개발하여 사람이 눈을 감은 사진에서 눈을 뜬 사람의 모습의 사진으로 바꾸는 과정을 공개했습니다. Real Eye Opener라는 명칭으로 불리는 이 작업은 GAN을 통해 진짜같은 가짜 눈을 만들어 눈을 감은 사진에 합성시킨 이미지입니다. 특정 장소나 다시 찍을 수 없는 사진에서 눈을 감고 있는 모습을 보정할 때에 활용할 수 있는 것입니다."
    ]
   },
   {
@@ -461,6 +493,13 @@
     "## 1.4. 한계점"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "지금까지 GAN이란 무엇인지, GAN 모델의 내부와 성능 평가 방식, 그리고 GAN을 적용한 사례들에 대해서 살펴보았습니다. 이렇듯 유용해 보이는 GAN 모델 역시 초기부터 한계점을 가지고 있어 왔는데 이를 살펴보면 아래와 같습니다."
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -478,11 +517,6 @@
    "source": [
     "**<font style='color:red'>+a?!</font>**  "
    ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": []
   }
  ],
  "metadata": {