(1) 서론 및 연구 배경
문제 정의
- Super-Resolution(SR) 문제는 단일 저해상도(LR) 이미지를 고해상도(HR) 이미지로 복원하는 작업
- 전통적인 SR 접근 방식은 픽셀 간 L2 거리 기반 손실(MSE)로 학습 → PSNR은 높지만, 시각적 품질은 저하됨.
- 보통 결과 이미지가 부드럽고 디테일이 손실됨
기존 방식의 한계
- MSE 중심 모델들은 blur된 결과를 생성하며, 사람이 보기에는 부자연스러움.
- 사람의 시각 인지는 텍스처, 구조적 일관성, edge sharpness에 민감한데, MSE는 이 부분을 고려하지 않음.
- 대표적인 기존 모델
- SRCNN(Dong et al., 2014): CNN기반 SR의 시작
- VDSR(Kim et al., 2016): residual기반 구조 도입
- 하지만 둘 다 MSE 기반 loss 사용 → 시각적 품질 한계 있음
SRGAN의 등장 배경
- GAN기반 접근으로 사람 눈에 더 자연스러운 HR 이미지 생성을 시도
- Percerptual Loss + GAN Loss 조합을 통해 기존 PSNR 위주 모델의 한계를 극복
SRGAN의 주요 기여
- 최초의 GAN기반 SISR 모델 제안
- 고해상도에서 사실적인 texture 복원 가능
- 기존 PSNR 중심이 아닌 시각적 품질 중심 평가 (MOS 도입)
> SRGAN은 기존 Super-Resolution 모델이 가지는 시각적 품질의 한계를 극복하기 위해 GAN 구조를 도입하고, content loss를 VGG 기반 perceptual loss로 대체함으로써 더 "사람 눈에 보기 좋은" 이미지를 복원하는 데 초점을 맞춘 논문이다.
(2) 관련 연구
- 전통적 Super-Resolution 방식
- Interpolation기반 기법
- Bicubic, bilinear 등의 보간 기법
- 가장 단순하지만 edge blur, texture 소실 심각
- Dictionary기반 학습 기법
- Sparse coding기반으로 LR-HR patch dictionary 학습
- 예: Yang et al., 2010 (Sparse representation-based SR)
- 계산 비용 높고, 복잡한 구조에서 확장 어려움
- Interpolation기반 기법
- CNN기반 Super-Resolution
- SRCNN (Dong et al., 2014)
- 최초의 딥러닝 기반 SISR 모델
- 구조: 3-layer CNN
- 1: patch extraction
- 2: non-linear mapping
- 3: reconstruction
- 한계: shallow network, PSNR은 향상되지만 텍스처 복원력 낮음
- VDSR (Kim et al., 2016)
- 깊은 CNN (20+layers), residual learning 도입
- 빠른 수렴, 성능 향상
- MSE loss 기반 → 시각적 품질 부족
- FSRCNN, DRCN, ESPCN 등
- FSRCNN: 실시간 속도 개선 (전처리 단계에서 업샘플링 제거)
- ESPCN: sub-pixel convolution 사용하여 업샘플링
- 공통 한계: MSE(Minimizing pixel-wise error) 기반으로만 학습됨 → blur된 결과 생성
- SRCNN (Dong et al., 2014)
- GAN(Generative Adversarial Networks)
- Goodfellow et al., 2014: Generator vs. Discriminator 간의 게임 이론 기반 학습
- Generator는 진짜 같은 이미지 생성, Discriminator는 진짜/가짜 판별
- GAN은 텍스터, 구조 보존, 세부 묘사에 뛰어난 특성 있음
- SRGAN에서의 GAN 도입 이유
- 기존 CNN기잔 SR 모델들이 잘 복원하지 못한 고주파 정보(fine texture, sharp edge 등)를 학습하기 위함
- 단순 픽셀 매칭이 아닌, 진짜처럼 보이는 이미지 생성 목표
- SRGAN에서의 GAN 도입 이유
- Percepual Loss
- Johnson et al., 2016: "Perceptual Losses for Real-Time Style Transfer and Super-Resolution"
- MSE가 아닌 VGG의 Feature Map 차이(L2 distanse) 기반 Loss
- 사람 눈의 인식과 유사한 기준 제공
- SRGAN은 이 논문에서 제안한 perceptual loss 개념을 채택하여, 시각적 품질을 개선하는 방향으로 발전
- SRGAN과 기존 연구의 차이점 요약
| 항목 | 기존 CNN기반 SR | SRGAN |
| Loss 기준 | MSE(PSNR 중심) | GAN Loss + VGG기반 Perceptual Loss |
| 복원 품질 | 부드러우나 텍스처 손실 | 날카롭고 사실적인 세부 묘사 |
| 시각 품질 | 낮음 (blur 현상) | 우수 (MOS 기준 상위) |
| 네트워크 설계 | 깊이 중심 | ResBlock + GAN 구조 병행 |
> SRGAN은 기존 Super-Resolution 방식들(SRCNN, VDSR 등)이 수치 지표(PSNR)에만 집중한 한계를 넘어서기 위해 GAN과 Perceptual Loss를 도입한 구조적 전환점이다. 특히 perceptual loss의 도입은 사람 시각 기준과 모델 학습 목표를 연결한 중요한 개선 사항으로 평가된다.
(3) SRGAN 전체 아키텍처 개요

SRGAN은 크게 두 개의 네트워크로 구성된다.
- Generator (G): 저해상도 이미지를 고해상도로 복원
- Discriminator (D): 입력 이미지가 실제 고해상도(real)인지 생성된 것(fake)인지 판별
이 두 네트워크는 적대적 학습(adversarial training) 을 통해 공동으로 최적화된다.
전체 파이프라인 요약
입력 (I_LR) ──▶ Generator (G) ──▶ 생성된 I_SR
│
실제 HR 이미지 (I_HR) ───┐
▼
Discriminator (D)
├─ Real / Fake 판별
└─ GAN Loss 계산
- Generator는 \(I_{LR}\) 를 입력받아 \(I_{SR}\) 를 생성
- Discriminator는 \(I_{HR}\) 과 \(I_{SR}\) 을 비교해 판별
- G는 D를 속이기 위해 점점 더 "진짜 같은" 이미지를 생성하게 됨
Discriminator의 역할
- 입력: \(I_{LR}\) (진짜) 또는 \(I_{SR}\) (가짜)
- 출력: 진짜/가짜 확률
- 학습 목표: 가짜 이미지(Generator output)를 구별
학습 구조 (Adversarial Training)
Generator는 다음 두 가지 loss에 의해 학습된다
- Content Loss (Perceptual Loss):
- 사람이 보기에 유사한 이미지를 생성하기 위해
- VGG19의 feature space에서 L2 거리 계산
- Adversarial Loss (GAN Loss):
- Discriminator가 속도록 유도
Discriminator는 standard binary classification loss를 사용하여 학습
시각적 요약
[입력 I_LR]
↓
[Generator G]
↓
[Output I_SR]
↓ ↘
[Discriminator D] ← [GT HR Image I_HR]
- Generator는 Residual Block 기반
- Discriminator는 일반 CNN 기반
> SRGAN은 Generator와 Discriminator로 구성된 GAN기반 프레임워크로, 단순한 픽셀 매칭이 아닌 시각적으로 사실적인 고해상도 이미지 생성을 목표로 설계되었다. 전체 구조는 Residual Block 기반 G+CNN 기반 D의 조합이며, Perceptual Loss와 Adversarial Loss를 결합하여 학습이 진행된다.
(4) Generator 구조 분석

목적
- 저해상도 이미지 \(I_{LR}\) 를 고해상도 이미지 \(I_{SR}\) 로 복원
- 단순 복원이 아닌, 사실적인 디테일을 생성하는 것이 목표
- Residual learning + upsampling 구조 채택
전체 구성 흐름
Generator는 다음과 같은 블록들로 구성된다.
입력 I_LR
↓
1. Conv + PReLU
↓
2. Residual Blocks (16개)
↓
3. Conv + Skip Connection
↓
4. Upsampling Blocks (2개, 2x2x = 4배 확대)
↓
5. Conv (Output)
↓
출력 I_SR
구성 요소
- 초기 Feature Extraction Layer
- Conv(3x3, 64 filters) + PReLU(Parametric ReLU)
- 입력 이미지를 초기 feature map으로 변환
- Residual Blocks x 16
- 각 Block 구성:
- Conv (3x3, 64)
- BatchNorm
- PReLU
- Conv (3x3, 64)
- BatchNorm
- Skip Connection: 입력 → 출력으로 덧셈
- 목적: 깊은 네트워크에서도 gradient 손실 없이 안정적 학습 가능
- 각 Block 구성:
- Conv + Skip Connection
- Residual Block을 지나고 나서 처음 Conv와 합쳐주는 구조
- 즉, 초기 feature map과 Residual Block의 출력을 다시 더해 줌
- ⇒ 정보 보존 및 학습 안정성 향상
- Upsampling Block x 2
- 각 블록에서 2배 업샘플링 (최종적으로 4배 확대)
- 구성:
- Conv (3x3, 256 filters)
- PixelShuffle(sub-pixel convolution) → 해상도 2x 증가
- PReLU
- 일반적인 Deconv보다 artifact 적음
- PixelShuffle: 채널 정보를 공간 정보로 재배열하여 이미지 크기를 키움
- 예: 64채널 → 16채널로 줄이면서 2x 공간 해상도 증가
- 최종 Conv Layer
- Conv (3x3, 3 filters) → RGB 이미지 출력
입력/출력 크기 흐름 예시 (4x 업샘플링 시)
- 입력: \(24\)x\(24 (LR)\)
- Residual Block 처리: 동일 크기 유지
- Upsample x2 → 48 x 48
- Upsample x2 → 96 x 96
- (입력 대비 4배 확대)
설계 특징 요약
| 구성 요소 | 목적 |
| Residual Block | 정보 손실 방지, 깊이 증가 |
| BatchNorm | 학습 안정화 |
| PReLU | 비선형성 제공, 성능 향상 |
| Skip Connection | 초기 feature 정보 보존 |
| Sub-pixel convolution | artifact 없이 해상도 증가 |
> SRGAN의 Generator는 ReaNet기반의 Residual Block을 활용하여 깊고 안정적인 feature 추출을 수행하며, Sub-pixel convolution을 통해 고해상도 이미지 생성 과정에서의 artifact를 최소화한다. 이러한 설계를 통해 사실적인 텍스처와 날카로운 edge를 효과적으로 복원할 수 있다.
(5) Discriminator 구조 분석
목적
- 입력 이미지를 받아 실제 고해상도 이미지인지, 생성된 이미지인지 판별
- Generator가 사실적인 이미지를 생성하도록 학습 압력(adversarial force)을 제공
입력/출력 개요
- 입력: \(I_{SR}\) (Generator output) 또는 \(I_{HR}\) (진짜 이미지)
- 출력: 실수값 → 판별 확률 (1 = 진짜, 0 = 가짜)
네트워크 구조
논문에서는 DCGAN(Deep Convolutional GAN) 스타일의 구조를 사용한다.
층이 깊어질수록 점점 해상도는 줄고 채널 수는 증가한다.
| Layer | Kernel/Stride | Channels | Activation |
| Conv1 | 3x3 / 1 | 64 | LeakyReLU (\(a\)=0.2) |
| Conv2 | 3x3 / 2 | 64 | BatchNorm + LeakyReLU |
| Conv3 | 3x3 / 1 | 128 | LeakyReLU |
| Conv4 | 3x3 / 2 | 128 | BatchNorm + LeakyReLU |
| Conv5 | 3x3 / 1 | 256 | LeakyReLU |
| Conv6 | 3x3 / 2 | 256 | BatchNorm + LeakyReLU |
| Conv7 | 3x3 / 1 | 512 | LeakyReLU |
| Conv8 | 3x3 / 2 | 512 | BatchNorm + LeakyReLU |
| FC1 | - | 1024 | LeakyReLU |
| FC2 | - | 1 | Sigmoid (확률 출력) |
설계 특징
- Patch-wise 분류 구조
- 전체 이미지를 하나의 판별 score로 보는 대신, 여러 패치로 나눠서 판단
- → 텍스처, edge 정보에 민감해짐 (PatchGAN과 유사)
- 전체 이미지를 하나의 판별 score로 보는 대신, 여러 패치로 나눠서 판단
- Strided Convolution
- 이미지 해상도를 점차 줄이면서 특징 추출
- LeakyReLU
- 음수 영역도 gradient 흐름 유지 → 학습 안정성 증가
- Batch Normalization
- 수렴 가속화 및 overfitting 방지
- 최종 Sigmoid
- 출력은 [0, 1] 사이 → 진짜일 확률
판별 기준
- Discriminator는 Generator가 만든 이미지가 진짜처럼 보일수록 속아야 하며, 반대로 Generator는 Discriminator를 속이기 위해 더 정교한 이미지를 생성함.
- → 이 상호 작용을 통해 GAN 특유의 sharp하고 디테일한 결과가 나타남
> SRGAN의 Discriminator는 DCGAN 스타일의 CNN 구조로 설꼐되며, 점전적인 다운샘플링과 LearkyReLU/BatchNorm을 통해 텍스터와 고주파 정보를 효과적으로 분석한다. 이 네트워크는 Generator가 시각적으로 사실적인 이미지를 생성하도록 강력한 피드백을 제공하며, SRGAN 성능 향상의 중요한 요소로 작용한다.
(6) Loss 함수 구성

SRGAN에서는 Generator의 출력이 단순히 원본과 비슷해지는 것을 넘어서, 사람 눈에 보기 좋은(realistic) 이미지를 생성하도록 학습된다. 이를 위해 두 가지 종류의 Loss를 결합한다.

최종 Generator Loss
$$L_{G} = L_{contecnt} + λ ⋅ L_{adv}$$
- \(L_{contecnt}\): VGG기반 perceptual loss
- \(L_{adv}\): GAN adversarial loss
- \(λ\): 가중치 계수 (해당 논문에서는 \(10^{-3}\))
1. Content Loss (Perceptual Loss)
전통적인 SR 모델은 MSE(Mean Squared Error)를 사용했으나, SRGAN은 다음과 같은 개선된 방식 채택:
- 정의
$$L_{contecnt} = \frac{1}{WHC} \displaystyle\sum_{i=1}^{W} \displaystyle\sum_{j=1}^{H} \displaystyle\sum_{k=1}^{C} (ϕ_{i, j, k}(I^{HR})) - (ϕ_{i, j, k}(G(I^{LR})))^2$$
- ϕ: 사전 학습된 VGG19 네트워크의 특정 중간 layer(예: ReLU5_4)의 feature map
- \(I^{HR}\): ground truth 고해상도 이미지
- \((G(I^{LR}))\): Generator가 생성한 super-resolved 이미지
- 특징
- 이미지의 시각적 의미 구조를 반영함
- 픽셀 단위가 아닌 feature space에서 거리 계산 → 텍스처, 구조 정보 유지에 유리
- 효과
- blur된 이미지가 아닌, edge와 질감이 살아있는 이미지 생성 가능
2. Adversarial Loss
GAN의 핵심 학습 원리: Generator는 Discriminator를 속이도록 학습됨
- 정의(from standard GAN)
$$L_{adv} = -logD(G(I^{LR}))$$
- \(D\): Discriminator, 진짜일 확률 출력
- \(G(I^{LR})\): Generator의 출력
- 목적: G가 만든 이미지가 D를 속일 정도로 진짜 같아지도록 유도
- Discriminator의 loss
$$L_{D} = -[logD(I^{HR})] + log(1-D(G(I^{LR})))$$
- 실제 이미지에 대해 1, 생성 이미지에 대해 0을 출력하도록 학습
3. MSE vs. Perceptual Loss 비교
| 항목 | MSE | Perceptual Loss |
| 기준 | 픽셀 단위 | Feature space (VGG) |
| 결과 이미지 | 부드러움 (blur) | 구조 보존, 질감 우수 |
| 인간 평가 (MOS) | 낮음 | 높음 |
| SRResNet (Baseline) | MSE 기반 | SRGAN |
> SRGAN은 Generator의 학습에 있어 Perceptual Loss + Adversarial Loss의 조합을 사용함으로써, 단순한 픽셀 유사성보다 더 사람의 시각 기준에 부합하는 결과를 생성한다. 이는 SRGAN이 이전 모델들보다 더 사실적이고 자연스러운 고해상도 이미지를 복원할 수 있었던 핵심 요인이다.
(7) 학습 설정 및 실험 방법

SRGAN의 학습은 두 단계로 진행된다.
- 1단계: SRResNet (Generator만 MSE loss 기반으로 학습)
- 2단계: SRGAN (Generator + Discriminator를 adversarial + perceptual loss로 joint training)
1. 데이터셋
- 학습 데이터 (Train Set)
- ImageNet에서 추출한 약 350,000개 이미지 패치
- 크기: \(96\) x \(96\) 크기의 고해상도(HR) 패치
- 저해상도(LR) 생성: HR 이미지를 bicubic downsampling하여 4배 축소
- 테스트 데이터 (Test Set)
- Set5
- Set14
- BSD100
- Urdan100
- 이들은 고전적 SR Benchmark 데이터셋으로, 다양한 edge, 텍스처, 구조 포함
2. 학습 단계 요약
| 단계 | 설명 | 목적 |
| SRResNet Pre-train | MSE Loss기반 G만 학습 | 안정적 G 초기화 |
| SRGAN Joint Train | G + D, perceptual + GAN loss | 사실적인 고해상도 생성 |
3. 하이퍼파라미터
| 항목 | 값 |
| Optimizer | Adam |
| Learning Rate | 1e-4 (SRResNet), 1e-4 → 1e-5 (SRGAN) |
| Batch Size | 16 |
| Epochs | \(10^5\) iteration 이상 |
| Loss weight (λ) | \(10^{-3}\) (Adversarial Loss weight) |
| Initialization | Xavier (for convolution weights) |
| Activation | PReLU(Generator), LeakyReLU(Discriminator) |
4. 업샘플링 스케일
- 모든 실험은 x4 확대 기준
- (즉, LR 이미지 크기가 \(24\) x \(24\)이면 HR은 \(96\) x \(96\))
5. 학습 전략적 특징
- Generator Pre-training
- GAN 학습은 초기부터 jointly training 시 불안정할 수 있음
- 따라서 먼저 SRResNet을 MSE loss기반으로 사전 학습
- GAN Joint Training
- 이후 Discriminator를 붙이고 perceptual + adversarial loss 기반 joint 학습 수행
- Generator의 loss function 변경
- \(L_{G} = L_{VGG} + 10^{-3} ⋅ L_{GAN}\)
> SRGAN은 학습의 안정성과 시각적 품질을 동시에 확보하기 위해 2단계 학습 전략(SRResNet 사전 학습 → SRGAN joint 학습)을 사용한다. ImageNet기반의 대규모 패치 학습과 고전적인 벤치마크 세트를 통한 테스트로, 실제적이고 범용성 있는 성능을 확보하였다.
(8) 실험 결과 분석

평가 대상 모델
- Bicubic: 단순 보간 기법 (baseline)
- SRCNN
- SRResNet: MSE기반 CNN모델 (Generator 단독 모델)
- SRGAN: GAN + perceptual loss 기반 전체 모델
평가 지표
| 지표 | 설명 |
| PSNR(Peak Signal-to-Noise Ratio) | 복원 이미지의 픽셀 정확도, 값이 높을수록 원본과 유사 |
| SSIM(Structural Similarity Index) | 구조적 유사성 측정(edge, luminance 등 고려) |
| MOS(Mean Opinion Score) | 사람 평가자들의 주관적 시각 품질 점수 (0~5점 척도) |
정량적 결과 (Table 1 - PSNR/SSIM)

예시: Set4, x4 확대 기준
| Model | PSNR(dB) | SSIM |
| Bicubic | 28.42 | 0.8104 |
| SRCNN | 30.48 | 0.8628 |
| SRResNet | 32.05 | 0.8946 |
| SRGAN | 29.40 | 0.8472 |
- SRGAN은 PSNR/SSIM에서는 SRResNet보다 낮음
주관적 평가: MOS(Mean Opinion Score)

실험 방식
- 총 26명의 평가자가 4개의 benchmark 데이터셋에 대해 평가
- 점수 범위: 1점(매우 나쁨) ~ 5점(탁월함)
결과 예시 (Set14 기준)
| Model | MOS Score |
| Bicubic | 2.3 |
| SRCNN | 2.7 |
| SRResNet | 3.2 |
| SRGAN | 4.2 |
- SRGAN은 모든 데이터셋에서 가장 높은 MOS 점수 획득
시각적 결과 예시
- SRGAN은 텍스처/디테일/edge sharpness 면에서 현저히 개선된 이미지 생성
- 기존 모델들은 blur 현상 심함
- 예시 이미지에서는 특히 벽돌, 나뭇잎, 머리카락 같은 고주파 영역에서 SRGAN의 강점이 도드라짐
결론적 비교 요약

| Model | PSNR/SSIM | MOS (시각 품질) | 특징 요약 |
| SRResNet | 최고 | 중간 | 수치적으로 우수, 시각적 품질 보통 |
| SRGAN | 낮음 | 최고 | 시각적으로 가장 사실적인 복원 |
| Bicubic, SRCNN | 낮음 | 낮음 | 비교 기준 모델 |
> SRGAN은 전통적인 수치 지표(PSNR, SSIM)에서는 기존 CNN기잔 SR 모델보다 낮은 점수를 받을 수 있으나, 사람의 시각 평가(MOS) 기준에서는 가장 높은 품질의 이미지를 생성하는 모델로 평가된다. 이는 Perceptual Loss + GAN 학습 전략의 직접적인 효과를 입증하는 결과다.
(9) 한계점 및 후속 연구
SRGAN의 한계점
- GAN 학습의 불안정성
- Generator와 Discriminator가 번갈아 최적화되며 발생하는 모수 발산 위험
- 너무 강한 Discriminator → Generator 학습 방해
- 균형 유지가 매우 까다로움
- 텍스처 생성(Hallucination)
- Perceptual Loss는 VGG Feature 기준이므로, 실제와 다르더라도 사실처럼 보이는 이미지를 생성할 수 있음
- → 구조 왜곡 가능성
- Perceptual Loss는 VGG Feature 기준이므로, 실제와 다르더라도 사실처럼 보이는 이미지를 생성할 수 있음
- 정량 평가 지표와 불일치
- PSNR, SSIM같은 전통적 지표에서 낮은 성능
- 실무에서는 여전히 PSNR을 기준으로 삼는 경우가 많아 객관적 비교 어려움
- 일반화 문제
- 훈련에 사용되지 않은 도메인에서는 성능 저하 가능
- 특히 real-world LR 이미지에 대한 복원 성능 한계
후속 연구
- ESRGAN (Enhanced SRGAN, 2018)
- 주요 개선 사항:
- Residual-in-Residual Dense Block (RRDB) 구조 도입
- BatchNorm 제거 → 정보 손실 방지
- Relativistic average GAN (RaGAN) 사용 → 더 안정적 학습
- Perceptual Loss 개선 (VGG feature에서 activation 전 feature 사용)
성능 향상 + 더 부드럽고 자연스러운 텍스처 생성- → SRGAN보다 시각적 품질 및 MOD 더 우수
- 주요 개선 사항:
- Real-ESRGAN (2021)
- Real-world 이미지의 노이즈, 블러, JPEG artifact 등을 고려한 SRGAN 개선 버전
- 실제 저해상도 이미지에 더 강한 복원력 제공
- Fine-tuning + Synthetic degradation model 활용
기타 연구 방향
| 연구 방향 | 설명 |
| Non-GAN 기반 SR | SwinIR, NAFNet 등 transformer 기반 SR 등장 |
| Perceptual loss 개선 | LPIPS, DISTS 등 더 정교한 시각 인지 기반 metric |
| 비지도 학습 | 레이블 없는 데이터로 학습 (e.g., ZSSR) |
| 도메인 특화 SR | 의료 영상, 위성 영상 등 특정 분야에 특화된 SR 연구 활발 |
> SRGAN은 GAN + Perceptual Loss 조합으로 시각적 품질을 극적으로 향상시킨 선구적 모델이지만, 학습의 불안정성과 지표 간 불일치 등의 한계가 존재했다. 이러한 한계를 극복하기 위해 ESRGAN, Real-ESRGAN 등의 발전형 모델들이 등장했고, 이후 Transformer 기반 SR까지 연구가 확장되며 Super-Resolution 분야는 빠르게 진화되고 있다.
(10) 종합 평가 및 정리
1. 핵심 기여 요약
| 항목 | 내용 |
| 문제 정의 | 단일 저해상도 이미지로부터 고해상도 복원(SISR) |
| 기존 한계 | MSE 기반 SR은 높은 PSNR에도 불구하고 시각적으로 부자연스러운 결과 |
| 핵심 기여 | SR에 GAN 구조를 최초로 도입하여 시각적 품질 향상 |
| 기술 요소 | Generator(ResNet기반), Discriminator(CNN기반), Perceptual Loss(VGG), Adversarial Loss |
| 평가 방식 | PSNR/SSIM 외에 인간 주관 평가(MOS)를 도입하여 시각 품질 평가 강화 |
2. 인상 깊은 요소
- Perceptual Loss 도입은 학습의 목표를 사람의 시각 기준으로 재정의한 중요한 전환점
- SRGAN은 단순히 "고해상도"이미지를 넘어서, "사람 눈에 좋아 보이는" 이미지를 복원하고자 한 최초의 시도
- GAN의 SR 적용은 이후의 ESRGA, Real-ESRGAN 등의 발전으로 이어짐
3. 한계 및 고려사항
- 수치 지표(PSNR, SSIM) 기준에서는 낮은 성능을 보일 수 있어 실용 적용 시 주의 필요
- GAN 구조 특유의 학습 불안정성
- 실제 저해상도 이미지(real-world LR)에 대한 일반화 문제
4. 실무/응용 가능성
- 사람의 판단이 중요한 분야(예: 사진, 영상, 복원 등)에 매우 적합
- 텍스처 복원, 세부 디테일 생성에 강점 → 의료 영상, 위성 영상, 문서 복원, 고전 영상 리마스터링 등에서 활용 가능
5. 최종 한 줄 정리
SRGAN은 Super-Resolution을 단순한 복원이 아닌 '지각적으로 사실적인 이미지 생성'으로 전환시킨 첫 모델로, SISR 분야의 연구 방향을 근복적으로 바꾼 전환점이 된 논문이다.
참고
https://arxiv.org/abs/1609.04802
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
Despite the breakthroughs in accuracy and speed of single image super-resolution using faster and deeper convolutional neural networks, one central problem remains largely unsolved: how do we recover the finer texture details when we super-resolve at large
arxiv.org
https://github.com/tensorlayer/SRGAN
GitHub - tensorlayer/SRGAN: Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network - tensorlayer/SRGAN
github.com