본문 바로가기
Research Reviews/Generative Model

[논문 리뷰] Interpolating between Images with Diffusion Models

by donyy 2024. 12. 30.
Paper Details
Title: Interpolating between Images with Diffusion Models
Authors: Clinton J. Wang, Polina Golland
Institution: MIT CSAIL
Year of Publication: 2023
Link: https://arxiv.org/pdf/2307.12560
Key Focus: This paper addresses the challenge of image interpolation, which is underexplored in current image generation pipelines. The authors propose a novel method using latent diffusion models to perform zero-shot interpolation between two input images. Their approach combines latent space interpolation with noise scheduling, textual inversion, and pose conditioning for diverse styles, layouts, and subjects. The paper also highlights limitations in existing metrics like FID for evaluating interpolation quality

 

💡 Key point

 

 

 

1. Introduction

Figure 1: Interpolations of real images.

 

이미지 편집은 컴퓨터 비전과 생성 모델링 분야의 중심 주제로 여겨지며, 특히 생성 모델이 발전함에 따라 더 다양하고 정교하게 현실 이미지 편집이 가능해졌다. 이 과정에는 특히 Denoisign Diffusion Model이 큰 기여를 했다.

하지만, 현재의 이미지 보간 기술(Image Interpolation)은 GAN이나 비디오 보간 등의 제한된 맥락에서 작동하고, 스타일 또는 콘텐츠가 다른 실제 이미지 간의 고품질 보간 기술은 아직까지 한계를 갖는다. 본 논문은 이러한 문제를 해결하기 위해 Latent Diffusion Model(LDM)을 활용하여 입력 이미지 간의 고품질 보간을 가능하게 하는 새로운 방법을 제안한다.

 

2. Related Work

Figure 2: Our pipeline.

 

Image editing with latent diffusion models

 

Denoising Diffusion Models과 Latent Diffusion Models은 다양한 텍스트 조건부 이미지 생성을 가능하게 하는 모델로 사실적인 결과물, 상세한 텍스트 프롬프트 적용 능력 등으로 인기가 많다. 후속 연구들은 텍스트 프롬프트 및 현실 이미지 편집과 같은 조건 메커니즘을 추가하여 Diffusion Models의 성능을 확장하고 있다.

GAN은 잠재 공간에서 스타일-콘텐츠 분리와 alias-free 보간 등의 고급 기술을 제공하지만, 실제 이미지 재구성에 취약하다는 문제점을 갖는다. (=GAN Inversion) 이에 반해 Stable Diffusion 과 같은 Latent Diffusion Models는 생성된 생성된 이미지의 보간에 강점을 갖긴 하나, 실제 이미지 간 보간은 이번 연구에서 처음 다뤄졌다.

 

3. Preliminaries

Latent Diffusion Model(LDM)은 이미지의 잠재 벡터를 생성하고 이를 디노이징하여 고품질 이미지를 생성하는 모델로, 주요 구성 요소는 인코더($E$), 디코더($D$), 그리고 Denoising U-Net($\epsilon_\theta$)이며, 이 모델은 잠재 벡터를 노이즈가 추가된 Gaussian 분포로 매핑한 후 점진적으로 디노이징을 수행한다. 조건 정보로는 텍스트 조건($c_{text}$원하는 이미지 설명)과 포즈 조건($c_{pose}$, 인체형 객체의 자세 정보)이 있으며, 이를 활용해 생성 과정에서 세밀한 제어가 가능하다. 이 과정은 고품질 이미지를 생성하며, 다양한 조건 정보를 반영한다.

 

4. Real Image Interpolation

4.1.  Latent interpolation

해당 연구에서의 일반적인 보간 전략은 다음과 같다.

두 입력 이미지를 시작으로, 각 이미지 쌍의 잠재 벡터에 노이즈를 추가한 뒤 보간 및 디노이징을 통해 중간 이미지를 생성한다. 부모 이미지 간의 거리와 조건에 따라 노이즈 크기를 조정한다.

 

구체적으로는 증가하는 타임스텝 $T$에 따라 다음과 같은 분기 구조(branching structure)를 사용하여 부모 이미지를 할당한다.:

  • 이미지 $0$과 $N$ (입력 이미지): 타임스텝 $t_K까지 확산되고 평균화되어 이미지 $N/2$ 생성
  • 이미지 $0$$N/2$ 타임스텝 $t_{K-1}$까지 확산되어 이미지 $N/4$ 생성
  • 이미지 $N/2$와 $N$: 동일한 타임스텝 $t_{K-1}$까지 확산되어 이미지 $3N/4$ 생성.

이 과정은 계속 반복되며, 각 부모 이미지 쌍에 별도로 노이즈를 추가함으로써 해당 스키마는 자식 이미지가 부모와 가깝도록 유지하되, 형제 이미지 간의 혼선을 방지하도록 한다.

 

Interpolation type

해당 연구에서는 잠재 공간 및 텍스트 임베딩 보간을 위해 SLERP(spherical linear interpolations, 구면 선형 보간)을 사용하며, 포즈 보간은 선형 보간(linear interpolation)을 사용하였다. 실험적으로 SLERP와 선형 보간의 차이는 매우 미미하게 나타났다고 한다.

 

Noise schedule

해당 연구에서는 DDIM 샘플링을 수행하였으며, 확산 과정을 최소 200개의 타임스텝으로 나누었을 때 LDM의 품질이 일관적이고, 그보다 더 적은 타임스텝에서는 품질이 현저히 저하됨을 확인하였다고 한다. 실험적으로, 전체 스케줄의 25% 미만으로 디노이징된 잠재 벡터는 부모 이미지의 알파 합성(alpha composite)과 유사하며, 65% 이상으로 생성된 이미지는 부모 이미지와 크게 달라질 수 있다. 각 보간에 대해 출력에서 원하는 변화량에 따라 이 범위 내에서 선형 노이즈 스케줄을 선택한다. 

 

4.2. Textual inversion

사전 학습된 LDM은 특정 스타일의 고품질 출력을 생성하기 위해 텍스트 조건부 생성에 크게 의존하는데, 각 이미지의 전체적인 콘텐츠 또는 스타일을 설명하는 초기 텍스트 프롬프트가 주어졌을 때 텍스트 삽입(textual inversion)을 적용하여 최적화할 수 있다. 이 기법은 초기 텍스트 프롬프트를 기반으로 임베딩을 세밀하게 조정하여, 생성된 이미지의 스타일과 콘텐츠를 더욱 정확히 반영하도록 한다.

 

  • 텍스트 삽입 과정: 초기 텍스트 프롬프트를 인코딩한 뒤, 랜덤 노이즈 수준에서 디노이징 오류를 최소화하도록 100~500번의 그래디언트 디센트를 수행한다. 복잡한 스타일이나 레이아웃을 가지는 경우에는 반복 횟수를 늘릴 수 있다.

  • 최적화 목표: 손실 함수를 기반으로 학습률 $10^{-4}$로 전체 텍스트 임베딩을 최적화한다.
  • 텍스트 프롬프트 구성: 긍정적 프롬프트(positive prompt)와 부정적 프롬프트(negative prompt)를 모두 사용하여, 생성 과정에서 더욱 풍부한 스타일을 표현할 수 있도록 한다. 부정적 프롬프트는 이미지 쌍 간에 공유되어 일관성을 제공하는 역할을 한다.
  • 적용 가능성: 동일한 초기 프롬프트를 사용하거나, 자동화된 캡셔닝 모델을 통해 완전 자동화된 방식으로도 구현할 수 있다.

 

 

4.3. Pose guidance

Figure 3: Pose conditioning mitigates the occurrence of abrupt pose changes between adjacent frames, even when the predicted pose is incorrect.


이미지 보간 과정에서 입력 이미지 간 포즈 차이가 클 경우, 부자연스러운 전환이나 해부학적 오류(ex. 팔다리나 얼굴이 여러개)가 발생할 수 있다. 이를 해결하기 위해 LDM은 포즈 조건 정보를 활용하여 더 자연스러운 전환을 구현한다.

 

  • 포즈 추출: OpenPose를 사용해 입력 이미지의 포즈 정보를 추출하며, 만화나 비인간 대상은 스타일 전환 기술로 보조한다.
  • 포즈 보간: 두 이미지 간 공유되는 키포인트를 선형 보간하여 중간 포즈를 생성한다.
  • ControlNet 적용: 생성된 중간 포즈를 ControlNet에 제공하여, 포즈 조건을 기반으로 디노이징한다.

이는 잘못된 포즈 정보가 예측되더라도, 포즈 조건을 통해 갑작스러운 변화나 왜곡을 방지하며 더 부드럽고 일관성 있는 보간을 제공한다는 점에서 강점을 갖는다. 포즈 조건은 특히 복잡한 포즈나 다양한 스타일의 이미지 간 전환에서 강력한 보조 역할을 하며, 보간 과정의 품질을 크게 향상시킨다.

 

4.4. CLIP ranking

LDM은 랜덤 시드에 따라 출력 품질이 크게 달라질 수 있으며, 특히 실제 이미지 보간에서는 단 하나의 잘못된 이미지가 파생된 모든 이미지의 품질에 부정적인 영향을 미칠 수 있다. 이를 해결하기 위해 CLIP ranking이 적용하였다.

 

  • 랜덤 시드를 활용한 후보 생성: 다양한 랜덤 시드를 사용해 다수의 후보 이미지를 생성한다.
  • CLIP 유사도 측정: 각 후보 이미지를 디노이징하고, 긍정적 프롬프트(ex. "고품질", "세부적")와 부정적 프롬프트(e.g., "흐릿한", "왜곡된")를 기준으로 CLIP 유사도를 계산한다.
  • 최종 이미지 선택: 긍정적 유사도에서 부정적 유사도를 뺀 값이 가장 높은 이미지를 선택한다.
  • 대화형 모드 지원: 더 높은 제어와 품질이 필요한 경우, 사용자가 직접 보간 결과를 선택하거나 새로운 프롬프트/포즈를 지정할 수 있다.

이 기법은 특히 고품질의 일관된 보간 결과가 중요한 응용 분야에서 강력한 도구로 활용될 수 있다. 또한, CLIP Ranking은 자동화된 품질 평가와 사용자 개입을 결합해서 최적의 결과를 보장한다.

 

5. Experiments

해당 연구에서는 Stable Diffusion v2.1와 포즈 조건 기반 ControlNet을 사용하여 다양한 도메인(ex. 사진, 로고, 사용자 인터페이스, 예술 작품, 광고 및 포스터, 만화, 비디오 게임)을 포함하는 26개의 이미지 쌍에 대해 다양한 설계 선택의 효과를 분석했다.

 

5.1. Latent Interpolation

해당 연구에서는 잠재 벡터 보간(latent vector interpolation)을 다음의 여러 기준선 방법과 비교한다.:

 

  1. Interpolate Only (단순 보간): 디노이징 없이 입력 이미지의 잠재 코드만 보간하는 방법.
    $z_0 := E(x_0), \quad z_0^N := E(x_N), \quad z_0^i := \text{slerp}(z_0, z_0^N, i/N), \quad x^i := D(z_0^i)$
    디노이징이 수행되지 않아 잠재 공간에서 구조화되지 않은 결과를 생성하며, 합리적인 이미지를 생성하지 못한다.
  2. Interpolate-Denoise (보간 후 디노이징): 각 입력 이미지의 노이즈가 추가된 잠재 벡터를 생성 후 보간한 뒤 디노이징하는 방법
    • 노이즈 추가: $z_t^0 = \alpha_t z_{t-1}^0 + \beta_t \epsilon_t, \quad z_t^N = \alpha_t z_{t-1}^N + \beta_t \epsilon_t$ 
      여기서 $\epsilon_t \sim N(0, I)$는 두 이미지에 대해 공유된다.
    • 보간된 잠재 벡터: $z_t^i := \text{slerp}(z_t^0, z_t^N, i/N)$
    • 디노이징: $z_0^i := \mu_\theta(z_t^i, t), \quad x^i := D(z_0^i)$
    이 방법은 디노이징 후 결과 이미지 품질을 높이지만, 고노이즈 상태에서 인접 프레임 간 불연속적인 변화가 발생할 수 있다는 단점이 있다.
  3. Denoise-Interpolate-Denoise: 브랜칭 구조(branching structure)를 활용한 보간 방법
    • 초기 단계에서 입력 이미지 $z_t^0$$z_t^N$를 보간하여 $z_{t_1}^{N/2}$를 생성하고 디노이징한다.
    • $z_{t_2}^{N/4}$$z_{t_2}^{3N/4}$를 각각 보간하여 생성한다.
    • 이를 반복적으로 진행하며 디노이징한다.
      이 방식은 디노이징 과정에서의 불연속적인 변화를 완화하며, 더 부드럽고 자연스러운 결과를 생성한다.

결과 분석은 다음과 같다.

 

  • 제안된 방법의 강점: 더 창의적이고 설득력 있는 보간 결과 생성한다.
  • 평가 지표 한계와 새로운 평가 지표의 필요성: 기존 지표(FID, PPL)는 단순 결과(알파 블렌딩)를 선호하며 창의적인 보간 품질을 반영하지 못한다는 문제점이 발견되었다. 이에 따라 사용자 선호도와 보간 품질을 효과적으로 측정할 수 있는 새로운 기준 마련의 필요성이 대두되었다.

 

 

 

 

 

 

 

 

 

 

 

 

Figure 5: Comparison of different interpolation schemes.

 

 

Table 1: Quantitative comparison.
Figure 6: Our pipeline can be combined with affine transforms such as zooming on a point.

5.2. Extensions

 

 

 

 

 

6. Conclusion

Conclusion

  • 해당 연구에서는 스타일, 콘텐츠, 포즈가 다른 이미지를 연결해 창의적이고 고품질의 보간 시퀀스를 생성하는 새로운 실제 이미지 보간 기법을 제안했다는 점에서 의의가 있다.
  • 해당 기술은 영상 및 이미지 생성의 다양한 방법(중간 프롬프트 지정, 세그먼트/바운딩 박스 조건 추가 등)과 쉽게 통합 가능하며, 응용 범위가 넓다는 장점을 갖는다.

Limitation

  • 스타일과 레이아웃 차이가 큰 이미지 쌍에서는 보간에 실패할 가능성이 있다.
  • 포즈 탐지 및 보간 문제: 일부 사례에서는 대상의 포즈 탐지나 적절한 연결을 실패하는 경우가 있다.
  • 의미적 매핑 오류: 프레임 간 객체 간의 관계를 이해하지 못하는 경우가 종종 발생한다.
  • 텍스트 및 신체 혼동: 잘못된 텍스트가 삽입되거나, 포즈 가이던스를 사용하더라도 신체 부위를 혼동하는 사례가 있다.