본문 바로가기

AI 프롬프트

5장. 생성형 AI의 이미지 생성 방식 – 왜 디테일이 빠질까

들어가며

사용자는 아주 구체적이고 정확한 문장을 입력했음에도 불구하고, 이미지 생성 AI는 때로 엉뚱하거나 추상적인 그림을 만들어낸다. 예를 들어, 시선 방향을 설명했는데 시선이 엉뚱하거나, 발끝의 위치를 명확히 지시했는데 그림에서는 생략되거나 왜곡된다. 이 장에서는 왜 이미지 생성 AI가 디테일을 잘 반영하지 못하는지 그 구조를 분석해본다.


이미지 생성 AI의 작동 방식 요약

단계 설명
1. 텍스트 인코딩 프롬프트(입력 문장)를 벡터화해 의미를 압축함
2. 노이즈 이미지 생성 무작위한 점들의 이미지(노이즈)로부터 시작함
3. 디퓨전 단계 반복 노이즈를 점진적으로 제거하며 이미지 구성
4. 클립 매칭 텍스트와 이미지 간 유사도를 판단하며 조정

 

핵심 문제: 텍스트 프롬프트가 추상적으로 해석되거나, 디테일 정보가 벡터화 과정에서 일부 유실됨

 


디테일 유실의 주요 원인

  1. 텍스트-이미지 벡터 매핑의 손실
    → 예: “왼쪽 팔은 수평, 오른쪽 다리는 바닥과 수직” → 이러한 관계성이 단순 수치가 아닌 개념으로 처리됨
  2. 주요 키워드 중심 우선처리
    → "요가 자세", "여성", "바닥" 같은 일반적인 키워드 우선 반영 → 세부 명령어는 후순위 처리되거나 누락
  3. 방향성과 공간 개념 부정확
    → '왼쪽', '오른쪽', '뒤쪽' 등의 상대적 지시어가 이미지 생성에서 일관되지 않게 해석됨
  4. 확률적 생성 구조
    → 결과 이미지가 항상 일정치 않으며, 디테일 유지보다 전체 스타일이나 질감이 우선되는 경향

사용자의 예측과 실제 결과의 불일치

사용자 기대 생성 결과
상체는 오른쪽으로 틀고, 시선은 왼쪽 발을 향함 상체만 틀렸고 시선은 정면을 봄
팔은 접히고 다리는 곧게 펴짐 팔이 곧고 다리가 오히려 접혀 있음
배경은 하얀 배경, 실내 공간 야외로 묘사되거나 어두운 톤으로 생성됨

해결을 위한 방향

  • 이미지 생성 모델에 특화된 표현으로 작성: “looking at left foot” → 보다 시각적인 동사를 활용
  • 중요 정보를 앞에 배치: 프롬프트 순서에 따라 반영 정도가 달라질 수 있음
  • 1:1 비례보다는 강조 표현 사용: “clearly raising only the right leg vertically”처럼 강조 필요
  • 프롬프트 반복 실험: 세부 명령어를 별도로 나눠 테스트해 보는 것이 실전에서 유리함

이 장의 요약

  • 이미지 생성 AI는 확률적, 추상적 추론 기반으로 작동하여 디테일 손실이 빈번하다.
  • 텍스트가 아무리 정확하더라도 구조적 한계로 인해 시각적 충실도가 떨어질 수 있다.
  • 디테일을 최대한 반영하려면 프롬프트 기술과 반복 실험이 여전히 중요하다.