
들어가며
사용자는 아주 구체적이고 정확한 문장을 입력했음에도 불구하고, 이미지 생성 AI는 때로 엉뚱하거나 추상적인 그림을 만들어낸다. 예를 들어, 시선 방향을 설명했는데 시선이 엉뚱하거나, 발끝의 위치를 명확히 지시했는데 그림에서는 생략되거나 왜곡된다. 이 장에서는 왜 이미지 생성 AI가 디테일을 잘 반영하지 못하는지 그 구조를 분석해본다.
이미지 생성 AI의 작동 방식 요약
| 단계 | 설명 |
| 1. 텍스트 인코딩 | 프롬프트(입력 문장)를 벡터화해 의미를 압축함 |
| 2. 노이즈 이미지 생성 | 무작위한 점들의 이미지(노이즈)로부터 시작함 |
| 3. 디퓨전 단계 반복 | 노이즈를 점진적으로 제거하며 이미지 구성 |
| 4. 클립 매칭 | 텍스트와 이미지 간 유사도를 판단하며 조정 |
핵심 문제: 텍스트 프롬프트가 추상적으로 해석되거나, 디테일 정보가 벡터화 과정에서 일부 유실됨
디테일 유실의 주요 원인
- 텍스트-이미지 벡터 매핑의 손실
→ 예: “왼쪽 팔은 수평, 오른쪽 다리는 바닥과 수직” → 이러한 관계성이 단순 수치가 아닌 개념으로 처리됨 - 주요 키워드 중심 우선처리
→ "요가 자세", "여성", "바닥" 같은 일반적인 키워드 우선 반영 → 세부 명령어는 후순위 처리되거나 누락 - 방향성과 공간 개념 부정확
→ '왼쪽', '오른쪽', '뒤쪽' 등의 상대적 지시어가 이미지 생성에서 일관되지 않게 해석됨 - 확률적 생성 구조
→ 결과 이미지가 항상 일정치 않으며, 디테일 유지보다 전체 스타일이나 질감이 우선되는 경향
사용자의 예측과 실제 결과의 불일치
| 사용자 기대 | 생성 결과 |
| 상체는 오른쪽으로 틀고, 시선은 왼쪽 발을 향함 | 상체만 틀렸고 시선은 정면을 봄 |
| 팔은 접히고 다리는 곧게 펴짐 | 팔이 곧고 다리가 오히려 접혀 있음 |
| 배경은 하얀 배경, 실내 공간 | 야외로 묘사되거나 어두운 톤으로 생성됨 |
해결을 위한 방향
- 이미지 생성 모델에 특화된 표현으로 작성: “looking at left foot” → 보다 시각적인 동사를 활용
- 중요 정보를 앞에 배치: 프롬프트 순서에 따라 반영 정도가 달라질 수 있음
- 1:1 비례보다는 강조 표현 사용: “clearly raising only the right leg vertically”처럼 강조 필요
- 프롬프트 반복 실험: 세부 명령어를 별도로 나눠 테스트해 보는 것이 실전에서 유리함
이 장의 요약
- 이미지 생성 AI는 확률적, 추상적 추론 기반으로 작동하여 디테일 손실이 빈번하다.
- 텍스트가 아무리 정확하더라도 구조적 한계로 인해 시각적 충실도가 떨어질 수 있다.
- 디테일을 최대한 반영하려면 프롬프트 기술과 반복 실험이 여전히 중요하다.
'AI 프롬프트' 카테고리의 다른 글
| 7장. 언어로 설명하기 어려운 행동 표현 – AI 모델이 '못 보는' 장면들 (1) | 2025.07.08 |
|---|---|
| 6장. 정확한 시각 표현이 어려운 예시들 – 요가, 종이접기, 조립 설명서 (4) | 2025.07.08 |
| 4장. 복합 문서 작성자의 좌절 – 글과 그림의 동시 제작 문제 (1) | 2025.07.08 |
| 3장. 글로 그림을 설명하기 – 사용자가 겪는 실제 어려움들 (0) | 2025.07.08 |
| 2장. 시각 정보를 만들기 어려운 이유 – 언어모델의 태생적 한계 (0) | 2025.07.08 |