본문 바로가기

AI 프롬프트

3장. 글로 그림을 설명하기 – 사용자가 겪는 실제 어려움들

들어가며

LLM과 이미지 생성 AI가 각각 뛰어난 능력을 보여주고 있음에도 불구하고, 실제로 글을 기반으로 그림을 만들어야 할 때는 예상치 못한 문제에 부딪히곤 한다. 특히 설명이 복잡하거나 '동작', '순서', '위치' 같은 요소가 포함된 경우, 단순히 "잘 써서 전달하면 되겠지"라는 기대가 무너지게 된다.

이번 장에서는 실제 사용자가 어떤 어려움을 겪는지, 그 예시와 함께 상세히 살펴본다.


구체적인 예시들

요가 자세 묘사

입력 프롬프트:
“견상자세에서 오른쪽 다리를 들어 발끝은 하늘을 향하게 하고, 시선은 왼쪽 발끝을 향하게 해줘.”

문제점:
- 해부학적으로 불가능한 포즈로 생성됨
- 자세의 균형이 맞지 않거나, 시선 방향이 무시됨
- 종종 사람이 아닌 기괴한 형태의 생명체로 그려짐

종이접기 설명

입력 프롬프트:
“정사각형 색종이를 대각선으로 반 접고, 오른쪽 모서리를 중앙 선에 맞춰 접는다.”

문제점:
- 어떤 방향이 '위'인지 불분명
- 각도를 정확히 묘사하지 못해 다른 단계로 넘어가면 오류 누적
- 생성된 이미지는 마치 랜덤 접기 결과처럼 보임

조립형 프라모델 설명

입력 프롬프트:
“A 부품을 B 부품의 홈에 삽입 후, 30도 각도로 비튼 뒤, C 부품과 맞물린다.”

문제점:
- 모델은 구조나 방향성 이해가 없어 부품 위치가 엉뚱함
- 손잡이나 홈 등 디테일 요소가 무시되거나 잘못 묘사됨
- 실제로는 조립 불가능한 결과물이 생성됨

왜 이런 오류가 생길까?

  • 시퀀스 인식 약함: 어떤 행동이 먼저 일어나야 하는지를 모델이 놓칠 수 있음
  • 오버 제너레이션: 적절히 '생략해야 할' 정보를 창의적으로 만들어버림 (예: 팔이 3개인 사람)
  • 모호한 표현 처리: “중앙 선에 맞춰”와 같은 표현이 언어적으론 명확하지만 시각적으로 모호함

이 장의 요약

  • 텍스트 기반 설명은 실제 이미지로 옮겨질 때 다양한 왜곡과 누락이 발생한다.
  • 특히 동작, 위치, 순서가 중요한 콘텐츠일수록 문제가 심화된다.
  • 사용자는 올바른 문장을 입력했음에도 불구하고 원하지 않는 결과를 자주 경험하게 된다.