본문 바로가기

AI 프롬프트

4장. 복합 문서 작성자의 좌절 – 글과 그림의 동시 제작 문제

들어가며

AI를 활용해 정보를 전달하고자 하는 사용자들에게 있어, 글과 그림을 동시에 제작하는 일은 갈수록 중요해지고 있다. 그러나 실제로 글쓰기 능력이 뛰어난 LLM과 이미지 생성 AI 간에는 서로 완전히 다른 특성이 존재한다. 이 때문에 '한 번에 글과 그림을 완성한다'는 기대는 현실에서 번번이 좌절되고 있다.

이 장에서는 복합형 문서를 만드는 과정에서 사용자가 겪는 실제 문제를 중심으로, 왜 이런 문제가 발생하는지 그리고 현 시점에서 가능한 우회 방법은 무엇인지 살펴본다.


텍스트와 이미지의 분리된 흐름

작업 요소 LLM의 특징 이미지 생성 AI의 특징
처리 방식 문장과 문맥 중심 시각적 키워드 중심
응답 형식 시간 순서대로 서술됨 공간적으로 동시 표현됨
디테일 구성 논리 전개 중심 형상, 배경, 구도 중심
에러 유형 표현 생략 또는 중복 왜곡, 이상한 비율 또는 비정상 구조

실제 제작자의 고충

  • 내용과 그림을 따로 다뤄야 함: LLM이 먼저 문서를 작성하고, 이미지 모델에는 별도로 프롬프트를 전달해야 함
  • 수정 반복: 텍스트는 매우 만족스러운데, 그림이 어색하거나 다른 뜻으로 전달되었을 경우 수차례 이미지 생성 반복이 필요
  • 맥락 불일치: 글에서는 설명된 순서나 위치가 그림에서는 무시되거나 왜곡됨
  • 타임라인 붕괴: 예를 들어 ‘1단계 → 2단계 → 3단계’를 설명했는데, 생성된 이미지는 3단계의 결과만 보여주는 등 단절이 발생함

사용자의 실패 경험 예시

“글로는 정확히 설명했는데, 생성된 그림은 도무지 엉뚱한 포즈거나, 손이 4개인 캐릭터가 나오거나, 실제 조립이 불가능한 구조로 표현되었다. 다시 설명하고 다시 그려야 했다.”
“이미지와 텍스트를 조합해 온라인 강의를 만들려고 했는데, 아무리 강조해도 그림에서 중요한 포인트가 빠진다. 반복적으로 이미지 프롬프트를 수정하면서 시간을 허비했다.”

이 장의 요약

  • 텍스트 생성과 이미지 생성은 기술적 기반이 달라, 자연스럽게 통합되기 어렵다.
  • 복합형 문서를 만들고자 하는 사용자에게는 반복과 시행착오가 필수적인 현실이다.
  • LLM의 뛰어난 글쓰기 능력과 이미지를 매끄럽게 연결하는 전략이 필요한 상황이다.