
들어가며
언어는 강력한 표현 도구이지만, 모든 것을 완전히 설명하진 못한다. 특히 ‘동작’, ‘운동’, ‘감각’처럼 시간·공간에 따라 변화하는 행위나 상태는 문장으로만 전달하기엔 한계가 있다. 이번 장에서는 LLM과 생성형 AI가 행동 기반 시각 정보를 구현하지 못하는 이유를 집중적으로 다룬다.
언어로 설명하기 어려운 정보의 특성
| 정보 유형 | 문장으로 설명 시 문제 |
| 시간의 흐름 | 단계 간 연속성이 표현되지 않거나 순서가 혼동됨 |
| 운동과 속도 | 빠름/느림, 갑작스러운 동작 등을 수치 없이 표현하기 어려움 |
| 감각 반응 | 아찔함, 무게감, 중심 이동 등은 언어로 전달에 한계 |
| 세밀한 표정 변화 | 미묘한 근육 움직임이나 눈빛 변화는 실시간 묘사 어려움 |
행동 기반 시각 정보가 생성되지 않는 이유
- 장면 간 연결성 부족
- 이미지 생성 AI는 고정된 한 컷만 생성하기 때문에 '전후 흐름'을 상상하지 못함 - 포즈와 움직임 간 구분 미흡
- ‘움직인다’는 개념이 정지 이미지로 변환될 때 잘못 해석됨
- 예: “달리는 사람” → 단순히 한쪽 발을 들고 있는 포즈로 생성 - 감각 정보 인식 불가
- ‘균형을 잡고 있다’, ‘무게 중심을 이동한다’ 같은 상태는 이미지로 표현되기 어렵고 생략됨 - 미묘한 차이 무시
- “눈을 희미하게 찡그린다”는 표현 → 명확한 감정 표시가 부족하면 무표정으로 처리됨
실제 실패 사례들
요가 균형 동작
“한 다리로 몸을 지탱하고, 상체는 수평을 유지한 채 팔을 곧게 뻗는다.”
→ 상체가 흔들리거나 몸 전체가 기형적으로 왜곡되어 생성됨
활 쏘는 자세
“화살을 당기는 순간을 정면에서 묘사. 왼손은 활을 고정, 오른팔은 끝까지 당김.”
→ 팔의 길이가 어색하거나, 화살과 활의 위치가 맞지 않음
무게중심 조정
“무거운 상자를 들어 올리는 중, 허리는 약간 굽히고 다리는 구부림.”
→ 등이 과도하게 구부러지거나 손이 상자에 닿지 않음
행동 기반 표현이 어려운 핵심 요약
- 행동과 동작은 ‘변화’를 포함하기 때문에 정적 이미지로 표현하는 데 한계가 있다.
- 속도, 감각, 중심 같은 비가시적 요소는 시각화가 특히 어렵다.
- 그림 한 장에 ‘움직임의 느낌’을 담는 것은 현재 기술로는 명확히 구현되지 않는다.
'AI 프롬프트' 카테고리의 다른 글
| 9장. 현재의 우회 방법 – 생성 이미지 디렉션의 팁과 전략 (1) | 2025.07.08 |
|---|---|
| 8장. 언어모델과 이미지모델의 분리 문제 – 통합은 가능할까? (2) | 2025.07.08 |
| 6장. 정확한 시각 표현이 어려운 예시들 – 요가, 종이접기, 조립 설명서 (4) | 2025.07.08 |
| 5장. 생성형 AI의 이미지 생성 방식 – 왜 디테일이 빠질까 (3) | 2025.07.08 |
| 4장. 복합 문서 작성자의 좌절 – 글과 그림의 동시 제작 문제 (1) | 2025.07.08 |