카테고리

개발

AI 이미지 생성 API 2026년 가격 비교 — 블로그 썸네일 자동화 직접 써보고 정리

2026-03-25

Treeru

블로그 포스트마다 썸네일을 직접 만들기가 귀찮아서 AI 이미지 API로 자동화했다. 생각보다 잘 됐는데, 한 가지 골치 아픈 문제가 있었다. AI가 생성한 이미지에 알 수 없는 텍스트/글자가 들어가는 것. "NO TEXT", "no letters", "pure abstract"를 프롬프트에 아무리 써도 글자를 우겨넣는 모델이 있었다. 여러 API를 직접 써보고 2026년 3월 기준으로 정리했다.

$0.009

최저가 (GPT Image Low)

$0.045

최고가 (Gemini 3.1 Flash)

6개

비교한 모델

OCR

텍스트 감지 안전망

1블로그 썸네일 자동화의 현실

블로그 글을 자동으로 생성하면서 썸네일도 자동화하고 싶었다. 글 제목과 카테고리를 넘기면 어울리는 이미지를 만들어주는 파이프라인이었다. 이미지 API를 처음 연동했을 때는 결과물이 꽤 괜찮았다. 그런데 며칠 뒤 생성된 이미지들을 보다가 이상한 걸 발견했다.

이미지 곳곳에 의미를 알 수 없는 텍스트가 들어가 있었다. 영어인 것 같기도 하고 아닌 것 같기도 한, 그냥 그림 같은 글자들. 썸네일에 뜬금없이 "SEER"나 "TECH" 같은 단어가 박혀있으면 영 어색하다. 프롬프트에 "NO TEXT"를 추가했는데도 계속 들어갔다.

텍스트 문제가 심한 모델의 특징

프롬프트에 NO TEXT를 넣어도 30~50% 확률로 글자가 들어감
주로 간판, 표지판, 로고 형태로 삽입됨
영어처럼 생겼지만 실제로는 의미없는 가짜 텍스트
DALL-E 3이 가장 심했고, Gemini 구버전도 꽤 심함

2NO TEXT 프롬프트가 안 통하는 모델들

텍스트를 억제하는 프롬프트를 여러 조합으로 실험했다. "no text, no letters, no words, pure abstract, text-free" 등을 넣어봤는데 모델마다 반응이 달랐다.

# 텍스트 억제 프롬프트 시도들

# 시도 1: 간단히
"...NO TEXT in the image..."

# 시도 2: 강조
"...ABSOLUTELY NO text, letters, words, or numbers..."

# 시도 3: 네거티브 프롬프트 (DALL-E 3는 지원 안 함)
negative_prompt = "text, letters, words, numbers, signs, labels"

# 결론: 모델에 따라 아예 안 통하거나 확률적으로만 작동

특히 DALL-E 3는 텍스트가 들어가는 빈도가 높고 네거티브 프롬프트도 지원하지 않아서 가장 쓰기 까다로웠다. GPT Image 1.5로 넘어오면서 이 문제가 크게 개선됐다.

3OCR 재생성 안전망 구현

프롬프트로 완전히 막을 수 없으니 생성 후 검증하는 방식을 추가했다. Tesseract OCR로 이미지에서 텍스트를 감지하고, 텍스트가 발견되면 재생성하는 로직이다.

thumbnail_generator.py — OCR 안전망

import pytesseract
from PIL import Image
import io

def has_text_in_image(image_bytes: bytes, threshold: int = 3) -> bool:
    """이미지에서 텍스트 감지. threshold자 이상 감지되면 True"""
    try:
        img = Image.open(io.BytesIO(image_bytes))
        text = pytesseract.image_to_string(img)
        # 공백/줄바꿈 제거 후 실제 문자 수 확인
        cleaned = ''.join(text.split())
        return len(cleaned) >= threshold
    except Exception:
        return False  # Tesseract 미설치 시 패스

def generate_thumbnail(prompt: str, max_retries: int = 3) -> bytes:
    for attempt in range(max_retries):
        image_bytes = call_image_api(prompt)

        if not has_text_in_image(image_bytes):
            return image_bytes

        print(f"텍스트 감지됨, 재생성 ({attempt+1}/{max_retries})")

    # 최대 재시도 초과 → 마지막 이미지 반환
    return image_bytes

Tesseract 미설치 주의

Tesseract가 설치되지 않은 환경에서는 안전망이 비활성화된다. Docker 환경이면 Dockerfile에 RUN apk add tesseract-ocr(alpine) 또는apt-get install tesseract-ocr을 추가해야 한다.

4모델별 가격 비교 (2026년 3월 기준, 1024×1024)

실제로 써본 모델들을 정리했다. 가격은 2026년 3월 기준이며 변동될 수 있다.

모델	장당 가격	NO TEXT 신뢰도	비고
GPT Image 1.5 Low	$0.009	매우 높음	가성비 최고
GPT Image 1.5 Medium	$0.034	매우 높음	품질 우선 시
Gemini 3.1 Flash	$0.045	좋음	최신 버전
FLUX 1.1 Pro	$0.040	높음	Replicate API
Gemini 2.5 Flash	$0.039	보통	2026.10 종료 예정
DALL-E 3	$0.040	낮음	deprecated, 비권장

월 100장 기준 비교

GPT Image 1.5 Low: 약 $0.9 / FLUX 1.1 Pro: 약 $4.0 / DALL-E 3: 약 $4.0. 텍스트 없음 신뢰도까지 고려하면 GPT Image 1.5 Low가 압도적 가성비다.

5용도별 추천

블로그 썸네일 자동화 (가성비)

GPT Image 1.5 Low

장당 $0.009로 가장 저렴하면서 NO TEXT 신뢰도도 가장 높다. 1000장 생성해도 $9.

고품질 마케팅 이미지

GPT Image 1.5 Medium 또는 FLUX 1.1 Pro

Low보다 세밀한 표현이 필요하다면 Medium. 스타일 컨트롤이 중요하다면 FLUX.

대량 생성 (비용 최우선)

GPT Image 1.5 Low + OCR 재생성 안전망

가장 싸면서도 텍스트 문제를 OCR로 잡으면 충분하다.

DALL-E 3는 사용하지 않는다

deprecated 상태인 데다 텍스트 포함 빈도가 가장 높고 가격도 비싸다. 아직 DALL-E 3를 쓰고 있다면 GPT Image 1.5로 마이그레이션을 권장한다.

요약

AI 이미지 생성 API 선택 핵심

✓블로그 썸네일 자동화 최적: GPT Image 1.5 Low ($0.009/장, NO TEXT 신뢰도 최고)
✓NO TEXT 프롬프트만으로는 불충분 — OCR 재생성 안전망을 같이 구현
✓Tesseract OCR로 텍스트 감지 후 3회까지 재생성하는 로직 권장
✓DALL-E 3는 deprecated + 텍스트 문제 심함 → GPT Image 1.5로 교체
✓Gemini 2.5 Flash는 2026년 10월 종료 예정 — 3.1 Flash로 마이그레이션 필요

가격은 2026년 3월 기준이며 각 API 제공사의 정책에 따라 변경될 수 있습니다. 실제 사용 전 공식 가격 페이지를 확인하시기 바랍니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

콘텐츠 자동화 시스템 구축이 필요하신가요?

AI 이미지 생성, 블로그 자동화, OCR 검증 파이프라인까지. 실제 운영 경험을 바탕으로 안정적인 시스템을 만들어 드립니다.

자동화 시스템 상담 신청

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

AI이미지생성 Gemini GPT Image FLUX 이미지API 블로그자동화 가격비교

개발