AI로 영어 학습 콘텐츠 990개를 만들고 품질검사하며 배운 것
외부 의뢰로 영어 학습 콘텐츠를 만들었습니다. 발주 배경, 서비스 주소, 내부 구조는 공개할 수 없지만, 작업하면서 얻은 교훈은 공유할 만합니다. 핵심은 간단했습니다. AI로 콘텐츠를 많이 만들 수는 있습니다. 그런데 많이 만든 것과 바로 쓸 수 있는 것은 완전히 다릅니다.
이번 작업에서는 기본동사 30개를 골라 각 동사마다 30개 학습 장면을 만들었습니다. 최종 기준으로는 990개 SCENE, 427개 의도, 81개 상황, 3,134개 표현이 만들어졌습니다. 이 글은 그 과정에서 실제로 좋았던 점, 문제가 생긴 지점, 그리고 품질검사를 어떻게 설계했는지에 대한 기록입니다.
990
완성한 학습 장면
30
기본동사 시리즈
3,134
핵심 표현 수
0 / 0
감사 errors / warnings
의뢰는 단순했지만 문제는 콘텐츠 밀도였다
처음에는 영어 학습 콘텐츠를 빠르게 채우는 일이었습니다. 하지만 실제로 들어가 보니 단순한 문장 생성 문제가 아니었습니다. 영어 학습 콘텐츠는 양만 많으면 오히려 독이 됩니다. 같은 표현만 반복되면 지루하고, 너무 어려운 표현이 섞이면 초급자가 떨어져 나가고, 한국어 뜻이 부자연스러우면 학습자가 영어를 외워도 언제 써야 하는지 모릅니다.
그래서 방향을 바꿨습니다. "문장을 많이 만들자"가 아니라 "하나의 표현이 실제 상황 안에서 여러 번 입에 붙게 하자"로 잡았습니다. 예를 들어 get을 "받다"로만 처리하지 않고, get dressed, get there, get better, get it, get it fixed, get to travel처럼 한국 학습자가 자주 놓치는 덩어리를 장면으로 나눠 넣었습니다.
이번 작업에서 AI는 "최종 저자"라기보다 "초안 생산 엔진"에 가까웠습니다. 좋은 결과는 프롬프트보다도 콘텐츠 구조, 검수 기준, 반복 점검에서 나왔습니다.
실제로 만든 분량
결과물은 기본동사 중심으로 구성했습니다. have, get, make, take 같은 동사는 쉬워 보이지만 실제로는 가장 어렵습니다. 한국어 하나로 대응되지 않고, 구동사와 관용 표현으로 계속 갈라지기 때문입니다.
| 항목 | 결과 | 의미 |
|---|---|---|
| 기본동사 | 30개 | 동사별 30개 장면을 목표로 설계 |
| SCENE | 990개 | 학습자가 실제 상황처럼 읽고 듣는 최소 단위 |
| 의도 | 427개 | 묻기, 부탁하기, 확인하기, 거절하기 같은 말의 기능 |
| 상황 | 81개 | 학교, 집, 카페, 길 찾기, 친구 관계 등 사용 맥락 |
| 표현 | 3,134개 | 학습장에 들어갈 핵심 회화 덩어리 |
장면 하나는 대체로 5~6개 대사, 4지선다 추측 문제, 표현을 바꿔보는 twist, 직접 써보는 mine 단계, 그리고 3~4개 핵심 표현으로 구성했습니다. 이 형식을 고정한 이유는 간단합니다. AI가 자유롭게 쓰게 두면 결과가 풍성해지는 것이 아니라 검수할 수 없는 형태로 흩어집니다.
기술스택은 콘텐츠를 강제하기 위한 장치였다
이 작업에서 기술스택은 화려한 기능을 넣기 위한 선택이 아니었습니다. 콘텐츠가 일정한 형태를 지키도록 강제하는 장치였습니다. 구조화된 원본 파일, 자동 import, TTS 생성, 품질 감사 스크립트, 빌드 검증이 한 줄로 이어져야 했습니다.
구조화된 콘텐츠 원본
장면마다 slug, 대사, 문제, 정답, 변형 예문, 핵심 표현을 같은 구조로 유지했습니다.
TTS 일괄 생성
대사와 예문을 음성으로 만들되, 문장 변경 여부를 분리해 불필요한 재생성을 줄였습니다.
자동 품질 감사
개수, 파일명, 정답 수, 선택지 수, 중복 표현, 오디오 존재 여부를 기계적으로 검사했습니다.
빌드 검증
콘텐츠가 많아질수록 타입, import, 데이터 누락이 곧 서비스 장애가 되기 때문에 빌드를 검수 루틴에 넣었습니다.
중요한 건 "어떤 DB를 썼다", "어떤 서버에 올렸다"가 아닙니다. 그런 건 프로젝트마다 달라집니다. 더 중요한 건 콘텐츠를 사람이 읽기 전에 기계가 먼저 탈락시킬 수 있는 구조를 만드는 것입니다.
AI로 만들 때 좋았던 점
장점은 분명했습니다. 먼저 속도입니다. 기본동사 하나를 잡고 30개 상황을 펼칠 때, 사람이 처음부터 전부 쓰면 소재 고갈이 빨리 옵니다. AI는 카페, 학교, 가족, 길 찾기, 친구 관계, 발표, 병원, 서비스 상황처럼 맥락을 빠르게 넓혀줍니다.
1. 표현의 주변 맥락을 빨리 만든다
take a break만 쓰는 것이 아니라, "공부하다 잠깐 쉬기"라는 장면을 만들고, Let's take a break, I need to take a break, after we take a break처럼 주변 문장을 붙일 수 있었습니다.
2. 같은 동사의 의미를 분산 배치하기 좋다
get은 받다, 도착하다, 이해하다, 상태가 변하다, 기회가 생기다, 맡겨서 처리하다로 갈라집니다. 이걸 한 페이지 설명으로 끝내지 않고 여러 장면에 나눠 심을 수 있었습니다.
3. 초급자용 쉬운 상황을 계속 바꿀 수 있다
같은 문법이라도 학교, 집, 친구, 가족, 카페 상황으로 바꾸면 체감 난이도가 내려갑니다. AI는 이런 변주를 빠르게 뽑아내는 데 강했습니다.
그대로 쓰면 망가지는 지점
문제도 분명했습니다. AI가 만든 문장은 문법적으로 멀쩡해 보여도 학습 콘텐츠로는 부족한 경우가 많습니다. 특히 "정답처럼 보이지만 실제 학습에는 별 도움이 안 되는 문장"이 자주 나옵니다.
실제로 자주 생긴 문제
- 영어 옵션의 뜻을 한국어로 풀지 않고 거의 그대로 반복함
- 예문이 옵션별로 달라져야 하는데 같은 한국어 문장이 반복됨
- 핵심 표현이 같은 장면 안에서 중복됨
- 문장은 자연스러운데 왜 이 표현을 배우는지 설명이 약함
- 초급 장면에 B1 이상 표현이 슬쩍 섞임
가장 많이 고친 부분은 twist였습니다. twist는 표현을 바꿔보는 구간입니다. 예를 들어 ask if를 배운다면 "가능한지 묻다", "준비됐는지 묻다", "열려 있는지 묻다", "취소됐는지 묻다"처럼 학습자가 구조를 바꿔 말할 수 있어야 합니다. 그런데 초안에는 영어 원문을 한국어 칸에 거의 반복해 놓은 경우가 있었습니다. 겉으로는 빈칸이 채워져 있지만, 학습 가치는 낮았습니다.
자동 품질검사에서 잡은 것
자동 검사는 "좋은 영어인가"를 판단하지 않았습니다. 그건 너무 어렵고, 자동화하면 오히려 위험합니다. 대신 자동 검사는 형식이 깨졌는지를 봤습니다.
| 검사 항목 | 이유 |
|---|---|
| SCENE 개수 | 동사별 30개 구성이 빠지지 않았는지 확인 |
| slug와 파일명 | 링크, 음성, 학습 기록이 서로 어긋나는 문제 방지 |
| 대사 4~6개 | 너무 짧거나 긴 장면을 걸러냄 |
| 선택지 4개와 정답 1개 | 문제 형태가 깨지는 것을 방지 |
| target expression 중복 | 같은 장면 안에서 학습장 표현이 낭비되는 문제 방지 |
| 오디오 파일 존재 | 텍스트는 있는데 재생할 수 없는 콘텐츠 방지 |
이 검사에서 같은 장면 안에 반복되던 target expression 53개를 발견했습니다. 단순 삭제가 아니라 실제 대사에 있는 key expression 기반으로 교체했습니다. 그래야 장면 안에서 본 표현이 학습장에도 자연스럽게 들어갑니다.
1차 자동 감사 결과
990개 SCENE 전체를 대상으로 검사했고, 중복 표현 53개를 수정한 뒤 최종 결과는 errors 0 / warnings 0이었습니다. 이 단계에서 map 재생성과 빌드도 함께 통과시켰습니다.
수동 점검에서만 보인 것
자동 검사를 통과했다고 콘텐츠가 좋은 것은 아닙니다. 실제로 그 다음 단계에서 ask 시리즈 30개를 5개씩 나눠 읽었습니다. 여기서 보인 문제는 자동화로 잡기 어려웠습니다.
대사는 괜찮은데 학습 설명이 약한 경우
ask-001~005에서는 spoken line과 오디오는 유지했습니다. 문제는 twist 학습부였습니다. 영어 옵션 의미가 한국어로 자연스럽게 풀리지 않고, 예문도 옵션별 차이가 약했습니다.
구조 학습이 필요한 장면
ask someone to, ask if, ask whether 같은 장면은 대사보다 변형 예문이 더 중요했습니다. 학습자가 "누구에게 무엇을 부탁하다", "~인지 묻다"를 직접 바꿔 말할 수 있어야 했습니다.
관용표현은 맥락이 없으면 죽는다
Don't ask me, if you ask me, you asked for it, no questions asked 같은 표현은 뜻만 붙이면 어색합니다. 장난인지, 조심스러운 의견인지, 조건 없는 도움인지 상황을 같이 줘야 기억됩니다.
그래서 수동 점검의 원칙을 정했습니다. 대사와 오디오가 자연스러우면 유지합니다. 대신 한국어 의미, 변형 예문, target expression 설명을 고칩니다. 이렇게 하면 TTS를 다시 만들지 않아도 학습 품질은 크게 올라갑니다.
다음에 다시 한다면 먼저 세울 규칙
이번 작업을 다시 한다면 프롬프트보다 먼저 품질 기준표를 만들겠습니다. AI 콘텐츠 작업은 "잘 써줘"로 시작하면 거의 실패합니다. 대신 아래 기준을 먼저 박아두는 편이 낫습니다.
1. 장면 수보다 표현 분포를 먼저 본다
990개를 채우는 것보다 have/get/make/take 같은 핵심동사의 의미가 고르게 분산됐는지가 더 중요합니다.
2. 모든 장면은 한 가지 학습 목적만 가진다
한 장면에 문법, 관용표현, 문화 설명을 다 넣으면 초급자는 아무것도 못 가져갑니다.
3. 한국어 뜻은 번역이 아니라 사용법이어야 한다
ask around를 '주변에 묻다'로 끝내지 말고, '여기저기 물어보다'처럼 실제 행동이 보이게 써야 합니다.
4. 자동 검사는 형식, 사람 검수는 학습감을 본다
개수, 정답, 중복, 오디오는 자동화하고, 난이도와 자연스러움은 사람이 봐야 합니다.
5. 오디오 재생성 비용을 줄이는 구조가 필요하다
대사를 바꾸면 TTS를 다시 만들어야 합니다. 그래서 대사와 설명 품질을 분리해 관리하는 편이 좋습니다.
6. AI가 만든 표현은 반드시 중복 검사를 돌린다
대량 생성에서는 비슷한 표현이 계속 나옵니다. 눈으로는 놓치기 쉬워서 기계 검사가 필요합니다.
결론
AI로 영어 학습 콘텐츠를 만드는 일은 충분히 가능합니다. 특히 초안 생산, 상황 변주, 표현 분산에는 큰 도움이 됩니다. 하지만 AI가 만든 결과를 그대로 서비스에 넣으면 안 됩니다. 교육 콘텐츠는 "그럴듯한 문장"이 아니라 학습자가 다음 상황에서 실제로 꺼내 쓸 수 있는 표현이어야 하기 때문입니다.
이번에 가장 크게 배운 건 이겁니다. 대량 제작의 핵심은 생성 모델이 아니라 검수 시스템입니다. 자동 감사는 형식을 지키게 하고, 수동 점검은 학습감을 살립니다. 이 둘이 같이 있어야 990개 같은 숫자가 의미를 가집니다.
AI 콘텐츠 작업을 고민하고 있다면, 먼저 작은 세트로 30개만 만들어 보길 권합니다. 그리고 바로 늘리지 말고 중복, 난이도, 한국어 설명, 오디오, 예문 변형을 검사해 보세요. 그 30개에서 문제가 보이면 990개에서는 반드시 더 크게 터집니다. 반대로 30개를 안정적으로 관리할 수 있으면, 그때부터 AI는 꽤 강력한 제작 도구가 됩니다.
함께 읽으면 좋은 글
AI가 그럴듯한 거짓말을 만드는 문제는 LLM 환각 테스트에서, 실제 업무용 AI를 만들 때 데이터와 지식 주입이 왜 필요한지는 로컬 RAG 파이프라인 구축기에서 더 자세히 다뤘습니다.
댓글
(3)로그인 하면 댓글을 작성할 수 있습니다.
자동 검사와 수동 검사를 분리한 기준이 좋습니다. 구조는 자동으로 보고, 학습감은 사람이 봐야 한다는 결론에 동의합니다.
AI 콘텐츠를 바로 납품물로 보면 위험하고, 초안 생산 엔진으로 봐야 한다는 말이 와닿습니다. 특히 twist 예문 점검 부분이 현실적이네요.
990개를 만든 숫자보다 53개 중복 표현을 고친 과정이 더 중요해 보입니다. 대량 생성에서 이런 중복은 실제로 자주 생깁니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.