왜 RAG의 성공은 데이터 준비에 달려 있을까? (권수용 실장 / 아이크래프트)

<잇(IT)터뷰 전체 영상 보기>

잇(IT)터뷰 전체 내용은 ▼아래 영상▼에서 확인해 주세요!
 

게스트 : 권수용 실장 / 아이크래프트
진행자 : 고우성 PD / 토크아이티 (wsko@talkit.tv, https://talkit.tv/)

 

 

영상 목차

 

◼ 아래 각 목차를 클릭하시면 해당 내용을 영상으로 바로 보실 수 있습니다.
RAG POC 성공에서 실제 서비스 실패까지
RAG가 만능이 아닌 이유
냉장고 질문에 TV 답변하는 AI
Garbage In, Garbage Out의 법칙
데이터 최종 가공의 실제 사례

 


<잇(IT)터뷰 – 핵심 내용 파악하기>

‘잇(IT)터뷰 – 핵심 내용 파악하기’는 영상의 핵심 내용을 정리한 글입니다.
영상 내용을 정리된 글로 확인해 보세요!
더 많은 내용이 궁금하시다면 페이지 상단의 영상이나 하단 영상 링크를 클릭하여 확인해 주세요!
이번 잇(IT)터뷰는 RAG(Retrieval-Augmented Generation) 시스템의 가장 흔한 실패 패턴과 근본적 해결책을 다룹니다. 소규모 POC에서는 완벽하게 작동하던 RAG 시스템이 실제 대규모 데이터 환경에서 엉뚱한 답변을 하기 시작하는 현상의 원인을 분석합니다.
많은 개발팀이 LLM 모델 자체에 문제가 있다고 생각하지만, 실제로는 데이터 전처리와 맥락화 과정에서 발생하는 문제임을 명확히 지적합니다. “Garbage In, Garbage Out” 원칙을 바탕으로 RAG 성공을 위한 데이터 중심 접근법의 중요성을 실무 사례를 통해 제시합니다.

 
 

1. RAG POC 성공에서 실제 서비스 실패까지

 

RAG 프로젝트에서 가장 흔하게 발생하는 시나리오는 다음과 같다. 초기 POC 단계에서는 10개 정도의 문서로 테스트했을 때 완벽하게 작동한다. 정확하고 관련성 높은 답변을 제공하여 팀 전체가 성공을 확신한다.
하지만 실제 서비스 환경에서 100개 이상의 대규모 데이터셋을 적용하면 성능이 급격히 떨어진다. AI가 갑자기 맥락에 맞지 않는 답변을 하기 시작하거나, 서로 다른 도메인의 정보를 뒤섞어서 제공하는 현상이 나타난다.

 

*전형적인 실패 패턴
– POC 단계: 제한된 데이터로 정확한 답변 제공
– 확장 단계: 데이터 양 증가 시 답변 품질 급격히 저하
– 혼란 단계: 서로 다른 맥락의 정보가 뒤섞임
– 포기 단계: RAG 자체의 한계로 오해하고 프로젝트 중단

 

이러한 패턴은 개발팀이 RAG의 본질을 제대로 이해하지 못했을 때 발생하는 전형적인 현상이다. 문제는 기술 자체가 아니라 데이터를 다루는 방식에 있다.

 
 

2. RAG가 만능이 아닌 이유

 

“RAG가 만능이 아니다!!”라는 핵심 메시지는 많은 개발팀이 가지고 있는 잘못된 기대를 정확히 지적한다.
RAG는 단순히 문서를 청킹하고 벡터 데이터베이스에 저장한 후 유사도 검색으로 답을 찾는 마법의 도구가 아니다. 실제로는 매우 정교한 데이터 처리와 맥락 관리가 필요한 복합적 시스템이다.

 

*RAG의 흔한 오해들
– 원시 문서를 그대로 넣으면 자동으로 좋은 결과가 나올 것
– 더 많은 데이터를 넣을수록 더 좋은 답변을 할 것
– 최신 LLM을 사용하면 데이터 품질은 상관없을 것
– 벡터 검색만으로 충분한 맥락을 제공할 수 있을 것

 

*RAG 실패의 기술적 원인
반복적인 재귀 조회 과정에서 불필요한 정보가 지속적으로 포함되면서 모델이 올바른 맥락을 찾지 못하게 된다. 이는 마치 소음이 많은 환경에서 특정 대화를 듣기 어려운 것과 같은 현상이다.

 
 

3. 냉장고 질문에 TV 답변하는 AI

 

권수용 실장이 제시한 구체적 사례는 RAG 실패의 전형을 보여준다.

 

1) 실제 사례
– 가전제품 고객지원 AI 사용자가 냉장고 관련 질문을 했는데, AI가 갑자기 TV 관련 답변을 제공한다.
– 질문: “냉장고 온도 조절이 안 돼요”
– AI 답변: “TV 온도를 낮춰보세요”

 

이런 황당한 상황이 발생하는 이유는 벡터 데이터베이스에서 유사도 검색을 할 때, 서로 다른 제품의 매뉴얼에서 “온도 조절”이라는 공통 키워드로 인해 잘못된 맥락이 검색되기 때문이다.

 

2) 문제의 근본 원인
– 맥락 혼재: 서로 다른 제품의 정보가 동일한 벡터 공간에 혼재
– 키워드 중심 검색: 의미적 맥락보다는 단순 키워드 매칭에 의존
– 불충분한 메타데이터: 검색 결과에 적절한 제품 분류 정보 부족
– 후처리 로직 부재: 검색된 정보의 일관성 검증 과정 없음

 

이러한 실패 사례는 RAG 시스템에서 데이터 구조화와 맥락 관리가 얼마나 중요한지를 극명하게 보여준다.

 
 

4. Garbage In, Garbage Out의 법칙

 

“결국 ‘Garbage In, Garbage Out’이라는 말이 딱 맞는 것이 RAG 프로젝트입니다”라는 핵심 통찰은 RAG 성공의 절대 법칙을 제시한다.
GIGO 법칙의 RAG 적용: 아무리 뛰어난 LLM을 사용해도, 입력되는 데이터가 정제되지 않고 맥락이 명확하지 않으면 출력 결과 역시 품질이 떨어질 수밖에 없다.

 

1) 저품질 데이터의 특징들
– 중복 정보: 같은 내용이 여러 형태로 반복됨
– 무관한 내용: 실제 질문과 관련 없는 마케팅 문구나 법적 고지사항
– 구조화 부족: 정보 간의 관계나 우선순위가 불분명
– 맥락 부족: 개별 정보 조각들이 독립적으로 존재하여 전체 그림을 파악하기 어려움

 

2) 고품질 데이터의 조건
– 핵심 정보 추출: 실제 사용자 질문에 답할 수 있는 essential 정보만 선별
– 명확한 맥락: 각 정보가 어떤 상황에서 사용되는지 명확히 정의
– 일관된 구조: 동일한 형식과 스타일로 표준화
– 관계 정의: 정보 간의 연관성과 의존성 명시

 

이 법칙을 따르지 않으면 아무리 많은 데이터와 고성능 하드웨어를 투입해도 만족할 만한 결과를 얻을 수 없다.

 
 

5. 데이터 최종 가공의 실제 사례

 

“RAG의 핵심은 데이터 최종 가공”이라는 개념을 두 가지 구체적 사례로 설명한다.

 

1) 사례 1: PDF 매뉴얼 처리

 

① 문제 상황
– 사용자 매뉴얼 PDF를 그대로 청킹하여 벡터 데이터베이스에 저장하는 경우, 60-70%가 불필요한 내용(미사여구)이다.
– 마케팅 문구: “혁신적인 기술로 만든 최고의 제품”
– 법적 고지사항: “본 제품 사용 시 발생하는 모든 책임은…”
– 회사 소개: “1985년 설립된 우리 회사는…”

 

② 해결 방안
– 매뉴얼에서 실제 사용자 질문에 답할 수 있는 핵심 정보만 추출
– 체크리스트: “전원 연결 → LED 확인 → 설정 메뉴 진입”
– 문제해결 가이드: “A 증상이 나타나면 B 방법으로 해결”
– 조건부 지침: “만약 C 상황이면 D 절차를 따르시오”

 

2) 사례 2: API 데이터 (JSON) 처리

 

① 문제 상황
– 날씨 API에서 받은 구조화된 데이터를 그대로 벡터화
– {“location”: “Seoul”, “temp”: 25, “condition”: “sunny”}
– LLM은 이 key-value 구조의 의미를 제대로 이해하지 못한다.

 

② 해결 방안
– 구조화된 데이터를 자연어 문장으로 변환 후 벡터화
– “2024년 1월 15일 현재, 서울의 날씨는 맑음이며 기온은 섭씨 25도입니다.”
– 이렇게 변환하면 LLM이 시간, 장소, 날씨 상태, 온도 간의 관계를 명확히 이해할 수 있다.

 

3) 데이터 가공의 핵심 원칙
– 의미 중심 구조화: 키워드가 아닌 의미와 맥락 중심으로 데이터 구성
– 자연어 변환: 구조화된 데이터를 인간이 이해하기 쉬운 자연어로 변환
– 불필요 정보 제거: 실제 사용자 질문과 무관한 모든 내용 제거
– 관계 명시: 정보 간의 논리적 관계와 조건을 명확히 표현

 

4) 결론: 성공하는 RAG는 데이터에서 시작된다
RAG 프로젝트의 성패는 모델 선택이나 하드웨어 성능이 아니라 데이터 품질과 처리 방식에 달려 있다.

 

*성공적인 RAG 구축을 위한 핵심 전략
– 데이터 품질 우선: 양보다 질에 집중하여 핵심 정보만 정제
– 맥락 강화: 개별 정보에 충분한 맥락 정보 포함
– 전처리 파이프라인: 원시 데이터를 RAG 최적화된 형태로 변환하는 자동화 시스템 구축
– 지속적 개선: 사용자 피드백을 바탕으로 데이터 품질을 지속적으로 개선

 

“데이터가 많아지니 헛소리하기 시작”하는 현상은 RAG의 한계가 아니라 데이터 처리 방식의 문제다. 올바른 데이터 중심 접근법을 통해 이 문제를 근본적으로 해결할 수 있다.
RAG 기술 자체를 탓하기 전에, 먼저 우리가 AI에게 제공하는 데이터의 품질을 점검해야 한다. 좋은 데이터가 좋은 AI를 만든다는 기본 원칙을 잊지 말자.

 

◼ 전체 잇(IT)터뷰 내용은 ▶영상으로 바로 가기(클릭)◀에서 확인하실 수 있습니다.
◼ 아래 각 목차를 클릭하시면 해당 내용을 영상으로 바로 보실 수 있습니다.
RAG POC 성공에서 실제 서비스 실패까지
RAG가 만능이 아닌 이유
냉장고 질문에 TV 답변하는 AI
Garbage In, Garbage Out의 법칙
데이터 최종 가공의 실제 사례

◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.