AI 대가 앤드루 응(Andrew Ng)이 말하는 ‘PDF는 새로운 AI 금광’인 이유

<잇(IT)터뷰 전체 영상 보기>

잇(IT)터뷰 전체 내용은 ▼아래 영상▼에서 확인해 주세요!
제작 : 고우성 PD / 토크아이티 (wsko@talkit.tv, https://talkit.tv/)

 
 

영상 목차

 

◼ 아래 각 목차를 클릭하시면 해당 내용을 영상으로 바로 보실 수 있습니다.
비정형 데이터의 시대: PDF가 새로운 금광
비용보다 중요한 건, 진짜 필요한 기능
자신의 데이터 레이어를 소유하라

 


<잇(IT)터뷰 – 핵심 내용 파악하기>

‘잇(IT)터뷰 – 핵심 내용 파악하기’는 영상의 핵심 내용을 정리한 글입니다.
영상 내용을 정리된 글로 확인해 보세요!
더 많은 내용이 궁금하시다면 페이지 상단의 영상이나 하단 영상 링크를 클릭하여 확인해 주세요!
이번 잇(IT)터뷰는 AI 분야의 최고 권위자 Andrew Ng(앤드루 응)이 Snowflake 이벤트에서 제시한 기업 AI 전략을 분석합니다. Google Brain 창립자이자 수많은 AI 스타트업을 키운 그의 경험을 바탕으로, 현재 AI 붐 속에서 기업이 취해야 할 세 가지 핵심 전략을 제시합니다.
과대광고를 넘어 실질적인 AI 구현을 위한 조언으로, 비정형 데이터 특히 PDF 파일의 가치, 초기 단계에서의 제품-시장 적합성 우선순위, 그리고 급변하는 AI 시장에서 유연성을 확보하기 위한 데이터 레이어 소유 전략을 다룹니다.

 
 

1. 비정형 데이터의 숨겨진 보물 – PDF

 

앤드류 응 교수는 “기업에 숨어있는 가장 가치 있는 비정형 데이터는 PDF 파일”이라고 단언한다.
20년의 투자 방향 전환: 지난 20년간 기업은 구조화된 데이터(SQL 데이터베이스)를 정리하는 데 막대한 투자를 했다. 이제 다음 기회는 비정형 데이터에서 AI로 가치를 추출하는 것이다.

 

*왜 PDF인가?
– 재무 테이블: 회계 보고서, 감사 자료
– 의료 양식: 환자 기록, 진단서
– 계약서: 법률 문서, 조항 분석
– 기술 문서: 매뉴얼, 사양서

 

이러한 PDF들은 그동안 “다크 데이터”로 방치되어 왔다. 읽기는 쉽지만 기계가 처리하기 어려운 형식이었기 때문이다.
Agentic Document Extraction: 앤드류 응 교수는 Dan Maloney의 방법론을 언급하며, AI 에이전트를 활용하여 대량의 PDF에서 효과적으로 데이터를 추출하는 기법을 소개했다. 이제 AI는 PDF의 표, 텍스트, 레이아웃을 이해하고 구조화된 데이터로 변환할 수 있다.

 
 

2. 제품-시장 적합성(PMF)이 비용보다 우선이다

 

초기 단계 AI 스타트업들이 가장 많이 하는 실수는 GPU나 API 비용을 먼저 걱정하는 것이다.
앤드류 응 교수의 명확한 메시지: “가장 큰 도전은 고객이 사랑하는 제품을 만드는 것이지, 비용이 아니다.”

 

*우선순위의 재정
– 1순위: 사람들이 실제로 사용할 제품 만들기
– 2순위: 비용 최적화는 나중 문제

 

“좋은 문제” 역설: “비용이 급증하는 것은 훌륭한 문제다. 왜냐하면 그것은 높은 사용량을 의미하기 때문이다.”
아무도 사용하지 않는 저렴한 서비스보다, 많은 사람이 사용하여 비용이 증가하는 서비스가 훨씬 좋은 상황이다. 전자는 실존적 위기이고, 후자는 엔지니어링으로 해결할 수 있는 문제다.
실무 적용: 제품 개발 초기에는 최신 고성능 모델을 사용하여 최고의 사용자 경험을 만들어라. PMF를 확보한 후, 사용량이 증가하면 그때 비용 최적화를 시작해도 늦지 않다.

 
 

3. 데이터 레이어 소유권으로 유연성 확보

 

AI 시장은 빠르게 변한다. 오늘의 최고 모델이 내일은 구식이 될 수 있다. 이런 환경에서 생존하려면 선택권(Optionality)이 필요하다.
SaaS 사일로의 위험: 많은 SaaS 벤더가 “클라우드 안의 상자(Box in a Cloud)”를 만들어 기업 내부에 사일로를 형성한다. 벤더 종속(Vendor Lock-in)에 빠지면 새로운 기술이 나와도 전환할 수 없다.
앤드류 응 교수의 전략적 조언: 자신의 데이터 레이어를 직접 소유하고, 벤더는 그 데이터 위에서 작동하도록 고용하라. 이렇게 하면 기술이 발전하거나 더 나은 모델이 나타날 때 쉽게 전환할 수 있다.

 

*구체적 아키텍처
– 데이터 스토리지: 자체 소유 (Snowflake, S3, 자체 데이터센터 등)
– 처리 레이어: 교체 가능한 벤더 서비스
– 모델 선택: 언제든 변경 가능한 구조

 

Downstream Model Optionality: 기저의 LLM을 변경해도 전체 애플리케이션이 무너지지 않도록 시스템을 설계하라. 이것이 진정한 유연성이다.

 

◼ 전체 잇(IT)터뷰 내용은 ▶영상으로 바로 가기(클릭)◀에서 확인하실 수 있습니다.
◼ 아래 각 목차를 클릭하시면 해당 내용을 영상으로 바로 보실 수 있습니다.
비정형 데이터의 시대: PDF가 새로운 금광
비용보다 중요한 건, 진짜 필요한 기능
자신의 데이터 레이어를 소유하라

◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.