엔비디아 생성형 AI 클라우드 서비스 DGX Cloud 사용설명서(정구형 이사/엔비디아)

인터뷰를 통해서 전문가의 관점을 쉬우면서도 구체적으로 끌어내는 고우성의 잇(IT)터뷰입니다.
엔비디아의 최대 컨퍼런스인 GTC2023 키노트에서 엔비디아의 젠슨 황 CEO는 왜 지금을 ‘AI의 아이폰 시대’라고 했을까요?
한국의 개별 기업들이 자신만의 생성형 AI를 비즈니스에 활용하는 것을 엔비디아가 어떻게 클라우드로 애자일하게 도와줄 수 있는지를 엔비디아의 정구형 이사와 함께 쉬우면서도 구체적으로 알아보겠습니다.
앞으로 펼쳐질 생성형 AI의 각축장에서 엔비디아는 오픈AI, 구글, 마이크로소프트와는 어떤 차별점을 갖고 포지셔닝할까를 생각하면서 보시면 더 흥미로울 것 같습니다.

 

진행자 : 고우성 PD/토크아이티 (wsko@talkit.tv, https://talkit.tv/)
게스트 : 정구형 이사/엔비디아

 

1. AI의 아이폰, 생성형 AI

정구형 : AI의 아이폰과 같은 순간이 ‘바로 지금 이 순간이다’라고 말씀을 하셨는데 아이폰이 나왔던, 이 세상에 스마트폰이 처음 나왔던 것은 아마도 나중에 역사책에 쓰이지 않겠습니까?
고우성 : 맞아요.
정구형 : AI시대, ChatGPT가 등장하고 생성 AI가 나오는 것도 이 정도의 임팩트로 역사책에 쓰일 정도의 순간이 아니겠느냐 하는 이야기인 것 같습니다.
고우성 : 저도 아이폰을 좀 늦게 쓴 것 같아요. 제 기억에 2009년인가? 그때 처음 샀는데요. 와, 그 ‘사용자 경험!’. 그전에는 애플을 전혀 안 썼거든요. 하하. 제가 그때 그 느낌을 잊을 수가 없어요.
사실 알파고 때도 AI가 있었지만 그냥 ‘와, 바둑을 이겨 이세돌을 이겼어!’ 그 정도였지 나와는 아무 상관 없는 것처럼 느꼈습니다. 그렇지 않나요? 그런데 이제 ChatGPT가 나오면서 지금은 많은 분 직접 해봤을 것입니다. 즉 이게 ‘사용자 경험 차이’ 때문인가요?
정구형 : 알파고가 한 3층 정도의 파도였다면, 지금 이 파도는 거의 아파트 한 12층 정도를 지금 걷고 있다고 볼 수 있습니다. 물론 거품일 수도 있고 이게 가라앉을 수도 있겠지만, 지금 이 순간은 그렇게 높은 파도가 일고 있고 많은 기업이 그 파도를 타려고 하는 상황입니다. ‘어떻게 하면 잘 탈 수 있을까’를 고민하는 시기인 것 같습니다

 

얼마 전까지 AI는 스마트하게 패턴을 인식하는 데 주로 사용되고 있는데 이제는 보다 능동적으로 아웃풋을 만들어 내는 생성형 AI로 진화하고 있습니다.

 

2. 생성형 AI란?

정구형 : AI의 웨이브를 1.0과 2.0으로 구분 짓는다면 1.0의 AI의 웨이브는 ‘AI가 뭔가를 판단하는 것’입니다.
고우성 : 아, 인식하는 겁니까? 예를 들어, ‘고양이냐, 아니냐?’
정구형 : 네, ‘저 사람이 마스크를 쓴 사람이냐, 아니냐?’, ‘O냐, X냐?’처럼 답을 판단하는 건데 지금은 말 그대로 ‘뭔가를 만드는 것’입니다.
고우성 : 액션을 취하는 것 말입니까?
정구형 : 내가 어떤 한 문장을 주면 열 문장을 내뱉고, 열 문장을 주면 한 문장으로 요약한다거나 뭔가 이제는 ‘무(無)에 있는 백지에 뭔가가 쓰이는 것’입니다. 내가 판단을 하는 게 아니라는 것이죠.
고우성 : 네, 이해했습니다.
정구형 : 그래서 이제 그다음 AI 웨이브가 바로 ‘Generative AI, 생성형 AI’입니다.
고우성 : 생성하니까 훨씬 더 우리가 느낄 수 있는 것 같아요. ‘어? AI가 이런 것까지 해?’ 이렇게 느낄 수 있는 것 같습니다. 이제 현실이라는 것을 체감하는 것이죠.
정구형 : ChatGPT를 쓰면 제가 표현한 것처럼 백지상태에서 ‘Job description에 어떤 사람을 뽑아야 해. 써 줘’라고 입력하면 답변이 나오잖아요. 그것도 하나하나 쓰이는 것이 애니메이션처럼 보이게하는 방법을 가져가고 있고, 텍스트뿐만 아니라 텍스트 이미지, 텍스트 비디오도 이제 나오고 있습니다.
무(無)에서 유(有)가 계속 창조되는 일을 경험하고 있어서 저도 신기하게 바라보고 있습니다.

 

여러분 회사에서 지금 ChatGPT를 만든 오픈AI와 유사한 인프라를 세팅한다고 생각해 보십시오. 생성형 AI를 만들어서 비즈니스에 활용하려면 엄청난 자본, 인력, 시간이 소요될 것입니다. 이 문제를 풀기 위해 엔비디아는 그동안 축적한 GPU클러스터, 거대언어모델, AI 서비스들을 융합시켜 생성형 AI 클라우드 서비스를 오픈하였는데 엔비디아가 Full managed service를 제공하는 것이 특이했습니다.

 

3. 생성형 AI 개발을 도와주는 엔비디아 클라우드 서비스

정구형 : 이미지의 왼쪽과 오른쪽을 비교해서 저는 두 가지를 말씀드리고 싶어요.

NVIDIA DGX CLOUD 특징

하나는 소프트웨어, 다른 하나는 AI 전문가의 지원입니다. 이 두 가지가 지금 타 CSP가 가진 GPU 인스턴스와 차별점이고요. 서두에서 말씀드려야 될 부분은, 그렇다고 저희가 지금 이 밑에 보이는 글로벌 CSP나 로컬 CSP와 등을 지고 서로 경쟁 관계는 전혀 아닙니다.
이 DGX Cloud도 이미 존재하고 있는 CSP 위에 생성형 AI 소프트웨어 스택이 얹어지는 것이고, 이것을 엔비디아가 잘 포장해서 고객에게 판매하게 되는 상품이 되겠습니다. NVIDIA AI Enterprise를 따로 소개해 드릴 기회가 있겠지만 이 라지 랭귀지 모델을 학습하기 위해서는 특히나 멀티플한 노드로 학습하기 위해서는 엔비디아의 NEMO Framework와 같은 보다 특별한 딥러닝 프레임워크와 소프트웨어 스택이 필요한데 그걸 저희가 사전에 DGX Cloud 인스턴스에 다 올려놓았습니다.
고우성 : PaaS(Platform as a Service)처럼요?
정구형 : 맞습니다. 정확히 PD님께서 말씀해주셨는데 이건 사실 IaaS(Infrastructure as a Service)보다는 PaaS(Platform as a Service)라고 저희도 내부적으로 이해하고 말씀드리고 있습니다.
그래서 그런 소프트웨어 그리고 NVIDIA AI Enterprise 라이선스가 이 비용 안에 다 들어가 있기 때문에 어떤 소프트웨어적인 문제, 애플리케이션의 최적화 같은 분야에서도 포털에 질문을 올리시면 저희 AI 전문가가 답을 해 드립니다. 결과적으로 10개 인스턴스를 3개월 쓰신다고 했을 때 그 기간 동안 원하시는 학습을 끝까지 성공하실 수 있도록 저희가 사람과 소프트웨어 다 도움을 드린다고 보시면 되겠습니다. 그리고 이 경우, 다른 CSP랑 과금 체계도 좀 다릅니다.
저희는 ‘분’도 아니고 ‘시간’도 아니고 ‘월’입니다. 왜냐하면 이 워크로드 자체가 긴 시간 동안 계속 돌아야 하는 것이기 때문에 ‘월’ 단위로 청구하고 GPU 여덟 개가 하나의 인스턴스 단위가 되겠습니다.
고우성 : 그러면 엔비디아 DGX Cloud를 밑에 보면 Azure, OCI(Oracle Cloud Infrastructure), Google Cloud가 있지 않습니까? CSP가 이것을 서비스하는 겁니까? 아니면 엔비디아가 이것도 서비스하는 겁니까?
정구형 : 일단 DGX Cloud는 엔비디아가 고객을 대상으로 판매하고 고객을 대상으로 저희가 전면에서 서비스하는 거고요. 고객은 DGX Cloud가 사실 어디 위에 있는지 아시기도 힘들뿐더러, 고객 입장에서는 중요하지도 않은 개념입니다.
고우성 : 그렇다면 이 엔비디아의 DGX 클라우드는 저 3개 회사 CSP 어딘가에 있게 되는 겁니까?
정구형 : 지금 오늘 버전(2023년 4월)으로는 북미와 영국의 Oracle Cloud(OCI) 위에 저희가 올려놨고요. 이미 그 원래 Early Access, 라이트하우스 어카운트고객 등 분들이 여기에 들어와 계십니다.
GCP(Google 클라우드)나 마이크로소프트 애저는 향후 계획에 있습니다.
고우성 : 네.

 

엔비디아의 생성형 AI 매니지드 클라우드 서비스인 DGX 클라우드(DGX Cloud)를 제일 먼저 이용할 기업들은 아마도 자체 데이터에 대한 보안성을 유지하면서 초기에 적은 투자비로 생성형 AI를 활용하고 싶은 기업일 것입니다. 온프레미스에서 초거대 언어모델 인프라를 구현하는데 몇십억원이 들어가는 리스크를 최소화하면서 빠르게 생성형 AI를 테스트해 볼 수 있기 때문입니다.

 

4. 자기만의 생성형 AI를 개발, 활용하고 싶은 기업

정구형 : 지금까지는 ‘우리 회사만의 어떤 데이터가 있고 이걸 추가 학습하고 싶은데, 한국어 기반 모델이 내가 보유하고 있지 않아. 그랬는데 내가 DGX Cloud 보니까 월 과금이고 한 2개월 동안 몇십대를 돌릴 어느 정도 예산이 있어 어느 그 정도 슈퍼컴까지는 아니지만, 그 정도의 예산은 있고 내가 데이터를 보유하고 있는 채로 나만의 파운데이션 모델을 내가 소유하고 싶다 타사가 가진 모델에 빌려서 거기에 데이터를 주고 거기서 Fine-tuning을 해오는 이런 걸 하고 싶지 않고 자산, 보안 등의 이슈도 사실 요즘 많습니다
고우성 : 나만의 한국어 모델을 만들고자 하는 기업들이요? 그런데 보안 측면인 것도 중요하고요?
정구형 : 사실 ‘보안’이 키워드입니다. 구체적인 언급은 할 수 없지만 데이터 자체가 우리나라 안에 머물러야 하는 건 당연하고 아예 역내를 바꿔나갈 수 없는 특허와 관련된 것도 해당합니다. 그다음 그 회사만 가진 지적재산, 예를 들어서 제조나 우리나라 반도체 회사의 정보는 국가가 정한 국가기밀 정보입니다. 이런 것들을 다른 회사에 전달해서 Fine-tuning을 시켜달라고 하기에는 좀 부담스럽습니다.
고우성 : 그렇죠.
정구형 : 이것을 AI 파운데이션스라는 곳에 인프런스용으로 데이터를 갖다 붙이기에도 좀 부담스러워서 ‘이건 무조건 역내에서 AI 파운데이션 기반 모델부터 우리가 소유해야 하겠다’는 고객분들이 아마 그 데이터의 민감도에 따라 분명히 계실 겁니다.

 

엔비디아의 생성형 AI 매니지드 클라우드 서비스가 부담인 기업들은 API를 활용하는 생성형 AI SaaS 서비스를 라이트하게 이용할 수 있습니다. API를 사용하는 만큼만 비용이 들어가니까요.
초거대 언어모델 매개변수 개수도 ChatGPT처럼 몇천억 개가 아닌 몇십억 개의 라이트한 생성형 AI를 사용할 수 있는 것입니다.

 

5. SaaS AI Foundations >> NeMo API 이용

정구형 : 지금 소개해 드릴 내용은 DGX 클라우드(DGX Cloud) 보다는 소프트웨어 성격이 좀 더 강한 거의 SaaS 기반 서비스입니다. 이 SaaS 기반의 서비스를 엔비디아 AI Foundations라고 칭했는데,
그중 두 가지 서비스에 대해서 알아보도록 하겠습니다.
NVIDIA NeMo 서비스는 사실 작년 가을에 GTC2022에서 이미 발표했어요. 그런데 이번에 조금 더 추가된 부분을 설명해 드리면 일단 왼쪽에 보시는 것처럼 Playground라고 해서 국내에 있는 AI 개발자분들이 일단 와서 이미 학습이 완료된 자연어 처리모델을 가지고 좀 노실 수가 있습니다.
NGC라고 하는 포털에 들어오셔서 내가 어떤 권한을 듣겠다며 로그인하면, 지금 여기 보시는 것처럼 세 가지의 이미 잘 학습이 완료된 기반 모델(GPT5B, GPT20B, GPT530B)을 선택할 수 있습니다.

 

NVIDIA NeMo 서비스1

 

고우성 : 저 5B, 20B, 530B, 여기서 B는 10억개잖아요. 저게 매개 변수 숫자입니까?
정구형 : 맞습니다. ‘파라미터 수’입니다.
고우성 : 50억, 200억 5300억개인 거네요?
정구형 : 네, 맞습니다. ‘20 billion, 530 billion, 5 billion’을 말합니다. 그래서 이 파라미터에 따른 모델을 내가 정한 다음에 내가 어떤 Use Case를 하고 싶은지, 이메일을 써주는 건지 요약인지를 정한 후, 실제 어떤 메시지를 쓰고 ‘이거에 대한 이메일을 생성해 줘’라고 Generate 버튼을 누르면 이제 생성하게 됩니다. 실제 추론을 경험할 수 있는 Playground가 첫 번째 단계입니다.
NVIDIA NeMo 서비스는 어떤 고객들한테 적합할지 생각해 봤을 때, 스타트업이나 SMB(Small Medium Business, 중소기업) 계열의 고객분들이 자사의 모바일 앱을 만들고 싶어 하는 경우가 많을 것입니다.
이 고객들은 아래와 같이 요청할 것입니다.
“기반 모델까지 내가 학습할 여력도 없고 관심도 없다. 학습이 잘 완료된 기반 모델이 있으면 나는 그 API로 내 앱을 만들게.
그때 사용자가 내 앱에 들어와서 어떤 인풋을 넣으면 나는 그것을 당신들이 잘 만들어 놓은 그 엔진에 그냥 보낼게. 그러면 NeMo 서비스가 갖고 있는 아까 그 GPT 계열의 모델 중 학습이 완료된 모델 하나가 인풋을 받아서 결과물을 주면, 나는 그것을 받아서 내 창에 보여주고 사용자는 ‘아, 이렇구나’ 라는 할 수 있는 것이 필요해”
그래서 이런 애플리케이션을 만들고 있는 회사가 NeMo 서비스를 이용할 수 있지 않을까 하는 생각이 들었습니다.
고우성 : 그렇다면 말씀하신 그런 스타트업들이 NeMo API를 많이 활용하겠네요.
정구형 : 네, 맞습니다. 예를 들어 제가 이 Playground에서 어떤 추론을 했어요. 그다음 View Code 버튼을 클릭하면 코드를 볼 수 있습니다.

 

NVIDIA NeMo 서비스2

 

‘지금 당신이 추론한 이 행위는 어느 호스트에 있는 엔진을 가져다 쓰신 것이고요.
당신께서 당신이 애플리케이션을 이 API 그대로 가져다가 쓰고 싶을 경우에는 여기를 클릭하게 되면 그 API 주소와 호출하는 API를 가져다 쓰실 수 있습니다.’
이렇게 기재된 부분을 보실 수 있습니다. 오른쪽에 Copy Code 버튼까지 있는 것을 보실 수 있습니다.
지금 설명해 드린 부분이 바로 NeMo 서비스를 활용하는 사례 중 윗부분이 되겠습니다.
이미 학습이 완료된 기반 모델을 내가 추론을 통해서 그냥 API만 가져다가 쓰는 그런 경우가 되겠습니다.

 

NVIDIA NeMo 서비스3


이후 내용은 아래▼ 영상을 통해 확인하실 수 있습니다.


◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.