<잇(IT)터뷰 전체 영상 보기>
잇(IT)터뷰 전체 내용은 ▼아래 영상▼에서 확인해 주세요!
◼ 게스트 : 오세진 대표 / (주)텐
◼ 진행자 : 고우성 PD / 토크아이티 (wsko@talkit.tv, https://talkit.tv/)
영상 목차
◼ 아래 각 목차를 클릭하시면 해당 내용을 영상으로 바로 보실 수 있습니다.
✔ AI인프라 사이징 이슈
✔ AI 인프라 사이징 테스트 베드
✔ AI 인프라 사이징 컨설팅
✔ AI 시스템 엔지니어 구인
<잇(IT)터뷰 – 핵심 내용 파악하기>
‘잇(IT)터뷰 – 핵심 내용 파악하기’는 영상의 핵심 내용을 정리한 글입니다.
|
이번 잇(IT)터뷰는 AI 인프라 구축 시 가장 중요하면서도 어려운 사이징 작업에 대한 전문적 접근법을 다룹니다. 일반 IT 인프라보다 훨씬 복잡한 AI 인프라의 체계적인 사전 사이징 작업의 필요성과 방법론을 제시합니다.
수십억 원 규모의 AI 인프라 테스트베드를 구축하여 실제 환경과 유사한 조건에서 사전 검증을 수행하는 텐의 독특한 접근법을 소개합니다. 예산 낭비와 성능 병목을 사전에 방지하는 과학적 방법론을 확인할 수 있습니다.
1. AI인프라 사이징 이슈
AI 인프라 구축에서 가장 큰 문제는 사전 사이징 없이 구축했다가 예산을 모두 소진한 후에야 성능 문제를 발견하는 것이다. 많은 기업들이 “살려달라”고 찾아올 정도로 심각한 상황에 직면한다. 대부분의 병목은 네트워크나 스토리지 패브릭에서 발생하지만, 사용자들은 단순히 “느리다”는 증상만 인식할 뿐 정확한 원인을 파악하지 못한다.
특히 여러 사용자가 동시에 스토리지를 사용하는 환경에서는 병목 지점을 찾기가 더욱 어렵다. 추가 예산이 확보되어도 어느 부분에 투자해야 가장 효과적인지에 대한 명확한 가이드라인이 없어 또다시 비효율적인 투자를 반복하게 된다.
2. AI 인프라 사이징 테스트 베드
텐은 스타트업임에도 불구하고 전략적으로 수십억 원 규모의 AI 인프라 테스트베드를 구축했다. 이는 고객사의 테스트를 위한 장비이면서 동시에 자사의 R&D 장비로 활용되는 이중 목적을 가진다. 아리스타에서 출시한 ROCm용 400G 스위치같은 최신 장비들의 성능을 검증하고, 고객들이 쉽게 활용할 수 있는 방법을 연구한다.
DGX, A100 등 다양한 GPU 자원과 여러 종류의 스토리지를 보유하고 있으며, 이더넷과 인피니밴드 100G/200G/400G 등 다양한 네트워크 구성을 테스트할 수 있는 환경을 갖추고 있다. 이러한 테스트베드에서 실제 워크로드를 돌려보면 GPU, CPU, 네트워크, 스토리지 전반에 걸친 모든 지표가 도출된다.
3. AI 인프라 사이징 컨설팅
실제 컨설팅 사례로 딥시크 모델 인퍼런스를 예로 들면, 인터토큰 레이턴시(토큰당 생성 시간)에 따라 필요한 인프라 구성이 완전히 달라진다. 50ms 응답시간을 목표로 할 때 L40S가 시간당 10,000토큰으로 가장 높은 처리량을 보이며 가성비 면에서 최적이다.
만약 고객의 실제 트래픽 요구사항이 시간당 6,000토큰이라면 값비싼 H100이나 A100 대신 A40으로도 충분히 서비스할 수 있다. 반대로 20ms의 빠른 응답이 필요한 대화형 서비스라면 H100이나 A100을 선택해야 한다. 이처럼 직관적인 그래프를 통해 성능과 비용을 모두 고려한 최적의 하드웨어 선택이 가능하다.
4. 체계적인 컨설팅 방법론
텐의 컨설팅은 학습과 운영 목적에 따른 체계적인 체크리스트로 시작된다. 고객의 목표를 파악한 후 초기 서베이를 진행하고, 이를 기반으로 테스트 기간과 범위를 산정한다. 테스트 과정은 자동화되어 있어 일관성 있고 객관적인 결과를 도출할 수 있다. 특정 벤더의 편향된 관점이 아닌 중립적 시각에서 과학적이고 객관적인 분석을 제공한다는 점이 큰 차별화 요소다.
GPU만 고려하는 것이 아니라 CPU, 네트워크, 스토리지를 포함한 전체적인 관점에서 통합 컨설팅을 제공한다. 빠르게 변화하는 AI 인프라 기술 트렌드를 지속적으로 추적하여 최신 정보를 반영한 컨설팅을 제공한다.
5. AI 시스템 엔지니어 구인
텐은 국내에서 AI 인프라 관련 연구를 가장 잘하는 기업 중 하나라고 자부하며, 이를 뒷받침할 전문 인력을 적극 채용하고 있다. 인프라 구성부터 스토리지, 네트워크까지 전반적인 지식을 가진 시스템 엔지니어를 찾고 있으며, 쿠버네티스에 대한 이해도가 있는 분들을 특히 선호한다.
앞서 보여준 성능 분석 그래프들이 모두 R&D 팀의 연구 결과물이며, 성능 최적화, GPU 분할 기술, 하드웨어 연구 등 다양한 영역에서 지속적인 연구를 수행하고 있다. 잘 구축된 연구 인프라와 환경에서 의미 있는 AI 인프라 연구를 함께 수행할 수 있는 기회를 제공한다.
◼ 전체 잇(IT)터뷰 내용은 ▶영상으로 바로 가기(클릭)◀에서 확인하실 수 있습니다.
|
◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.