데이터분석 플랫폼으로서 하둡(Hadoop)의 한계 (이석진 전무/시앤지원)

 

“하둡(Hadoop)은 이제 어떤 데이터 분석 플랫폼이라는 성격보다는 점차 데이터 레이크, 데이터를 아카이빙하는 용도로 사용하고 있습니다.”

 

진행자 : 고우성 PD/토크아이티 (wsko@talkit.tv, https://talkit.tv/)
게스트 : 이석진 전무/시앤지원 (sales@cngone.co.kr, https://cngone.clickn.co.kr/)

 

인터뷰를 통해서 전문가의 관점을 쉬우면서도 구체적으로 끌어내는 고우성의 잇(IT)터뷰입니다.
10년 전만 하더라도 빅데이터 분석이라 하면, 하둡(Hadoop)이 대명사처럼 업계에서 회자되었고 많은 기업이 하둡(Hadoop)을 도입했습니다. 하지만 지금은 하둡(Hadoop)이 데이터 분석보다는 데이터 레이크*형 저장소로 전환 사용되고 있는 상황입니다.
데이터 분석 전문기업 ‘시앤지원’의 이석진 전무와 함께 하둡(Hadoop)이 데이터 분석 플랫폼으로서 어떤 이슈가 있는지를 알아보겠습니다. 무엇보다 먼저 하둡(Hadoop)이 10년 전에 왜 그렇게 주목을 받게되었는지 이유를 살펴보겠습니다.
*데이터 레이크: 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소

 
 

1. 과거 정형데이터 위주 분석이었던 하둡(Hadoop)

 

이석진 : 과거에는 당연히 분석계, 그다음에는 DW(Data Warehouse)부터 시작했죠.
모든 소스가 있는 요소로부터 데이터를 받아 놓고 그 안에서 마트를 구성했습니다. 이를 분석한 후 시각화해서 UI를 분석한다든지, 인사이트를 발견한다든지 이렇게 했었죠.
그 당시에는 정형화되어 있는 데이터들을 주로 가져다 썼고 분석했었습니다.

 

과거 하둡은 정형데이터 위주 분석
정형데이터 위주 분석이었던 하둡(Hadoop)

 

한 8년, 9년 전부터 빅데이터가 대단히 큰 화두가 되기 시작했습니다.
실질적인 고객분들이 문의하기 시작했습니다.

‘이게 뭐예요? 비정형 데이터, 반정형 데이터를 한번 가져다 분석해보면 더 좋은 인사이트가 나오지 않을까요?’
그래서 Data Warehouse에 가지고 오기 시작했는데 이제 그때부터 이제 고객들의 고민이 시작된 거예요
고우성 : 왜요?
이석진 : 그전에는 정형데이터를 DW에서 분석할 수 있고, 어떤 기능이나 툴을 제공했었습니다. 그런데 반정형 데이터와 비정형 데이터가 DW로 들어오니 이걸 어떻게 분석해야 할지에 대한 고민이 생긴 것입니다.
초창기에 하둡(Hadoop)이 나왔을 때는 정말 큰 센세이션한 제품이었습니다. 빅데이터에 관심이 많았던 고객분들이 대체로 하둡(Hadoop) 도입을 급하게 서둘렀고 저희도 거기에 맞춰서 하둡(Hadoop) 제품을 공급하기 시작했어요. 고객분들이 써 보니까 처음엔 굉장히 좋았단 말이죠. 성능도 좋고 또 원하는 또 성과도 나왔으니까요.
고우성 : 분산 저장할 수 있다는 컨셉도 정말 획기적이었잖아요?
이석진 : 네. 그런데 시간이 지나 보니까 이제 하둡(Hadoop)의 문제점들이 조금 나오기 시작했고, 이를 보완하는 솔루션들이 또 공급되기 시작했고요.
하둡(Hadoop)은 이제 어떤 데이터 분석 플랫폼이라는 성격보다는 점차 데이터 레이크, 데이터를 아카이빙하는 용도로 사용하고 있습니다. 저희가 주력하고 있는 제품과 상호보완적인 그런 제품으로 지금 활용이 되고 있습니다

 

기업이 하둡(Hadoop)을 도입했는데도 데이터 분석 플랫폼으로 활성화가 안 되는 가장 큰 이유는 복잡한 하둡(Hadoop) 오픈소스 생태계를 지속해서 관리 운영할 전문 인력의 부재였을 것입니다.

 
 

2. 전문 인력 부재로 인한 하둡(Hadoop)의 한계

 

이석진 : 하둡(Hadoop)을 써보니까 구축 비용도 꽤 들어가고 라이선스비용도 들어가고 유지보수 비용도 꽤 들어갑니다. 더욱이 고객들이 운영해야 하고 개발해서 뭔가 분석을 해야 하는데, 이게 만만치 않다는 거죠.
고우성 : 하둡(Hadoop) 오픈소스잖아요. 그런데 왜 구축 비용이 많이 들어가죠?
이석진 : 구축 그 자체가 비용이 많이 들어가는 건 아니고요. 구축하고 난 다음에 비용이 많이 들어갑니다. 하둡(Hadoop)은 대단히 많은 에코 시스템들로 구성이 되어 있거든요.

 

하둡 Hadoop 에코시스템
하둡(Hadoop) 에코시스템

 

오픈소스도 마찬가지고요. 오픈소스는 더군다나 설치하기가 굉장히 복잡해요. 에코 시스템들은….상용은 그나마 조금 패키지화 되어 있긴 한데 그 안에 에코시스템만 30여개예요.
이것을 다 설치해주는 것도 쉽지 않을뿐더러 고객분들도 모르니까 뭘 가져다 써야 할지 선택하기가 쉽지 않습니다. 그러다 보니 그냥 기본적으로도 다 설치해서 쓰고 계시는데, 뭔가 하나가 문제 생기면 연쇄적으로 문제가 발생합니다. 그런데 이 문제점 찾기도 쉽지 않은 거죠.
고우성 : 나중에 보면, 덕지덕지 붙어 있겠네요.
이석진 : 네, 덕지덕지 붙고, 유지보수하기도 너무 힘들게 되는 것입니다.
운영하는 사람 입장에서는 이게 도대체 뭔지 좀 생소하죠.
‘나는 잘 모르는데.’
‘이것도 공부해야 하는데.’
‘나 지금 업무 처리하기도 바쁜데.’
생소하고 복잡하고 운영하기가 어렵고 그러다 보니 전체적으로 비용이 많이 들어가는 거죠.
고우성 : TCO(Total Cost of Ownership)가 많아지겠네요.
이석진 : 네. TCO가 갈수록 많아집니다.
하둡(Hadoop)이 처음에는 조금 센세이션 했지만 어느 정도 시점이 지나니까 TCO가 점점 안 좋아지는 형태가 되는 것입니다.

 

하둡(Hadoop)의 기업사용 활성화를 저하한 두 번째 원인은 다양한 대내외 데이터 연동과 분석을 위한 개발의 복잡성이었습니다.

 
 

3. 연계/통합의 어려움과 개발의 복잡성

 

이석진 : 하둡(Hadoop)이 운영하는 분들이나 개발하는 분들에게 어려웠던 이유 중 하나가 내부와 외부 시스템과의 연계/통합이 참 쉽지 않다는 것입니다.

 

하둡 Hadoop 문제점 - 연계통합 어려움
하둡(Hadoop) 문제점 – 연계/통합 어려움

 

연계/통합하려면 결국 인터페이스, API 이런 것도 개발해야 하거든요. 또 개발하면 운영해야 하고, 유지보수를 해야 합니다. 계속 이렇게 관리 포인트가 자꾸 늘어나는 거예요.
그러니까 이런 외부 시스템과 연계 자체도 어렵고 운영 유지하기가 쉽지 않았던 것이 바로 하둡(Hadoop)의 문제점이었던 것 같습니다.
고우성 : 데이터 분석이란 것이 태생적으로 외부에 있는 데이터들하고 연동을 해야 하는 것 아닙니까?
이런 관점에서 하둡(Hadoop) 자체도 생소한데 외부 데이터와 연동하려니까 더 힘든 거였네요.
이석진 : 그렇죠. 하둡(Hadoop)의 경우, 고객분들이 매우 어려워하면서 비용면에서도 비효율적이고 TCO가 이제 계속 늘어났던 부분이 ‘개발/분석’이에요.
개발하는 분들이 데이터를 가져와 자바 툴을 쓰는 건 동일하지만 그 맵리듀스(MapReduce)라는 새로운 알고리즘을 적용해서 개발하는 것은 쉽지 않거든요. 게다가 개발한 것을 또 유지보수, 운영을 해야 하고, 개발 비용이 굉장히 많이 들어가고, 분석 비용도 많이 들어가고, 또 쉽지 않고. 이런 상황이죠.

 

하둡 Hadoop 문제점 - 개발분석 어려움_비용 높음
하둡 (Hadoop) 문제점 – 개발/분석 어려움, 비용 높음

 

고우성 : 지금 말씀 들어보니까, 하둡(Hadoop) 초기에 오픈소스니까 돈도 안 들이고 바로 활용하겠지만 쓰면 쓸수록 인건비도 엄청나게 많이 들어가겠어요
이석진 : 분석가 한번 모시는데, 일반 개발자들의 두 배 이상 인건비를 달라고 하는 분들도 많이 있어요.
고우성 : 개발한 다음에 유지보수를 해야 하는데 정작 외주 개발자가 어디에 있는지 모르면 나중에 또 골치 아프겠네요.
이석진 : 네, 유지가 안 되는 거죠.

 


 

지금까지 알아본 하둡(Hadoop)의 한계로 인해 기업들은 하둡(Hadoop)보다 쉽고 빠른 그린플럼 데이터 분석 플랫폼을 사용하기 시작하였습니다. 자세한 내용은 ★‘데이터분석 플랫폼 무엇을 체크해야 하나?’★을 클릭하시면 확인하실 수 있습니다.

 

하둡(Hadoop) 및 그린플럼 관련 문의를 하고 싶으신 분들은 아래 메일로 상담 문의를 하실 수 있습니다.
※ 상담 메일 : sales@cngone.co.kr
※ 시앤지원 홈페이지 : https://cngone.clickn.co.kr/

 


영상으로 시청하기!

 


 

◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.