데이터의 성질 vs 속성 vs feature (신창호 대표이사 / 아이엠그루)

✔ 잇(IT)터뷰 한 줄 소개

데이터 엔지니어링에서 데이터의 성질, 속성, 그리고 feature에 대한 심층적인 분석과 그 중요성을 전문가의 시각으로 탐구합니다.

 

안녕하세요, 인터뷰를 통해서 전문가의 관점을 쉬우면서도 구체적으로 끌어내는 고우성의 잇(IT)터뷰입니다.
좋은 데이터 분석플랫폼을 만들려면, 먼저 적합한 데이터를 수집, 정제, 저장하는 데이터 엔지니어링이 잘 수행되어야 할 것입니다.
데이터 엔지니어링을 접하다 보면 많이 나오는 단어가 데이터의 속성과 feature인데, 이번 구해줘 Data에서는 아이엠그루신창호 대표가 야구선수 류현진을 예로 들어 쉽게 설명해 드립니다.

 

진행자 : 고우성 PD/토크아이티 (wsko@talkit.tv, https://talkit.tv/)
게스트 : 신창호 대표이사 / 아이엠그루

 


 
 

데이터의 성질, 속성, feature

 

신창호 : 성질이 있고 속성이 있고 본질로 다가가는데요. 일단 기본적인 내용을 먼저 읊어드리면 성질이 100개가 있는데 그중에 이렇게 뭔가 아주 필연적인 것들만 따로 떼어내서 속성이 되는 거죠.

 
데이터의 성질-속성- feature
 
 

그러면 속성과 성질을 갖고 현상화를 해서 본질을 꺼내는 것. 즉, 머릿속에 컨셉처럼 한 것들을 야구선수 류현진 투수로 예를 들어보겠습니다.
류현진 투수를 나타내는 여러 가지 지표나 이제 성질들이 있을 거 아닙니까?
조금 극단적인 얘기긴 하지만 첫 번째, 과거 기록이 있을 수 있어요. 한국 기록이나 미국 기록, 그다음 행동 기록이 있을 수 있죠. 또 투수 기록이나 타자 기록도 있습니다. 류현진 선수가 고등학교 때 타자였으니까요.
그리고 3번에 개인 기록도 있을 수 있습니다. 프로파일이나 병력 같은 것들이요.

 
성질에 대한 원천데이터
 
 

고우성 : ‘담배 피운다’, ‘시합 전에 연습을 많이 안 한다’ 이런 것들요?
신창호 : 네, 그렇습니다. ‘술 마신다’ 이런 것이 다 ‘성질’일 수 있어요.
그중에서 지금 말씀하신 것들은 류현진만 갖는 류현진만의 색깔 같은 것들을 속성으로 볼 수 있는 것입니다.
이제 앞으로 우리가 할 일이 ‘류현진 투수의 메이저리그 연봉을 계산하는 어떤 지표를 나타내겠다.’라고 마음먹으면, 성질은 남기고 속성들을 도드라지게 꺼내는 것입니다. 미국 기록을 꺼내고 투수 기록을 꺼내고 병력을 꺼내서 성질과 속성을 약간 구분할 필요가 있다는 것입니다.
고우성 : 한국에서 고등학교 때의 타율 같은 것은, 사실 지금의 메이저리그 류현진 투수 연봉 테이블 모델을 만들 때는 의미가 없는 거죠?
신창호 : 의미가 없는 거죠. 지금 내가 하려는 일이 뭐냐에 따라서 이런 성질들을 나눌 수 있다는 것입니다.
고우성 : 그러면 류현진의 엔터티에 다양한 성질도 있을 거 아닙니까? 그것이 내가 하려는 목적이 달라지면 성질이 속성이 될 수도 있고, 성질이 성질로 남을 수도 있겠네요?
신창호 : 네, 맞는 말씀입니다.
굉장히 작은 한 줄의 단초가 나중에 결과에 영향을 줄 수도 있지만 지금 이제 저희는 이런 속성화라는 과정을 거쳐서 이렇게 데이터를 나눌 수 있다는 일반론으로 말씀드리고 있는 것입니다.
고우성 : 속성이란 것이, 요즈음 AI에서 Feature라는 말이 많이 나오잖아요. 여기에서 Feature은 어떤 것입니까?
신창호 : 다음 단계 현상화를 위해서 본질로 갈 때 여기 지수가 등장합니다.
고우성 : 그러면 본질이 Feature입니까?
신창호 : 본질은 어떤 하나의 값으로 존재하는 것이 아닙니다. 예를 들어, 류현진 투수에 대해 Feature를 꺼내려면 WAR라는 값으로 ‘대체 선수 대비 승리 기여도’가 있습니다.

 
지수화-파생변수_WAR
 
 

고우성 : 맞아요. 그 말 많이 나오죠.
신창호 : 쉽게 말해서 승리 기여도를 어떤 프로 선수의 가치로 점수화하는 지수를 갖고 있죠
기여도가 사실은 바로 나오는 게 아니고 또 다른 Feature, 10여가지 되는 다른 Feature를 다시 연산한 값이거든요.
방어율, 승수, 자책점이나 이런 것들 역시 현상화가 끝나고 난 다음 본질에 가까운 영역입니다.
즉, 류현진의 가치를 점수화하는 목표를 가진 것 안에서 본질이 될 수 있다는 것이죠.
고우성 : 그래서 방어율, WAR, 승수 등이 본질이고 저것을 구성하는 것이 Feature가 되는 겁니까?
신창호 : 네, 그렇죠.
저런 것은 이제 쓰기에 따라 다른데 만약 방어율, 승수, 자책점을 갖고 내가 다른 지수를 또 만들어내면 이것들이 Feature가 될 수도 있겠죠.
고우성 : 네.
신창호 : Feature를 그냥 쓸 수도 있는 것인데 이게 데이터 쪽으로 오면은 이렇게 딱딱 무 자르듯이 자르기 어려운 부분이 있는데요.
고우성 : 사실, WAR나 자책점 이런 것들은 하나의 추상적인 컨셉이지 않습니까? 레이어니까요.
신창호 : 네, 그렇습니다. ‘일정 숫자가 높은 사람들이 야구를 잘하더라’라는 상관계수를 찾은 거니까요. 좀 극단적이고 좀 틀렸다고 생각하시는 분들도 계시겠지만 ‘속성’을 이해해 주셨으면 하는 것입니다.

 

◼ 이어진 잇(IT)터뷰 내용은 ▼아래 영상▼에서 확인하실 수 있습니다.

 
 

✔ 잇(IT)터뷰 전체 영상 보기

 

잇(IT)터뷰 전체 내용은 아래 영상에서 확인해 주세요!

 

 

① 영상 목차

– 데이터 성질, 속성, feature
– 속성화 vs 현상화

 
 

② 영상 주요 내용

이 영상은 “데이터 엔지니어에게 데이터란 무엇인가? 성질 vs 속성 vs feature”라는 제목으로, 데이터 엔지니어링의 핵심 개념에 대한 심층적인 논의를 담고 있습니다. 아이엠그루의 신창호 대표가 게스트로 참여하여, 데이터의 성질, 속성, 그리고 특징(feature)에 대해 설명합니다.

 

1)데이터의 성질과 속성

데이터의 다양한 성질 중 필연적인 것들만을 추출하여 속성으로 정의합니다. 이는 데이터를 분석하고 이해하는 데 중요한 기준이 됩니다.

 

2) 속성화와 현상화

데이터의 속성을 분석하여 본질을 파악하는 과정을 설명합니다. 이는 데이터를 통해 현실에 영향을 미치는 가치를 찾아내는 데 중요합니다.

 

3) Feature의 중요성

데이터 분석에서 feature는 데이터의 본질을 나타내는 중요한 요소로, 분석의 목적에 따라 다양한 방식으로 활용됩니다.

 

이 영상은 데이터 엔지니어링의 기본 개념을 쉽고 명확하게 설명하며, 실제 사례를 통해 이해를 돕습니다.
데이터의 성질, 속성, 그리고 feature에 대한 구체적인 설명을 제공하여, 데이터 엔지니어링의 복잡한 개념을 이해하기 쉽게 만듭니다.
데이터 엔지니어링의 실제 적용 사례와 그 중요성에 대한 통찰력을 제공합니다.
이 영상은 데이터 엔지니어링에 관심 있는 전문가, 개발자, 데이터 과학자들에게 유용한 정보를 제공하며, 이 분야의 기본 개념을 이해하고자 하는 이들에게 특히 도움이 될 것입니다.

 


 

◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.