ChatGPT 동작 원리, RLHF-인간 피드백 기반 강화학습 (최대우 대표/애자일소다)

“인공지능이라는 그 비즈니스가 굉장히 노동 집약적이면서 자본 집약적인 사업이에요. 그것을 여실히 보여준 것이 ChatGPT입니다.”
진행자 : 고우성 PD/토크아이티 (wsko@talkit.tv, https://talkit.tv/)
게스트 : 최대우 대표/애자일소다 (contact@agilesoda.ai, http://agilesoda.com/)
요즘 여러모로 사람들을 놀라게 하는 대화형 AI, ChatGPT는 도대체 어떻게 만들어졌길래 사람 같이 대화를 하게 되는 것일까요?
ChatGPT를 만든 오픈AI사가 바로 전에 발표했던 초거대 언어모델 GPT 3.0은, 지금 ChatGPT가 보여주는 사람 같은 자연스러운 대화와 경이로운 요약을 보여주지 못했습니다. 그렇다면 무엇이 ChatGPT의 엄청난 진화를 촉발한 것일까요?
저는 막연하게 천재적인 AI 알고리즘으로 한 번에 ChatGPT를 만들었다고 예상했었는데 놀랍게도 엄청나게 많은 사람이 사전에 일일이 인공지능의 답변에 피드백을 주면서 사전 지도를 시켰던 것이 ChatGPT 학습의 핵심이었다고 합니다. 강화학습과 AI 자연어처리 전문 기업인 애자일소다 최대우 대표의 알기 쉬운 설명을 한번 들어보겠습니다.

 

1. ChatGPT를 만든 핵심 방법론 RLHF

최대우 : ChatGPT의 구조를 보면 RLHF입니다. ‘Reinforcement Learning from Human Feedback’ (인간 피드백기반 강화학습)이란 기술을 통해서 튜닝을 한 건데 이게 뭘 의미하냐면, 제너러티브(Generative)하다는 건 어떻게 나올지 모르는 그런 것들을 통제해 주는 거예요.
그러면 GPT3을 기반으로 해서 지금 ChatGPT가 만들어진 건데 그러면 뭐가 달라졌을까 했을 때 그런 휴먼 피드백에 의해서 ‘아, 이런 답변은 말이 돼.’ 그다음에 ‘이건 욕설도 없어.’ 이런 것들을 사람들이 일일이 피드백해서 점수 체계를 만든 거고 그거를 Reward Function화 해서 Reward Function을 사용해서 강화학습을 적용한 게 굉장히 저는 좀 놀라운 기술 중의 하나이지 않았나 생각합니다.
많은 분이 ChatGPT에 있어서 GPT 3을 많이 얘기하시는데 저는 이제 RLHF라는 걸 봤을 때 ‘아, Inference(추론)를 이런 식으로 통제할 수도 있겠구나‘ 이런 생각을 했습니다.
고우성 : 특히 생성에 있어서요?
최대우 : 생성이라는 게 어떻게 튀어나올지 모르는데 어쨌든 RLHF에 의해서 정제하는 작업을 했다는 것은 대단한 것이죠.
고우성 : 말씀하신 것과 같이 사람들이 피드백을 통해 계속해서 정제시킨 거죠. Fine-tuning을 한 건데, 그러면 앞으로도 ChatGPT4, ChatGPT5 이렇게 계속 발전해 나가려면 계속해서 뭔가 사람들의 그런 Interaction을 통한 피드백이 필요하다고 보시는 겁니까?
최대우 : 그래야 하지 않을까 싶어요. 지금은 GPT를 만들고 RLHF로 튜닝하는 과정을 거쳤는데 앞으로 기술이 더욱 발전해서 오픈AI처럼 천재들만 모인 곳에서 이제 그것을 자연스러운 하나의 아키텍처로 구성할 것이라고 생각합니다. 대신 사람의 노력은 더 필요하지 않을까 하는 생각이 듭니다.
고우성 : 엄청 많은 사람이 지금도 ChatGPT로 이것저것 해 보고 있잖아요. 그럼 우리가 ‘그래’, ‘잘했어’라고 입력하는 것도 어떻게 보면 지금 말씀하신 RLHF로 볼 수도 있는 겁니까?
최대우 : 백 데이터로 사용은 하지 않을까 싶어요. 그런데 이제 그러한 피드백은 Reward Function 체계와 맞지는 않을 것 같습니다. 하나의 정성적 평가지표, 이런 것으로는 활용할 수는 있겠죠.
최 대표가 언급한 ‘RLHF(Reinforcement Learning from Human Feedback)’. 인간 피드백 기반의 강화학습이라는 방법론에 대해서 더 알고 싶은 분들은 관련 논문을 알기 쉽게 설명한 내용을 확인하실 수 있습니다. 여기를 클릭하세요!
우리가 알고 있는 알파고도 강화학습으로 사전학습을 했는데 처음에는 인간이 만든 기보*로 학습하다가 나중에 알파고 제로(AlphaGo Zero)는 인간 도움이나 기보 없이 AI끼리 바둑을 두면서 극강의 바둑의 신이 되었습니다.
ChatGPT도 강화학습을 사용한다고 하니까 알파고 제로(AlphaGo Zero)처럼 자기들끼리 서로 대화하면서 급속히 발전할 수는 없을까요? 인간들에 엄청난 사전 피드백 작업이 필요 없이 말입니다.
*기보 : 바둑이나 장기 두는 법을 적은 책

 

2. ChatGPT도 알파고 제로(AlphaGo Zero)처럼 셀프 러닝 가능할까?

최대우 : 게임에서는 제가 ‘된다, 안 된다’ 말씀드리는 것보다 오히려 좀 화두를 던지는 게 나을 거 같은데 알파고 같은 경우는 이기고 지는 것에 대한 판단이 명확하지 않습니까?
고우성 : 아, 바둑의 룰이 확실하니까요.
최대우 : 네, 그러니까 리워드 체계라는 게 명확한 분야에서는 가능할 텐데 예를 들어서 ChatGPT끼리 ‘너희가 얘기해서 누가 잘하나 보자’에 있어서 리워드라는 것은 쉽지 않을 거 같아요.
고우성 : 기준이 너무 제너럴 하네요. 너무 추상적이네요.
최대우 : 그렇죠. 그러니까 ‘둘이 토론해봐. 누가 잘하나 보자.’ 사람도 이게 참 어렵잖아요. 그런 것 때문에 쉽지는 않지 않을까 싶기는 합니다.
고우성 : 제너럴 한 것은 정말 그럴 것 같은데 기업의 특정 도메인 쪽은 가능할 것 같기도 하고요.
최대우 : 기업의 특정 도메인은 지금 말씀하신 것처럼 많은 경우, ‘잘했다, 못했다’는 기준이 있지 않습니까? 그렇기 때문에 지금 통제된 답변을 하는 것은 가능한데 ‘생성’에 중심을 둔 굉장히 복잡하고 거대한 랭귀지 모델까지는 사실 필요하지 않지 않나 싶어요. 거의 2,000억개에 가까운 Parameter를 활용하고 있는 거대 랭귀지 모델까지는 필요 없고요.
그다음에 어떤 비즈니스 목적에 의해서 지금 보유하고 계신 각종 텍스트나 VOC(Voice of Customer) 데이터 이런 것들은 한 1억개 정도의 Parameter를 가지고 있는 언더스탠딩 모델을 기반으로 해서 다음에 다른 Fine-tuning 할 수 있는 모델들을 연결해서 쓰는 게 훨씬 효율적이지 않나 하는 생각이 듭니다.
여러분, 호수에서 우아한 자태를 뽐내는 백조를 보신 적 있으세요? 하지만 백조가 떠 있기 위해서는 수면 아래에서 부지런히 물갈퀴를 움직여야 합니다.
오늘 ChatGPT의 동작 원리를 들어보면서 백조가 연상되지 않으세요?

 

3. AI 기업은 백조

최대우 : 사실 인공지능을 하는 회사들의 똑같은 고민을 가지고 있을 텐데요. 인공지능이라는 그 비즈니스가 굉장히 노동 집약적이면서 자본 집약적인 사업이에요. 그것을 여실히 보여준 것이 ChatGPT입니다.
엄청난 자본이 들어간 RLHF, 즉 휴먼 피드백에 의한 Reinforcement Learning이라는 것을 수행하기 위해서 60억 건의 데이터를 사람으로부터 생성한 거예요.
고우성 : 와….
최대우 : 하하. 그러니깐 그게 보이지 않는 엄청난 사람들의 노력이 여전히 필요합니다. 인공지능 회사는 상당히 비효율적인 비즈니스라는 게 모순이죠.
고우성 : 역설적이네요
최대우 : 역설적이죠. 그래서 저는 항상 생각하는 게 백조? 발아래서… 하하.
▶최대우 대표의 애자일소다와 AI 관련 문의를 하고 싶으신 분들은 메일로 상담 문의를 하실 수 있습니다.
※ 상담 메일 : contact@agilesoda.ai
※ 애자일소다 사이트 : http://agilesoda.com/

영상으로 시청하기!


최대우 대표의 다른 잇(IT)터뷰 글도 클릭해 보세요!
 
챗GPT로 열린 생성AI 시대, 기업 활용 방안 (최대우 대표/애자일소다)
ChatGPT시대, 어떤 사람과 기업에게 유리할까? (최대우 대표/애자일소다)

◼ 콘텐츠 & 웨비나 문의 : marketing@talkit.tv, 02-565-0012
Copyright ⓒ 토크아이티 All rights reserved. 무단 전재 및 재배포 금지.