본문 바로가기
AI | 딥러닝/Concept

[뉴스 스크랩] 점점 커져가는 초거대 NLP AI 모델들의 크기

by 고뭉나무 2022. 3. 15.

초거대 AI 모델

2020년 이전에는 NLP 모델 중에서 거대한 크기의 모델이 없었다. 

CNN 모델에 비하여 파라미터 수가 현저히 낮은 작은 크기의 모델만 존재하였다.

 

그러다 2020년 6월 OpenAI가 'GPT-3'라는 transformer 기반의 NLP 모델을 발표하면서 판을 뒤집었다.

 

 

 

초거대 AI 모델의 의미

모델의 크기가 커진다는 것은 어떤 의미일까? 모델의 크기, 즉, 학습된 신경망의 규모는 신경망이 가진 파라미터(parameter, 매개변수) 수로 측정할 수 있다. 개략적으로 말해서 AI 모델의 파라미터 수가 많을수록 모델이 학습 데이터에서 더 많은 정보를 받아들일 수 있고, 새로운 데이터에 대해서도 더 정확한 예측을 할 수 있다는 의미이다.

 

 

대분류 모델 명 Parameter(매개변수) 수
CNN AlexNet 6,200만 개
NLP GPT-2 175억 개
NLP GPT-3 1,750억 개
NLP Jurassic-1 1,780억 개
NLP Gopher 2,800억 개
NLP Switch-Transformer 1조 2,000억 개
NLP HyperCLOVA 2,040억 개

 

출처: https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

 

 

학습 방법

우선 1,000억 개 이상의 파라미터를 가진 모델을 학습시키는 것은 매우 복잡한 문제이다. 수백 개의 개별적인 GPU들(심층 신경망 학습을 위해 선택된 하드웨어)이 연결되고 통합되어야 하며, 학습 데이터는 반드시 덩어리(chunk)로 분할되어 적절한 때에 올바른 순서로 조합되어야 하기 때문이다.

 

아주 약간의 혁신이 있기는 했다. 일단 학습을 끝내면 구글의 ‘스위치-트랜스포머’와 ‘GLaM’은 예측하는 데 파라미터의 극히 일부만을 사용하는 방식을 통해 컴퓨팅 파워를 절약한다. ‘PCL-Baidu Wenxin’은 구식 AI가 정보를 저장할 때 사용했던 기술인 ‘지식 그래프(Knowledge graph)를 GPT-3 스타일의 모델에 결합했다. 또한 딥마인드가 고퍼와 함께 발표한 ‘RETRO’는 파라미터 수가 70억 개에 불과한 언어모델이지만, 텍스트를 생성할 때 외부 데이터베이스를 함께 사용하기 때문에 크기가 25배나 더 큰 언어모델에 비할 만한 성능을 낼 수 있다. 이러한 방법을 도입한 덕분에 RETRO는 비슷한 성능의 거대언어모델보다 학습에 사용되는 비용도 훨씬 저렴하다.

 

 

문제는,,, 왜 모델 크기가 커지면 성능이 높아지는가?

그러나 이러한 인상적인 결과물들에도 불구하고 연구원들은 여전히 파라미터 수를 늘리면 성능이 높아지는 정확한 이유를 이해하지 못하고 있다. 또한 이러한 언어모델들이 학습하고 반복할 수 있는 혐오 언어나 허위 정보에 관한 문제를 수정할 방법도 아직 찾지 못하고 있다. 

새로운 언어모델 개발에 많은 노력이 투자된 한 해였지만, AI는 여전히 GPT-3의 그림자에 발이 묶여 있는 듯하다. ‘NeurlIPS’ 토론회에서 카플란은 “10년 또는 20년 후에 대형 모델은 표준이 될 것”이라고 밝혔다. 만약 그의 말이 사실이라면 이제는 과학자들이 모델의 크기에만 초점을 맞출 것이 아니라 그러한 모델을 이용해 무엇을 할 수 있을지 생각해봐야 할 것이다.

 

 


https://www.technologyreview.kr/%EC%B4%88%EA%B1%B0%EB%8C%80-ai-%EB%AA%A8%EB%8D%B8%EB%93%A4%EC%9D%B4-%ED%83%84%EC%83%9D%ED%95%9C-2021%EB%85%84/

 

초거대 AI 모델들이 탄생한 2021년 - MIT Technology Review

인간의 언어를 모방하는 오픈AI의 프로그램 GPT-3 출시를 계기로 인공지능 언어모델 시장의 트렌드는 ‘대형화’가 되었다. 많은 대형언어모델이 탄생하고 있는 이 상황에서 AI의 미래는 어떻게

www.technologyreview.kr

 

반응형

댓글