티스토리 뷰

목차



    반응형

    GPT-4는 역사상 가장 큰 실망 이었습니다.

    ChatGPT(GPT-3.5 기반)보다 성능이 우수함에도 불구하고이유, 회사는 의도적으로 모델에 대한 매개 변수 크기나 아키텍처와 같은 구체적인 내용을 공개하지 않기로 결정했습니다.

    하지만, 한 AI 연구원이 최근 GPT-4의 내부 작동에 대해 추측하면서 OpenAI가 이 정보를 숨기기로 선택한 이유를 밝혔습니다. 매우 실망스럽습니다.

     

    모델의 잠재적인 크기에 대해 말하면서, OpenAI의 C.E.O Sam Altman은 "사람들이 실망하기를 간청하고 있으며, 그들은 그럴 것입니다"라고 말했습니다.

    오픈 AI사의 CEO 샘 알트먼

     

    아이너리하게 회사는 출시를 앞두고 렉스 프리드먼이 시작한 루머는수조개의 매개변수를 가지고 있으며 세계에서 가장 좋은 것이 될 것이라고 시사했습니다.

    하지만, 현실은, GPT-4를 GPT-3.5보다 더 좋게 만드는 과정에서 OpenAI가 씹을 수 있는 것보다 더 많이 물어뜯었을 수도 있다는 것입니다.

     

    세계적으로 유명한 해커이자 소프트웨어 엔지니어인 George Hotz는 최근 팟캐스트 에 출연하여 GPT-4의 구조적 특성에 대해 추측했습니다. Hotz는 이 모델이 각각 2200억 개의 매개 변수를 가진 8개의 서로 다른 모델일 수 있다고 말했습니다.이 추측은나중에 PyTorch의 공동 설립자인 Soumith Chintala에 의해 사실로 확인 되었습니다.

     

     때문에 GPT-4의 매개변수 크기는 1조 7600억에 달하지만, 주목할 만한 부분은 이 모든 모델이 동시에 작동하지 않는다는 점입니다. 대신 전문가 아키텍처의 혼합물로 배포됩니다.

    Hotz는 또한 모델이 더 나은 출력을 위해 반복적인 추론 과정에 의존할 수 있다고 추측했습니다.이 과정에서 모델의 출력 또는 추론 결과는 여러 번의 반복을 통해 정제됩니다.

     

    이 방법은 또한 GPT-4가 각 전문가 모델로부터 입력을 받을 수 있도록 하여 환각을 줄일 수 있습니다. Hotz는 이 프로세스가 16번 수행될 수 있으며, 이는 모델의 운영 비용을 크게 증가시킬 것이라고 말했습니다.

     

    세 명의 아이들이 어른으로 가장하는 오래된 무리에 비유

    많은 사람들은 이 접근법을 트렌치코트를 입은 세 명의 아이들이 어른으로 가장하는 오래된 무리에 비유했습니다.

    많은 사람들은 GPT-4를 트렌치 코트의 8GPT-3와 동일시하여 세계의 눈을 속이려고 노력했습니다.

     

     

    GPT-4 모델의 scaling

    모델의 성능과 모델 학습에 들어가는 비용 사이에는 trade-off가 존재하기 마련입니다.

    모델의 크기와 학습 데이터셋의 크기가 커질수록 모델의 loss 값은 감소하는데, 기존 연구들을 통해 정확히는 우하향하는 지수함수의 형태를 띠는 power-law를 따른다는 사실이 알려져 있습니다.

     

    GPT-4의 성능을 본격적으로 이야기하기 전에, OpenAI는 scaling에 관한 내용을 먼저 언급하고 있습니다. scaling 내용이 먼저 나오는 이유는 바로 GPT-4 모델이 아주 크기 때문입니다.

     

    GPT-4의 파라미터 수는 정확하게 밝혀지지 않았지만, GPT-3 모델에 약 1750억 개의 파라미터가 존재한다고 하니 그보다는 훨씬 많을 것이라고 예측됩니다.

     

    이렇게 큰 모델은 튜닝을 한 번 하는 데도 엄청나게 많은 시간과 비용이 들게 되죠. OpenAI가 GPT-4 프로젝트를 진행하면서 중점적으로 생각했던 부분이 바로 scaling이 잘 되는 모델을 구현하는 것이었다고 합니다.

    학습 시간이 GPT-4의 1/1000, 1/10000인 작은 모델의 성능 데이터로도 GPT-4의 성능이 정확하게 예측되도록 하는 것입니다.

    신경계의 조절과 운동 , 네이버 블로그 제공

     

    GPT-4의 성능

    OpenAI가 GPT와 같은 언어 모델을 개발할 때 중요하게 생각하는 목표 중 하나는 더 복잡한 상황에서 자연어 텍스트를 이해하고 생성하는 것이라고 합니다. 그래서 GPT-4의 성능을 테스트하기 위해 선택된 방법은 사람을 위해 만들어진 시험 문제를 풀게 하는 것입니다.

     

    시험 문제들은 객관식과 주관식 문항 모두를 포함하고 있고, 필요한 경우 이미지도 input에 함께 넣었습니다.

    실험에 사용되었던 전문적, 학술적인 시험 대부분에서 GPT-4는 사람과 비슷한 점수를 얻었다고 합니다.

    특히, 미국 변호사 시험에서는 상위 10%의 성적을 기록했다고 합니다.

    이는 하위 10%를 기록했던 ChatGPT보다도 뛰어난 성능입니다.

    온라인 커뮤니티 레딧(Reddit)

    온라인 커뮤니티 레딧(Reddit)에 올라왔던 이미지와 함께 “각각의 사진을 설명하면서,

    이 이미지가 왜 웃긴지 알려줘.”라는 prompt를 입력했습니다.

     

    놀랍게도 GPT-4는 세 개의 이미지가 무엇을 나타내는지 각각 설명하고,

    결국에는 “작은 스마트폰 충전 포트에 (주로 컴퓨터 모니터에 쓰이는) 커다란 VGA 케이블을 연결한 것이 재미있다.”

    라는 이야기를 도출했습니다.

     

    같이 읽으면 좋을 블로그 포스팅입니다.

    https://blog.naver.com/c1ssam-/223136454612

     

    홍진경이 배우는 쳇GPT 와 생성 인공지능 활용 방법을 익혀보자. 7080돈벌기 도전! 알아야 시작한

    액티브시니어가 대한민국의 도약에 절대적인 필요 자원이 되어 버렸다. 대한민국의 현실이다. 우리나라 인...

    blog.naver.com

    문의 : byungjeak@naver.com c1ssam 권시원 시언썜

     

    반응형