본문 바로가기
재테크/경제

ChatGPT 성능, 얼마나 똑똑할까? (GPT-4와 GPT-3.5 비교)

by 룸코너백수 2023. 4. 28.
반응형

 

실제 시험에서 ChatGPT의 성능 시각화하기
OpenAI가 개발한 언어 모델인 ChatGPT는 다양한 상황에서 사람과 유사한 반응을 생성하는 능력으로 인해 지난 한 해 동안 엄청난 인기를 얻었습니다.

실제로 ChatGPT는 매우 유능해져서 학생들이 숙제를 도와주는 데 사용할 정도입니다. 이로 인해 미국의 여러 교육구에서는 네트워크에 있는 동안 이 모델에 액세스하는 기기를 차단했습니다.

그렇다면 ChatGPT는 얼마나 스마트할까요?

2023년 3월 27일에 발표된 기술 보고서에서 OpenAI는 GPT-4로 알려진 가장 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 일련의 테스트 결과가 포함되어 있으며, 위 그래픽에 시각화되어 있습니다.

GPT-4와 GPT-3.5 비교
ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학업 시험의 시뮬레이션 테스트를 실행했습니다. 여기에는 SAT, 변호사 시험, 다양한 AP(Advanced Placement) 파이널이 포함됩니다.

성능은 각 시험 유형별 응시자의 가장 최근 점수 분포를 기반으로 백분위수로 측정되었습니다.

백분위 점수는 다른 응시자의 성적과 비교하여 자신의 성적을 평가하는 방식입니다. 예를 들어, 시험에서 60번째 백분위수에 속했다면 응시자의 60%보다 높은 점수를 받았다는 의미입니다.

다음 표에는 그래픽으로 시각화한 결과가 나와 있습니다.

 

위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 보다 포괄적인 결과는 OpenAI의 기술 보고서를 참조하세요.

 

보시다시피, GPT-4(2023년 3월 출시)는 대부분의 시험에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 뛰어난 능력을 발휘합니다. 그러나 AP 영어와 경쟁 프로그램에서는 개선되지 못했습니다.

AP 영어(및 서면 답변이 필요한 기타 시험)의 경우, ChatGPT의 제출물은 "관련 업무 경험이 있는 1-2명의 자격을 갖춘 외부 계약자가 해당 에세이를 채점"하여 채점했습니다. ChatGPT가 적절한 에세이를 작성할 수 있는 것은 분명하지만, 시험의 프롬프트를 이해하는 데 어려움을 겪었을 수 있습니다.

경쟁 프로그래밍의 경우, GPT는 10개의 코드포스 대회에 각각 100회씩 도전했습니다. 코드포스는 참가자들이 복잡한 문제를 풀어야 하는 경쟁 프로그래밍 경연 대회입니다. GPT-4의 코드포스 평균 등급은 392점(5백분위수 미만)이며, 단일 대회에서 가장 높은 등급은 약 1,300점이었습니다. 코드포스 평점 페이지를 참조하면, 최고 점수를 받은 사용자는 3,841점을 받은 중국 출신의 jiangly입니다.

GPT-4에서는 무엇이 달라졌나요?
다음은 GPT-4가 GPT-3.5에 비해 사용자 경험을 개선한 몇 가지 영역입니다.

인터넷 액세스 및 플러그인
GPT-3.5는 인터넷에 액세스할 수 없고 2021년 6월까지의 데이터에 대해서만 학습이 이루어졌다는 점이 제한적이었습니다.

GPT-4를 통해 사용자는 인터넷에 액세스하고, 더 최신의 응답을 제공하고, 더 다양한 작업을 완료할 수 있는 다양한 플러그인에 액세스할 수 있게 됩니다. 여기에는 Expedia와 같은 서비스에서 제공하는 타사 플러그인이 포함되며, 이를 통해 ChatGPT는 사용자의 휴가 전체를 예약할 수 있습니다.

시각적 입력
GPT-3.5는 텍스트 입력만 가능했지만, GPT-4는 이미지도 분석할 수 있습니다. 사용자는 ChatGPT에게 사진 설명, 차트 분석, 심지어 밈 설명까지 요청할 수 있습니다.

더 길어진 컨텍스트 길이
마지막으로, GPT-4는 훨씬 더 많은 양의 텍스트를 처리할 수 있으며 대화를 더 오래 지속할 수 있습니다. 참고로, GPT-3.5의 최대 요청 값은 4,096토큰으로 약 3,000단어에 해당합니다. GPT-4에는 8,192 토큰(6,000단어)과 32,768 토큰(24,000단어)의 두 가지 변형이 있습니다.

 

자료 출처: VisualCapitalist, "How Smart is ChatGPT?"

반응형

댓글