ChatGPT 성능, 얼마나 똑똑할까? (GPT-4와 GPT-3.5 비교)

실제 시험에서 ChatGPT의 성능 시각화하기
OpenAI가 개발한 언어 모델인 ChatGPT는 다양한 상황에서 사람과 유사한 반응을 생성하는 능력으로 인해 지난 한 해 동안 엄청난 인기를 얻었습니다.

실제로 ChatGPT는 매우 유능해져서 학생들이 숙제를 도와주는 데 사용할 정도입니다. 이로 인해 미국의 여러 교육구에서는 네트워크에 있는 동안 이 모델에 액세스하는 기기를 차단했습니다.

그렇다면 ChatGPT는 얼마나 스마트할까요?

2023년 3월 27일에 발표된 기술 보고서에서 OpenAI는 GPT-4로 알려진 가장 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 일련의 테스트 결과가 포함되어 있으며, 위 그래픽에 시각화되어 있습니다.

GPT-4와 GPT-3.5 비교
ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학업 시험의 시뮬레이션 테스트를 실행했습니다. 여기에는 SAT, 변호사 시험, 다양한 AP(Advanced Placement) 파이널이 포함됩니다.

성능은 각 시험 유형별 응시자의 가장 최근 점수 분포를 기반으로 백분위수로 측정되었습니다.

백분위 점수는 다른 응시자의 성적과 비교하여 자신의 성적을 평가하는 방식입니다. 예를 들어, 시험에서 60번째 백분위수에 속했다면 응시자의 60%보다 높은 점수를 받았다는 의미입니다.

다음 표에는 그래픽으로 시각화한 결과가 나와 있습니다.

위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 보다 포괄적인 결과는 OpenAI의 기술 보고서를 참조하세요.

보시다시피, GPT-4(2023년 3월 출시)는 대부분의 시험에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 뛰어난 능력을 발휘합니다. 그러나 AP 영어와 경쟁 프로그램에서는 개선되지 못했습니다.

AP 영어(및 서면 답변이 필요한 기타 시험)의 경우, ChatGPT의 제출물은 "관련 업무 경험이 있는 1-2명의 자격을 갖춘 외부 계약자가 해당 에세이를 채점"하여 채점했습니다. ChatGPT가 적절한 에세이를 작성할 수 있는 것은 분명하지만, 시험의 프롬프트를 이해하는 데 어려움을 겪었을 수 있습니다.

경쟁 프로그래밍의 경우, GPT는 10개의 코드포스 대회에 각각 100회씩 도전했습니다. 코드포스는 참가자들이 복잡한 문제를 풀어야 하는 경쟁 프로그래밍 경연 대회입니다. GPT-4의 코드포스 평균 등급은 392점(5백분위수 미만)이며, 단일 대회에서 가장 높은 등급은 약 1,300점이었습니다. 코드포스 평점 페이지를 참조하면, 최고 점수를 받은 사용자는 3,841점을 받은 중국 출신의 jiangly입니다.

GPT-4에서는 무엇이 달라졌나요?
다음은 GPT-4가 GPT-3.5에 비해 사용자 경험을 개선한 몇 가지 영역입니다.

인터넷 액세스 및 플러그인
GPT-3.5는 인터넷에 액세스할 수 없고 2021년 6월까지의 데이터에 대해서만 학습이 이루어졌다는 점이 제한적이었습니다.

GPT-4를 통해 사용자는 인터넷에 액세스하고, 더 최신의 응답을 제공하고, 더 다양한 작업을 완료할 수 있는 다양한 플러그인에 액세스할 수 있게 됩니다. 여기에는 Expedia와 같은 서비스에서 제공하는 타사 플러그인이 포함되며, 이를 통해 ChatGPT는 사용자의 휴가 전체를 예약할 수 있습니다.

시각적 입력
GPT-3.5는 텍스트 입력만 가능했지만, GPT-4는 이미지도 분석할 수 있습니다. 사용자는 ChatGPT에게 사진 설명, 차트 분석, 심지어 밈 설명까지 요청할 수 있습니다.

더 길어진 컨텍스트 길이
마지막으로, GPT-4는 훨씬 더 많은 양의 텍스트를 처리할 수 있으며 대화를 더 오래 지속할 수 있습니다. 참고로, GPT-3.5의 최대 요청 값은 4,096토큰으로 약 3,000단어에 해당합니다. GPT-4에는 8,192 토큰(6,000단어)과 32,768 토큰(24,000단어)의 두 가지 변형이 있습니다.

자료 출처: VisualCapitalist, "How Smart is ChatGPT?"

저작자표시 비영리 변경금지

'재테크 > 경제' 카테고리의 다른 글

미국의 디폴트 가능성 (5)	2023.05.01
집 가격의 근본적인 문제 (5)	2023.04.30
가장 비싼 팀, 가장 비싼 구단, 가장 비싼 스포츠팀은? (6)	2023.04.27
특허가 가장 많은 국가는? 특허 강국은 어디? (1)	2023.04.25
항공사 브랜드 순위, 10대 항공사 브랜드 (1위 델타항공) (6)	2023.04.23