인공지능 대 인간: 어느 쪽이 특정 기술을 더 잘 수행할까?
ChatGPT의 폭발적인 성장과 함께 AI는 특히 독해, 음성 인식, 이미지 식별과 같은 전통적인 인간 능력의 보루에서 대중에게 그 존재감을 드러내고 있습니다.
실제로 위의 차트를 보면 AI가 상당수 영역에서 인간의 성능을 뛰어넘었으며, 다른 영역에서도 인간을 추월할 것으로 보입니다.
성능 테스트 방법
컨텍스트 AI의 데이터를 사용하여 AI 모델이 데이터베이스 벤치마크를 얼마나 빨리 뛰어넘기 시작했는지, 그리고 아직 인간의 기술 수준에 도달하지 못했는지 여부를 시각화합니다.
각 데이터베이스는 필기 인식, 언어 이해 또는 독해와 같은 특정 기술을 중심으로 고안되었으며, 각 백분율 점수는 다음 벤치마크와 대조됩니다:
0% 또는 "최대 성능 기준선"
이는 데이터 세트 생성 시점에 AI가 가장 잘 알려진 성능과 동일합니다.
100%
이 마크는 데이터 세트에 대한 인간의 성능과 동일합니다.
이 두 지점 사이에 척도를 만들어 각 데이터 세트에서 AI 모델의 진행 상황을 추적할 수 있습니다. 선의 각 점은 최상의 결과를 의미하며, 선이 위로 올라갈수록 AI 모델은 점점 더 인간의 성과와 일치하는 것에 가까워집니다.
아래는 8개 기술 모두에서 AI가 인간의 성과와 일치하기 시작한 시점을 나타낸 표입니다.
이 차트에서 주목할 점은 2010년 이후 얼마나 많은 진전이 있었는가 하는 점입니다. 사실 이러한 데이터베이스 중 상당수(예: SQuAD, GLUE, HellaSwag)는 2015년 이전에는 존재하지 않았던 데이터베이스입니다.
벤치마크가 쓸모없어짐에 따라 일부 최신 데이터베이스는 새롭고 관련성 있는 데이터 포인트로 지속적으로 업데이트되고 있습니다. 그렇기 때문에 AI 모델은 아직 일부 영역(초등학교 수학 및 코드 생성)에서 인간의 성능을 기술적으로 따라잡지 못했지만, 계속 발전하고 있습니다.
AI가 인간을 능가하는 이유는 무엇일까요?
그렇다면 지난 몇 년 동안 AI의 능력이 이처럼 빠르게 성장할 수 있었던 이유는 무엇일까요?
컴퓨팅 성능, 데이터 가용성, 더 나은 알고리즘의 혁명 덕분에 AI 모델은 10년 전에 비해 더 빨라지고, 학습할 데이터 세트가 더 커졌으며, 효율성에 최적화되었습니다.
그렇기 때문에 표준화된 테스트에서 AI 언어 모델이 인간의 성능과 일치하거나 능가한다는 헤드기사가 자주 등장합니다. 사실 AI 개발자가 직면한 주요 문제는 모델이 테스트를 위해 고안된 벤치마크 데이터베이스를 계속 능가하지만 실제 테스트에서는 여전히 실패한다는 것입니다.
향후 몇 년 동안 더 많은 컴퓨팅 및 알고리즘 개선이 예상되므로 이러한 빠른 발전은 계속될 것입니다. 그러나 AI 발전의 다음 잠재적 걸림돌은 AI 자체가 아니라 모델을 학습시킬 데이터의 부족일 수 있습니다.
자료 출처: Visual Capitalist, "AI vs. Humans: Which Performs Certain Skills Better?"
댓글