AI의 학습 데이터가 많으면 많을수록 성능이 좋아지는 것이 사실일까?14일 IT매체 테크레이더에 따르면 미국의 카네기멜론, 스탠퍼드, 하버드, 프린스턴 대학 연구진은 사전 학습 데이터가 많을수록 성능이 좋아진다는 기존 개념에 의문을 제기했다. 연구진은 2조3000억개의 토큰과 3조개의 토큰으로 학습된 2가지 버전의 OLMo-1B 모델을 비교했다. 그 결과, 더 광범위하게 학습된 모델은 알파카에벌이나 ARC와 같은 벤치마크에서 최대 3% 더 낮은 성능을 보인 것으로 알려졌다. 이러한 성능 저하는 점진적 민감