|
앞서 연구팀은 수능 수학 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했다.
논술 문제는 국내 10개 대학 기출 문제와 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.
한국 모델로는 업스테이지의 ‘솔라 프로-2’, LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’ SK텔레콤[017670]의 ‘A.X 4.0(72B)’ 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’를 활용했다.
그 결과 해외 모델은 76~92점을 기록한 반면 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했다. 심지어 국내 모델인 라마 바르코 8B 인스트럭트는 2점을 받았다.
연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했다.
여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.
세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 유일하게 만점을 받았으며 나머지 해외 모델은 90점을 기록했다.
한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했으며 나머지 국내 모델인 HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.
김 교수는 “수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다”며 “국나 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 말했다.
연구팀은 각 팀의 새로운 국가대표 AI 버전이 공개되면 자체 개발 문제를 활용해 성능을 재평가할 계획이다.





![[포토]서대문역사거리, 시내버스 이탈 사고](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011600738t.jpg)
![[포토] 제주 달코미 양배추 공동구매](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011600575t.jpg)


![[포토]한국은행, 통화정책방향 기자간담회 열려](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500831t.jpg)
![[포토]국민의힘, 본회의 앞두고 의원총회](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500820t.jpg)
![[포토]지지자들 깜작 등장에 감격한 서영교 더불어민주당 의원](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500756t.jpg)
![[포토]더불어민주당 정책조정회의](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500738t.jpg)
![[포토]국민의힘, 최고위원회의 열려](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500598t.jpg)
![[포토]한은 금통위, 5연속 기준금리 동결 결정…2.5% 유지](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/01/PS26011500559t.jpg)

!["'꿈의 5000피' 고지가 눈앞이다"…매일이 대기록 새역사[마감]](https://image.edaily.co.kr/images/vision/files/NP/S/2026/01/PS26011601056h.jpg)
