순천향대 박진혁 교수, 국내 의료분야 면허시험에 챗GPT 적용

작업치료사면허에 챗GPT 적용…"성능검증 성공리 마쳐"
연구 결과, 국제학술지 'Digital Health' 2월호에 게재

등록 2024-03-13 오후 3:50:22

수정 2024-03-13 오후 3:50:22
가 가

[이데일리 김윤정 기자] 순천향대는 최근 박진혁 작업치료학과 교수가 이시안 일반대학원 ICT융합학과 석사과정 학생·허서윤 경복대 작업치료학과 교수와 함께 한국 작업치료사면허 시험 문항에 챗GPT3.5를 적용해 새로운 학습교구 개발에 박차를 가하고 있다고 13일 밝혔다.

박진혁 순천향대 작업치료학과 교수. (사진 제공=순천향대)

거대언어모델은 인간 언어를 이해하고 생성하도록 훈련된 인공지능을 통칭한다. 이중 대표적인 모델로는 챗GPT가 꼽힌다. 특히 챗GPT는 딥러닝 알고리즘과 통계 모델을 통해 자연어 처리에 특화되어 다양한 분야에 적용되고 있다.

최근에는 챗GPT를 다양한 면허 시험에 적용돼 눈길을 끈다. 특히 챗GPT가 생의학 및 임상 과학에 대한 폭 넓은 이해를 요구하는 엄격한 시험인 미국 의사면허 시험에서 90% 이상의 높은 점수를 기록해, AI를 활용한 학습교구가 의학 개념을 이해하고 적용하는 데 있어 큰 역할을 수행할 수 있는 점을 확인했다.

이처럼 챗GPT를 필두로 한 거대언어모델을 의료분야 내에서 활용할 수 있는 방안에 대해 활발한 연구가 진행되고 있지만, 국내 의료분야의 면허 시험에 챗GPT를 활용한 사례는 극히 제한적이었다.

박진혁 교수 연구팀은 한국보건의료인국가시험원에서 공개한 최근 5개년도의 한국 작업치료사면허 시험 문항(2018~2022년)에 챗GPT3.5를 적용하여 그 성능을 확인했다. 챗GPT3.5에 5개년도의 시험 문항을 한글 그대로 입력하였고 국시원에서 공개한 정답과 비교해 챗GPT의 성능을 확인한 것이다.

그 결과 면허 시험 합격 기준인 정확도 60%는 달성하지 못했지만, 문화권에 영향을 받는 의료법규 관련 문항을 제외한 전공 지식 관련 문항에 대해서는 합격권을 넘는 정확도를 보여주었다. 또한, 세 명의 평가자가 기록한 챗GPT의 정답의 일치도가 높아 신뢰도가 높음을 확인했다.

교신저자인 박진혁 교수는 “아직 챗GPT를 비롯한 거대언어모델의 학습 데이터가 대부분 영어 중심의 문화권에 기초하고 있어 한국 작업치료사면허 시험 문항에 적용하는 것은 제약이 있다”면서도 “문화권에 영향을 받지 않는 전공 지식의 경우 충분히 높은 정확도와 함께 신뢰도를 보여줘 작업치료를 전공하는 학생들이 챗GPT를 학습의 도구로써 활용할 수 있는 점을 확인했다”고 말했다.

이번 연구 결과는 최근 ‘한국 작업치료사면허 시험에서의 ChatGPT의 성능’이라는 제목으로 국제학술지 Digital Health (IF: 3.9, Health Policy & Service 분야 Q1, 2022 JCR 기준) 2월호에 게재됐다.