|
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 개발했다.
연구팀이 개발한 첫 번째 기술인 ‘콜라보(CoLLaVO)’는 현존 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 낮은 이유를 이미지 이해 능력이 떨어진다는 것에서 찾았다.
|
시각적 지시 조정 단계에서 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각·언어 업무 처리 능력을 서로 다른 측정지표로 학습해 서로 간 정보를 잃지 않게 만드는 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’도 제안했다.
노용만 교수는 “이번에 개발한 공개형 멀티모달 대형언어모델이 ‘허깅페이스 일간 화제의 논문’에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다”며 “모든 모델을 공개형 대형언어모델로 출시했기 때문에 앞으로 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.
한편, 콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 국제 학회 ‘인공지능언어학회(ACL Findings) 2024’에 지난 달 16일자로 학회에 승인받았다. 모아이(MoAI)는 컴퓨터 비전 국제 학회인 ‘유럽 컴퓨터 비전 학회 2024’ 승인을 앞두고 있다.