|
2023년 11월 처음 공개한 페가수스는 트웰브랩스가 자체 개발한 800억 매개변수(파라미터) 규모의 초거대 영상언어 생성 모델로 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능들을 구현한다.
이번 페가수스-1.2는 비전 인코딩 기술을 끌어올리고 알고리즘 길이를 줄여 모델의 효율성과 이해도를 크게 높였다. 다른 영상 AI 모델들이 대규모 모델 사이즈로 성능을 끌어올리는 방식을 택한 것과 달리 페가수스-1.2는 상대적으로 가벼운 모델 크기로도 뛰어난 성능을 구현했다는 게 특징이다.
특히 GPT-4o와 제미나이 1.5 프로보다 빠른 응답 속도, 더 낮은 비용으로 제공한다고 회사 측은 설명했다.
이승준 트웰브랩스 최고기술개발자(CTO)는 “영상 이해를 위해서는 화면 속 객체들의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악할 수 있는 고도화된 AI 모델이 필요하다”며 “페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다”고 말했다.