엔씨, 고려대와 개발한 AI 대화 데이터셋 공개

  • 등록 2022-04-14 오후 4:28:17

    수정 2022-04-14 오후 4:28:17

‘포커스 데이터셋’ 대화 참고 이미지. (사진=엔씨)
[이데일리 김정유 기자] 엔씨소프트(036570)(이하 엔씨)는 고려대학교 임희석 교수 연구팀과 공동연구를 통해 구축한 인공지능(AI) 대화 데이터 ‘포커스 데이터셋’(FoCus Dataset·For Customized conversation dataset)을 공개했다고 14일 밝혔다.

‘포커스 데이터셋’은 사용자 개인의 페르소나와 외부 지식을 모두 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000개의 광범위한 주제를 다룬 1만5000개 이상의 대화로 구성됐다.

‘포커스 데이터셋’을 적용한 AI는 대화하고 있는 사용자 경험, 선호, 소유, 흥미 등을 파악하고 위키피디아에서 이야기 주제에 대한 최신 지식을 실시간으로 습득해 자연스러운 대화가 가능하다.

특히 ‘포커스 데이터셋’은 초거대 언어 모델을 사용하지 않고도 같은 성능의 대화 기술 구현이 가능한 것이 특징이다. 현재 일반적인 대용량 언어모델은 학습과 추론에 많은 비용이 소요됨에도 불구하고, 실시간 지식과 개인의 경험을 반영하는데 한계를 나타내고 있다.

공동연구팀은 지난 2월 세계 최고 권위의 인공지능학회 ‘AAAI 2022’에서 해당 연구 논문을 발표했다. 오는 10월에는 세계 전산언어학회인 ‘COLING 2022’에서 데이터 활용 경진 대회를 비롯한 연구 성과를 공유하는 워크샵도 고려대와 공동 개최한다.

이연수 엔씨 랭귀지 AI랩 실장은 “최근 NLP 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술들이 제안되고 있다”며 “이런 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했고, 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지기를 기대한다”고 말했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 이런 모습 처음이야!
  • 이제야 웃는 민희진
  • 나락간 '트바로티' 김호중
  • 디올 그 자체
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved