한국어 학습량 0.016%…우리 인공지능이 중요한 이유

ETRI 지능화융합연구소 온라인 행사 네이버 기조연설
타 언어권 초대규모 AI 한계…한국어 학습량 떨어져
네이버 하이퍼클로바, 97% 이상 한국어 데이터 활용
코딩 필요없는 AI로…서울대·카이스트 산학협력 강화
  • 등록 2021-11-15 오후 5:45:19

    수정 2021-11-15 오후 5:45:19

‘ETRI 지능화융합연구소 디지털 테크위크 2021’ 온라인 행사 갈무리
[이데일리 이대호 기자] 지난 2016년, 이세돌 9단과 맞붙은 구글 딥마인드 ‘알파고’가 전 사회적으로 인공지능(AI)의 발전상을 일깨웠다면, 4년 뒤 전문가 그룹인 학계와 산업계에서도 상당한 반향을 일으킨 사건이 발생했다. 일론 머스크 등이 설립에 참여한 오픈AI 연구소의 초대규모(또는 초거대) AI ‘GPT-3’의 등장이다.

초대규모 AI는 사람 뇌 신경전달물질인 뉴런에 비유할 수 있는 매개변수(파라미터)를 큰 폭으로 늘린 것이 특징이다. GPT-3는 전 세대의 100억개에서 17배 이상인 1750억개로 매개변수를 늘렸다. 이런 GPT-3가 영화 대본이나 시를 쓰는 등 기존 AI가 불가능하다고 여긴 분야에서도 뛰어난 성능을 보이자, 학계와 산업계가 충격에 빠졌다. 이후 이름을 알만한 정보통신기술(ICT) 기업들은 모두 초대규모 AI 개발에 뛰어들었다고 봐도 과언이 아니다. 국내에선 네이버와 카카오는 물론 통신 3사, LG전자 등이 학계와 손잡고 연구 중이다. 이 중 선두 기업은 네이버다. 국내 기업 최초로 초대규모 AI ‘하이퍼클로바’를 상용화했다.

15일 하정우 네이버 AI랩실 연구소장은 한국전자통신연구원(ETRI·에트리)이 개최한 ‘ETRI 지능화융합연구소 디지털 테크위크 2021’ 온라인 행사를 통해 “막강한 AI 기술을 AI 주권 수호 측면에서도 보고 있다”고 말했다.

이는 GPT-3가 학습한 한글 데이터가 0.016% 비중에 불과하기 때문이다. 아무리 뛰어난 AI 모델이라도 학습량 자체가 적으면 결과물 품질이나 활용성이 떨어지기 마련이다. 고유 언어를 가진 한국어 데이터 기반의 AI가 중요한 이유다. 하 소장은 “네이버 자체적으로 보유한 최대한의 데이터를 법적인 문제가 없게끔 활용했다”며 “97% 이상 한국어 데이터로 훈련했다”고 강조했다.

AI 연구는 매년 강화 중이다. AI 기술력을 평가하는 척도 중 하나가 세계 최고 수준의 학술대회에서 얼마나 논문을 발표하는지가 있다. 네이버는 지난해 43건, 올해 9월까지 66건 논문을 발표했다. 하 소장은 “국내에선 비교할 기업이 없고 학교나 AI 대학원에 버금가는 수치”라며 “특히 네이버는 실제 서비스에도 적용이 됐다는 게 의미가 있다”고 자신감을 보였다.

현재 하이퍼클로바는 ‘노 코드(No code) AI’ 방향으로 가는 중이다. 개발자 없이 기획자가 자유롭게 AI를 활용할 수 있도록 사용자환경(UI)을 구축했다. AI가 ‘완내스(완전 내 스타일의 줄임말) 자켓’ ‘댕냥이(강아지와 고양이를 일컫는 신조어)와 함께하는’ 등 상품 기획전 제목을 추천하는 기능도 구현했다. 하 소장은 제목 채택과 관련해 “노출 적합도에서 99% 채택률을 보이고 있다”고 전했다.

초대규모 AI의 약점도 언급했다. △기억력이 짧고 △AI 모델이 커서 한번 만에 학습이 어렵고 △문법적으로 잘 쓰지만, 여전히 내용에서 틀린 점이 보이고 △데이터 편향성이 AI 모델의 편향성으로 이어지는 등 개선점이 남았다는 게 하 소장 설명이다.

하 소장은 “혼자선 힘들다. 학교와 산업이 가진 리소스가 달라 서울대, 카이스트와 연구센터를 만들어 겸임교수로 가서 학생들과 함께 풀어나가고 있다”며 “미국과 중국이 잘하고 앞서있지만, 네이버가 기술 리더십을 만들어나가겠다”고 힘줘 말했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 미모가 더 빛나
  • 빠빠 빨간맛~♬
  • 이부진, 장미란과 '호호'
  • 홈런 신기록
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved