국내 인공지능 SW기업 최초로 코스닥에 상장한 솔트룩스가 ‘인공지능(AI) 학습용 데이터 구축’ 및 ‘AI 바우처’ 사업 협약을 완료하여 총 341억원 규모의 디지털 뉴딜 사업 주관 및 참여기업으로 선정됐다.
이 중 솔트룩스 사업비는 총 83억원이다. 솔트룩스는 ‘한국어 방언 AI 데이터’ 사업에 참여한다.
솔트룩스가 15년 이상의 초대규모 학습용 데이터 구축 전문성을 바탕으로 주관사를 맡고 지역언어, 데이터 구축, 품질 검수 등 부문별 전문성을 보유한 16개 기관이 함께 참여하는 컨소시엄으로 사업을 진행한다. 솔트룩스는 이미 국립국어원 음성 구어 수집 및 원시 말뭉치, 일상대화 말뭉치 구축 사업 등을 수행 중이다.
|
정부가 지난 7월 발표한 디지털 뉴딜의 10대 대표과제 중 하나인 ‘데이터 댐’은 디지털 전환을 선도하기 위해 14만여 개 공공데이터를 민간이 활용할 수 있도록 기반을 마련하기 위한 사업이다. 데이터 댐은 ▲인공지능(AI) 학습용 데이터 구축 ▲AI 바우처 ▲AI데이터 가공 바우처 사업 ▲AI 융합 프로젝트(AI+X) ▲클라우드 플래그십 프로젝트 ▲클라우드 이용 바우처 사업 ▲빅데이터 플랫폼 및 센터 구축의 7개 사업으로 구성되어 있다.
솔트룩스는 자회사와 함께 데이터 댐 사업 중 과학기술정보통신부(장관 최기영)와 한국정보화진흥원(원장 문용식, NIA)에서 주최·주관하는 ‘인공지능(AI) 학습용 데이터 구축’ 사업 중 6개 분야에 선정되었다.
주제지정 과제는 ▲자연어 분야 ‘한국어 방언 AI 데이터’(주관, 사업규모 118억원) ▲자연어 분야 ‘한국어-영어 번역 말뭉치 AI 데이터’(참여, 사업규모 25억원) ▲자연어 분야 ‘한국어-중국어/일본어 번역 말뭉치 AI 데이터’(참여, 사업규모 71억원) ▲미디어 분야 ‘영상 콘텐츠 이해 AI 데이터’(참여, 사업규모 69억원)가 있다. 자유 과제는 ▲지역 분야 ‘폐암 예후 예측을 위한 AI 데이터’(참여, 사업규모 22억원) 등이 있다.
회사 측은 이번 사업을 통해 자연어 처리를 위한 다국어 데이터, 전문분야의 데이터 등 인공지능 학습을 위한 고품질의 데이터셋을 확보해 향후 대국민 AI 서비스 발전에 기여하고, 신규 사업기회 창출 등이 기대된다고 밝혔다.
솔트룩스 관계자는 “솔트룩스는 아시아 최대 규모의 지식베이스 등 초대규모 AI 데이터를 꾸준히 구축해 왔으며, 엑소브레인 등 200억 규모 이상의 대형 AI 사업에 대한 수행 경험과 노하우를 보유하고 있다”며 “인공지능 개발에 필수적인 양질의 학습 데이터 구축이 핵심인 만큼 4단계 품질 관리 공정 등 솔트룩스가 보유한 역량을 총동원하여 99.9% 고품질 AI 데이터를 구축하는 데 최선을 다하겠다. 본 사업을 위한 신규채용을 진행하면서 일자리 창출에도 기여할 수 있을 것”이라고 전했다.