이데일리

  • 뉴스레터 신청
  • FAMILY SITE



“한글 빅데이터 서비스 마중물”..NIA, 형태소 사전 개방

입력시간 | 2017.02.21 16:19 | 김현아 기자  chaos@edaily.co.kr

기자의 다른 기사보기

신조어와 전문용어를 포함, 93만 단어가 수록된 형태소 사전 제공
스타트업의 다양한 인공지능서비스 활용 기대
[이데일리 김현아 기자]
“한글 빅데이터 서비스 마중물”..NIA, 형태소 사전 개방
▲빅데이터 분석을 위한 형태소 사전/분석기 적용 개념도
“한글 빅데이터 서비스 마중물”..NIA, 형태소 사전 개방
▲NIADic 도입 효과
한국정보화진흥원(원장 서병조, NIA)이 한글 텍스트 분석의 핵심요소인 형태소 사전을 제작해 개방한다.

스타트업의 한글 텍스트 분석 및 활용을 돕고 빅데이터 관련 서비스 개발을 지원하기 위해서다.

형태소는 ‘일정한 뜻(의미)을 가진 가장작은 말의단위’로 한글 텍스트 분석을 통해 다양한 의미를 추출하기 위해서는 형태소별 품사를 구분하여 작성한 형태소 사전이 필수다.

국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전은 “NIADic”이란 이름을 갖는다.

기존의 세종Dic(9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가하여 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.

현재까지는 오픈소스 기반의 KoNLP(한글 자연어 분석 패키지)의 세종사전(Sejong Dic)을 통해 텍스트 분석을 수행해 왔으나 단어수와 신조어가 부족하여 새로운 형태소 사전 제작에대한 요구가 있었다.

NIA는 형태소사전을 빅데이터센터(www.kbig.kr)를 통해 공개하고, 중소기업, 연구자, 일반인 등이 쉽게 분석·활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지KoNLP의 기초사전으로 제공한다.

빅데이터센터 권영일 센터장은‘형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것’이라고 밝혔다.

NIADic은 공개소프트웨어 커뮤니티에 오픈소스로 개방돼 통계분석도구 및 분석기 사용자들이 자율적으로 업데이트 해서 쓸 수 있다.

저작자와 출처 등을 표시하면 영리목적의 이용이나 변경, 2차적 저작물 작성을 포함하여 상업적 활용이 가능하기 때문에 향후 한글 빅데이터 분석 분야의 연구가 보다 활발해 질 것으로 기대된다. XML:Y

독자의견

오픈 로그인계정을 선택해 로그인 해 주세요.
이데일리 계정 또는 소셜 계정으로 로그인하시면
의견을 작성하실 수 있습니다.

  • 이데일리
  • 네이버
  • 페이스북
  • 트위터
  • 구글
  • 카카오스토리
닫기

신고사유

신고하기취소하기

* 허위 신고일 경우 신고자의 서비스 활동이 제한될 수 있으니 유의하시어 신중하게 신고해 주세요.


이시각 주요뉴스

뉴스 카테고리별 이동




    주요 뉴스



















    INSIDE MOBILE - 이데일리 모바일 서비스 앱

    • 이데일리
      실시간 뉴스와
      속보를 어디서나
    • 이데일리MVP
      금융정보 단말기의
      모바일 서비스
    • MP 트래블러
      차세대 모바일
      트레이딩 시스템
    • 스타in
      연예·스포츠 랭킹 매거진
    • 전문가방송
      증권 전문가방송을
      스마트폰으로

    INSIDE FOCUS - 이데일리 사업배너