[미래기술25]①생활 속에 자리잡는 빅데이터…정보가 경쟁력이다

인간 생활속 수십억·수백억개 데이터
컴퓨팅 기술 발전으로 분석 한층 쉬워져
플랫폼 통한 사업 분석 및 단기미래 예측
'개망신법' 규제에 발목잡힌 국내 경쟁력
  • 등록 2019-11-21 오전 6:40:02

    수정 2019-11-21 오전 6:40:02

[이데일리 한광범 기자] 조선왕조실록은 조선 태조 취임부터 철종 퇴임까지 472년간의 역사 기록을 담고 있습니다. 해마다 가을에는 무슨 일이 있었는지, 왕이 바뀔 때 어떤 일이 생겼는지, 위기상황에서 당시 사람들이 어떻게 행동했는지 등 다양한 정보를 포함하고 있죠. 이를 잘 분석하는 일은 당시에나 지금에나 역시 중요합니다. ‘역사’에서 우리는 교훈을 얻고 앞으로 나아가야 할 바를 알 수 있으니까요.

21세기 들어 IT 업계는 이런 개념을 디지털 환경에 맞게 응용한 ‘빅데이터(Big Data)’를 이야기하기 시작했습니다. 빅데이터는 말 그대로 엄청난 양의 데이터 덩어리를 이야기합니다. 데이터가 많다는 것은 그만큼 많은 정보가 있다는 것이고, 그에 따라 유용한 의미를 뽑아낼 수 있다는 것이죠. 이처럼 많은 양의 ‘기록’을 가리켜 우리는 빅데이터라고 부릅니다.

그럼 대체 그 기준은 무엇일까요? 어느 정도 데이터가 뭉쳐있어야 빅데이터라고 부를 수 있는 것일까요?

심야 버스·플랫폼 사업..이미 생활 속에 들어온 빅데이터

글로벌 컨설팅 업체 맥킨지가 내린 정의에 따르면 빅데이터는 적어도 수십 테라바이트(TB)의 데이터가 뭉쳐진 형태를 의미합니다. 1TB는 104만8576MB로, 풀HD 고해상도 영화 한 편(3.7GB)을 276편 담을 수 있는 용량이죠. 10TB만 해도 영화 수 천편을 보는 수준입니다. 문자(텍스트)로 이뤄져 있다고 생각하면 더욱 방대한 양이 될 것입니다.

이런 데이터는 대개 장비를 가동하거나 임직원, 방문객 등이 움직이면서 쌓이는 기록인 로그(Log) 데이터를 비롯해 결제·환불, 사용·취소 내역 등 정형화된 데이터를 비롯해 심지어 사진이나 영상처럼 정형화되지 않은(비정형) 데이터도 존재합니다.

(이동훈 기자)
예를 들어 서울시 시내버스의 운행기록을 살펴보면 △교통체증 발생시간이나 유발요인 △승객 수송이 많거나 적은 시간대 △후불·선불카드나 현금 지불 등 지불 형태 유형 △환승 승하차 유형 등을 파악할 수 있죠. 이에 따라 최적의 배차간격 운영부터 교통체증 해소까지 다양한 대안을 도출해낼 수 있게 됩니다.

빅데이터 대표적인 활용사례가 바로 2013년 서울시의 심야버스 서비스인 ‘올빼미 버스’ 도입이죠. 기존에 버스를 운행하지 않던 야간 버스를 운행하기로 하면서 수요에 따른 노선 구성을 하는데 활용한 데이터는 바로 전화 통화 기록입니다. 휴대전화를 많이 사용하는 지역을 분석해 심야시간에 시민들이 어디에서 출발하고 어디로 향하는지 파악했고, 현재 9개 노선을 운영하며 시민들에게 편의를 제공하고 있습니다.

서울시는 이 기술을 우크라이나에 수출하고, 시민들을 위한 빅데이터 상권분석까지 제공하다 지난해 4월에는 아예 빅데이터연구소를 열고 시 행정에 공공 빅데이터 활용을 본격화하고 있습니다. 민간에서도 플랫폼 업체들의 경쟁력 역시 빅데이터입니다. 빅데이터가 벌써 우리 곁에 와있고, 앞으로도 발전할 기술이라는 점을 입증하고 있는 사례인 셈입니다.

데이터를 모으고 분석하는 모든 과정이 ‘빅데이터 활용’

역사적인 데이터를 활용하면 지진이나 화산 폭발 같은 대규모 천재지변에 대해서도 대응이 가능합니다. 가령 기업이 공장을 세울 때 조선왕조실록 등에 언급된 사항을 바탕으로 이 지역에서 과거 어떤 지리적 현상이 발생했는지를 살펴본 뒤 지진이 예상된다면 내진설계를 강화하거나 다른 부지를 찾는 식으로 활용할 수도 있습니다.

그럼 데이터는 어떻게 모으고, 또 어떻게 분석·활용하게 될까요? 우선 데이터는 사방에 흩어져 있습니다. 빅데이터 개념이 없던 시절 데이터의 저장은 지금에 비하면 마구잡이 수준이었습니다.

이렇게 흩어진 데이터는 어딘가에 분리, 고립돼있다는 ‘사일로(silo)’ 형태로 존재하는데, 이를 한데 모으는 작업을 ‘데이터 수집(Data Mining)’이라고 합니다. 여기저기 잠재된 데이터를 발굴해낸다는 의미를 비유적으로 표현한 셈이죠.

종이 문서 등 아날로그 형태로 저장된 데이터는 디지털로 변환해 활용합니다. 훼손된 경우 내용을 알아볼 수 있도록 복원하기도 하면서, 모든 정보를 이미지로 일단 스캔한 뒤 이를 다시 문자로 변환하거나 이미지의 경우 주요 정보를 정리해 보관합니다.

이렇게 모은 데이터는 다시 체계적으로 분류해 일정한 흐름에 대한 결론을 도출하게 됩니다. 이런 일련의 과정을 ‘데이터 분석(Data Analytics)’이라고 부릅니다. 대형 쇼핑몰 안에서 고객들이 주로 어느 장소로 어느 시간대에 많이 이동하더라는 결론은 이에 따른 안전대책이나 마케팅 방안 마련에 도움을 줄 수 있겠죠.

(이동훈 기자)
만일 특정한 환경에서 특정 상품에 대한 수요가 늘어난다는 점을 파악할 수 있다면, 제조업체는 미리 생산량을 높이고 유통업체는 재고를 늘릴 수 있을 겁니다. 그만큼 소비자들도 필요한 물건을 제때 구매할 수 있을 거고요. 붕어빵이나 아이스크림이 언제 많이 팔리는지, 혹은 특정 상품에 대한 수요가 일시적으로 높아지는 때는 언제인지도 알 수 있겠죠.

뗄 수 없는 ‘인공지능’과의 관계, 새로운 미래 창출

이렇게 복잡한 방식으로 이뤄지는 빅데이터 기술에 필수적으로 연관되는 요소는 바로 인공지능(AI)입니다. 빅데이터와 AI는 떼려야 뗄 수 없는 관계에 놓여있습니다.

하나씩 차근히 살펴보죠. 우선 빅데이터는 AI의 성능 개발인 기계학습(머신러닝, Machine Learning)과 심층학습(딥러닝, Deep Learning)의 근간이 됩니다. AI의 정확성과 판단 수준 자체를 높이려면 끊임없이 기계(컴퓨터)가 스스로 학습하는 과정을 거치는데, 여기에 필요한 밑거름이 바로 빅데이터이기 때문이죠.

반려견에게 사료를 주는 장치를 생각해봅시다. 우선 이 기계는 AI를 통해 카메라를 통해 장치 앞에 나타난 물체가 강아지인지 혹은 사람이나 고양이 같은 다른 동물인지 파악해야 합니다. 이후 대형견인지 중·소형견인지, 또 나이가 많은지 혹은 어린지, 품종은 무엇인지 등을 종합적으로 파악해 맞는 사료를 적절한 양으로 제공해야겠죠. 이를 위해서는 수십, 수백만장의 개 사진을 기계가 스스로 학습하며 개의 특성, 나아가 각 품종이나 나이대별 특성에 대해서도 파악해야 합니다.

이렇게 수준을 높인 AI는 다시 빅데이터 분석을 체계적이면서도 빠르게 수행하는데 활용됩니다. 데이터를 분류하고 여기에서 조직 내 의사결정권자에게 필요한 사항을 도출하는데 중심적인 역할을 하는 것이죠.

데이터는 날이 갈수록 빠르게 쌓여갑니다. 2003년 등장한 조선왕조실록 디지털화 콘텐츠의 용량은 CD-ROM 3장(약 2~3GB 수준)으로, 앞서 비교에 활용한 풀HD급 영화 한 편 수준에도 못 미치는 비슷한 정도입니다. 반면 국내 스마트폰 이용자의 한 달 데이터 사용량이 약 7GB로 두배 이상에 달하죠. 그 중요성은 더 이상 설명하지 않아도 될 듯합니다.

효율적인 빅데이터 활용은 이제 국가경쟁력으로 이어지고 있습니다. 미국은 대형 기업들이 데이터센터 효율화(구글) 같은 기업 운영 측면은 물론 소비자의 물품 주문을 사전에 예측(아마존)하는 사례로까지 확장해 이용하고 있고, 국내에서도 빅데이터 분석 기반 고객 응대(신한카드)나 제조업 생산성 향상(삼성SDS), 상권 분석(SK텔레콤), 해외 감염병의 국내 유입 예방(KT) 등으로 영역을 확장해가고 있습니다.

우리 정부는 개인정보 빅데이터 활용을 촉진하고, 이를 통해 각 개인들이 자신들의 개인정보에 대한 활용과 결정권을 확대하기 위한 ‘마이데이터’(MyData) 사업을 2019년 최우선 과제로 선정했습니다. 하지만 규제가 발목을 잡고 있습니다. 정보에 대한 규제를 담은 데이터 3법(개인정보보보호법·정보통신망법·신용보호법)이 빅데이터의 활용을 어렵게 하고 있는 것입니다. 업계에선 이들 3법을 빅데이터 발전을 가로막는다며 “개망신법”이라 부르기도 합니다.

업계에선 개인정보 피해에 대한 기업의 책임을 대폭 강화하되, 데이터 사용은 가능하게 법을 바꿔달라고 호소하고 있습니다. 그러나 지난해 11월 국회에 규제를 대폭 개선한 개정안이 발의됐지만 1년 가까운 시간 동안 국회 논의는 감감무소식입니다. 이대로면 문재인정부가 강조한 ‘데이터 경제’는 요원해질 수밖에 없습니다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 홈런 신기록 달성
  • 꼼짝 마
  • 돌발 상황
  • 우승의 짜릿함
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved