[이상훈의 신경영 비전]사생활 침해 우려 없는 보이스 테크

[이상훈 전 두산 사장·물리학 박사] 보이스 테크는 미래의 기술 패러다임이다. 마치 요즘 Z세대가 스마트폰이 없던 시절을 상상하기 어려워하듯이, 얼마 지나지 않은 미래의 우리는 말이 아닌 스크린 터치로 앱을 실행하고 메시지를 보내던 시절을 과거지사로 얘기하게 될 것이다.

보이스 테크, 또는 음성인식 기술이라고 하는 것은 컴퓨터나 기계로 하여금 인간의 말을 알아듣게 하는 모든 기술을 말한다. 인공지능과 함께 발달해온 보이스 테크는 2010년 애플의 시리 음성 서비스로 세상에 모습을 드러낸 뒤 2014년 아마존의 인공지능 스피커와 함께 본격적으로 우리 주변에 침투하기 시작했다. 지금까지 전 세계에 팔린 인공지능 스피커는 2억대가 넘고, 국내에도 천만대 가까이 팔렸다고 한다. 우리나라 전체 가구 수가 2천만인 것을 고려하면 한 집 건너 하나씩 인공지능 스피커를 구매했다는 얘기다.

보이스 테크는 소비자용 전자기기에만 적용되는 게 아니다. 지난 4월 12일 미국의 마이크로소프트사는 197억 달러, 한화로 약 22조 원의 현금을 주고 뉘앙스 커뮤니케이션사를 인수한다고 발표했다. 세계 최초, 최고의 보이스 테크 인공지능 기업인 뉘앙스는 애플의 시리 음성 서비스를 개발한 회사로도 유명하다. 현재는 의료진의 음성을 인식하여 진료기록을 자동으로 작성해 주는 서비스를 주 사업으로 하고 있는데 미국 의사의 55% 이상, 병원의 77%에서 뉘앙스의 서비스를 사용하고 있다고 한다. 매출이 15억 달러에 불과한 회사를 매출의 13배를 주고 인수한 것을 보면 마이크로소프트사가 보이스 테크 기술의 미래를 어떻게 보고 있는지 짐작할 수 있다.

그런데 스마트폰, 가전제품, 컴퓨터, 자동차 등 우리 주변의 모든 스마트 기계장치와 말로 소통하는 세상을 실현시키기 위해 보이스 테크가 극복해야 할 가장 중요한 허들이 있다. 바로 사생활 침해에 대한 우려이다. 정보통신정책연구원이 2018년 실시한 설문조사에 따르면 응답자의 60% 이상이 스마트 스피커가 대화 내용을 허락 없이 전송하는 것에 대한 우려를 나타냈다. 그리고 이러한 우려는 근거가 없는 게 아니다.

인공지능 스피커 글로벌 시장의 50%를 점유하고 있는 아마존에는 1만 명이 넘는 직원이 보이스 테크에 관련된 작업을 하고 있다고 한다. 이들의 주된 작업은 인공지능 스피커가 설치된 가정에서 녹음된 대화 내용을 듣고 이를 컴퓨터 교육에 활용할 수 있게 라벨을 붙이는 것이다. 예를 들어 소비자가 인공지능 스피커에게 “비틀즈를 들려줘”라고 했다면 ‘비틀즈’가 풍뎅이과의 벌레가 아니라 영국의 유명한 록 그룹이라고 라벨을 붙여 컴퓨터에 입력하는 일을 하는 것이다. 이러한 라벨링 작업을 ‘전사작업’이라고 하는데, 보통 1명의 전사작업 직원이 하루에 1000건 이상의 녹음파일을 처리한다고 하니 아마존이 수집하는 녹취 정보의 양이 얼마나 되는지 짐작조차 하기 쉽지 않다.

컴퓨터가 사람의 말을 알아듣게 하려면 반드시 전사작업을 통해 인공지능을 훈련시켜야 한다는 게 정석으로 되어 있다. 우리나라 스마트 스피커 업체도 아마존과 마찬가지로 자회사를 통해 스피커에서 추출된 녹취파일을 직접 듣고 글로 옮기고 라벨을 붙이는 작업을 하고 있다고 한다. 업체에서는 “알렉사” “헤이구글”과 같은 웨이크워드로 스피커를 깨워야 녹취가 시작된다고 하지만 꼭 그런 것만은 아니어서 소비자 입장에서는 다른 사람과 공유하고 싶지 않은 대화 내용까지 녹음되고 있는 것은 아닌지 불안감에 시달릴 수밖에 없다.

그런데 최근 아마존에서 보이스 테크의 사생활 침해 우려를 덜 수 있는 기술이 개발되고 있어 주목을 받고 있다. 알렉사 머신러닝 그룹을 담당하고 있는 루히 사리카야에 의하면 아마존에서는 보이스 테크의 인공지능 훈련에 인간의 전사작업을 배제한 ‘인공지능 자가학습’을 도입하고 있다고 한다. 다시 비틀즈의 예를 들면 인공지능 자가학습은 “비틀즈를 들려줘”라는 말을 이해하기 위해 이 말이 나온 정황을 함께 고려함으로써 비틀즈가 벌레가 아니라 음악과 관련된 말이라는 걸 스스로 파악하는 기술을 말한다. 흥미로운 건 아마존이 전사작업을 버리고 자가학습 도입을 시도하고 있는 이유가 사생활 침해에 대한 우려 때문이 아니라 인공지능 스피커의 사용이 늘어남에 따라 인공지능이 이해해야 하는 실생활의 복잡성이 폭증하여 전사작업으로 인공지능을 훈련시키는 일이 불가능해졌기 때문이라고 한다.

물론 스마트 스피커의 인공지능 학습 과정에서 인간이 배제되고 전적으로 컴퓨터가 자가학습을 한다 해도 내가 한 말이 내 의도와 다르게 수집되고 어딘가에 저장된다면 사생활 침해에 대한 우려가 완전히 불식된다고 볼 수는 없을 것이다. 그러나 컴퓨터의 자가학습을 위해 수집된 음성파일들의 사용, 공개, 폐기 등에 대한 엄격한 제도를 마련하면 지금처럼 전사작업을 하는 사람들의 기밀 유지 협약에 의존하는 것보다는 사생활 침해에 대한 우려가 상당히 감소할 것이다. 이제 사생활 침해에 대한 우려를 극복하고 스마트폰이나 가전제품, 자동차와 말로 소통할 날이 멀지 않은 것 같다.