보이스 테크, 또는 음성인식 기술이라고 하는 것은 컴퓨터나 기계로 하여금 인간의 말을 알아듣게 하는 모든 기술을 말한다. 인공지능과 함께 발달해온 보이스 테크는 2010년 애플의 시리 음성 서비스로 세상에 모습을 드러낸 뒤 2014년 아마존의 인공지능 스피커와 함께 본격적으로 우리 주변에 침투하기 시작했다. 지금까지 전 세계에 팔린 인공지능 스피커는 2억대가 넘고, 국내에도 천만대 가까이 팔렸다고 한다. 우리나라 전체 가구 수가 2천만인 것을 고려하면 한 집 건너 하나씩 인공지능 스피커를 구매했다는 얘기다.
인공지능 스피커 글로벌 시장의 50%를 점유하고 있는 아마존에는 1만 명이 넘는 직원이 보이스 테크에 관련된 작업을 하고 있다고 한다. 이들의 주된 작업은 인공지능 스피커가 설치된 가정에서 녹음된 대화 내용을 듣고 이를 컴퓨터 교육에 활용할 수 있게 라벨을 붙이는 것이다. 예를 들어 소비자가 인공지능 스피커에게 “비틀즈를 들려줘”라고 했다면 ‘비틀즈’가 풍뎅이과의 벌레가 아니라 영국의 유명한 록 그룹이라고 라벨을 붙여 컴퓨터에 입력하는 일을 하는 것이다. 이러한 라벨링 작업을 ‘전사작업’이라고 하는데, 보통 1명의 전사작업 직원이 하루에 1000건 이상의 녹음파일을 처리한다고 하니 아마존이 수집하는 녹취 정보의 양이 얼마나 되는지 짐작조차 하기 쉽지 않다.
컴퓨터가 사람의 말을 알아듣게 하려면 반드시 전사작업을 통해 인공지능을 훈련시켜야 한다는 게 정석으로 되어 있다. 우리나라 스마트 스피커 업체도 아마존과 마찬가지로 자회사를 통해 스피커에서 추출된 녹취파일을 직접 듣고 글로 옮기고 라벨을 붙이는 작업을 하고 있다고 한다. 업체에서는 “알렉사” “헤이구글”과 같은 웨이크워드로 스피커를 깨워야 녹취가 시작된다고 하지만 꼭 그런 것만은 아니어서 소비자 입장에서는 다른 사람과 공유하고 싶지 않은 대화 내용까지 녹음되고 있는 것은 아닌지 불안감에 시달릴 수밖에 없다.
물론 스마트 스피커의 인공지능 학습 과정에서 인간이 배제되고 전적으로 컴퓨터가 자가학습을 한다 해도 내가 한 말이 내 의도와 다르게 수집되고 어딘가에 저장된다면 사생활 침해에 대한 우려가 완전히 불식된다고 볼 수는 없을 것이다. 그러나 컴퓨터의 자가학습을 위해 수집된 음성파일들의 사용, 공개, 폐기 등에 대한 엄격한 제도를 마련하면 지금처럼 전사작업을 하는 사람들의 기밀 유지 협약에 의존하는 것보다는 사생활 침해에 대한 우려가 상당히 감소할 것이다. 이제 사생활 침해에 대한 우려를 극복하고 스마트폰이나 가전제품, 자동차와 말로 소통할 날이 멀지 않은 것 같다.