<사진 / 테크크런치>

[뉴스비전e 장연우 기자] AI 음성합성 기술에 대한 관심이 게임을 비롯해 각 산업에서의 높아지고 있다. 

조훈영 엔씨소프트 AI센터 스피치 실장은 공식 블로그를 통해 "AI센터 안에 전문연구진을 통해 이 기술을 개발하고 있다"고 밝혔다.  

음성 합성이 AI를 게임에 접목하는데 꼭 필요한 기술로 평가되기 때문이다. 

빅데이터 기반 딥러닝을 적용하면, 인기를 모으고 있는 손석희 앵커의 목소리도 모방이 가능하다. 카카오는 통계모델을 기반으로 음성합성기술을 적용해 이를 실제로 구현해 화제가 됐다.

최근에는 문재인 대통령의 목소리를 인공지능이 합성이 관심을 모으기도 했다. 

이와 같은 음성합성 기술은 진화를 거듭할수록 게임, 인공지능챗봇 등 다양한 분야에 적용이 가능한 것으로 예상되면서 주요 기업들이 기술개발에 적극 나섰다.  

 

◆"딥러닝, 음성합성의 새로운 시대 연다"

음성 합성 영역도 딥러닝(Deep Learning)으로 더욱 정교화되고 있다. 

기술적 설명은 복잡하지만, 응용 과정은 상대적으로 간단하다. 

딥러닝 기반의 음성합성기술 <사진 / 엔씨소프트 블로그>

2012년 캐나다 몬트리올대의 힌튼 교수 연구 그룹을 통해 세상에 알려진  다층 신경망 학습 기술인 딥러닝은 음성, 영상, 자연어 처리를 포함한 수많은 기계 학습 연구 분야에 적용된다는 것이다. 결국 음성합성이 딥러닝 기술을 기반으로 적용된 분야 중 하나인 것이다. 

입력과 출력의 구조를 통해  ▲음성 신호에서 텍스트 전처리를 통해 언어적 특징 벡터를 추출한 후 이 값을 ‘입력’ ▲음성 신호의 보코더(Vocoder) 파라미터를 ‘출력’으로 학습 등의 과정을 거쳐 구현하고자 하는 소리를 100%에 가깝게 만들어낼 수 있다. 

AI음성합성 기술을 적용한 '토킹헤드' <사진 / 케임브릿지대학>

AI머신은 입력과 출력의 중간 과정을 자동으로 찾아 모델링하고 모델값을 저장해 음성을 바로 합성한다. 

최근에는 딥러닝을 통해 쌍으로 된 데이터(입력 테스트, 출력 음성)만으로도 심층 신경망 기반의 합성 모델을 학습할 수도 있다. 

구글과 바이두는 이를 통해 수천 명 이상의 목소리를 하나로 합성하는 엔드투엔드(End to End) 음성 합성 연구를 진행하고 있다. 

 

◆'타코트론(Tacotron)..."인공지능에게 말하기 가르치는 과정 단순화"

구글은 이번주초 타코트론2(Tacotron 2)를 발표했다.

이는 구글의 AI음성합성 기술 타코트론(Tacotron)보다 더 진화한 기술이다. 구글은 텍스트만 주어져도 인공지능이 음성을 합성해 감동적인 연설을 만들어내는 수준까지 기술을 진화시키것을 목표로 하고 있다. 

인공지능은 입력된 문자열만으로도, 음성의 스펙트럼 특징벡터 열을 출력으로 지정해 문자열이 스펙트럼으로 변환되는 중간 과정을 자동으로 학습한다.

이때 입력과 출력의 길이의 차이가 발생하는데, 어텐션(Attention)이라는 신경망 층을 도입해 입력과 출력 사이의 매핑(Mapping) 관계를 학습한다. 

구글이 이번주 발표한 AI음성합성 기술 타코트론2 구조도 <사진 / ai.google>

새로 발표한 구글의 '타코트론2'는 문법적 전문성이 거의 필요없는 텍스트에서 현실적인 연설을 생성하기 위해 신경 네트워크를 훈련하는 방법이다. 

기존의 웨이브넷은  ‘설득력 있는’ 음성을 한 번에 한 번에 한 가지씩 만들어 내는데는 효과적이었지만, 발음·알려진 언어 기능 등 언어에 대한 많은 메타 데이터를 필요로 했다.

이어 타코트론은 인토네이션이나 운율 같은 더 높은 수준의 특징들을 합성했지만, 최종 음성 제품을 만드는 데는 그다지 적합하지 않았다는 평가를 받았다. 

테크크런치는 구글이 새로 발표한 AI음성합성기술인 '타코트론2'에 대해 "기존 음성 생성 프로젝트 중 가장 좋은 두 가지인 WaveNet과 Tacotron의 장점을 혼용했다"고 평가했다. 

이처럼 AI음성합성 기술 개발에 적극 나선 구글에 대한 대항마는 바이두다. 

바이두의 딥보이스3(Deep Voice3)는 타코트론의 대안으로 등장했다.  딥보이스3는 입력 문자열 이외에도 학습 데이터에 존재하지 않는 단어, 외래어, 약어 등 특수 단어들에 대해서는 발음 기호 열을 추가적으로 도입하는 방식을 채택했다. 

구글이 '타코트론2'를 발표하면서, 바이두는 '딥보이스3'에 이어 어떤 기술을 내놓을지도 AI업계의 관심으로 떠오른다. 

저작권자 © 뉴스비전e 무단전재 및 재배포 금지