구글 TTS '타코트론2' 개요도 <ai.google.com>

[뉴스비전e 장연우 기자] 구글이 인공지능 기술을 적용해 기계음을 마치 인간이 읽는 것처럼 거의 완벽하게 재현하는데 성공하고, 이와 관련해 자사 블로그 포스트를 통해 최근 발표했다.  

구글의 업데이트된 음성 변환 시스템(TTS)인 타코트론2(Tacotron2)는 두개의 신경망이 글자를 분광사진(spectrogram)으로 변환해 웨이브넷에 전달하는 이를 인간의 음성처럼 읽어낸다. 

분광사진을 기반으로 음성목소리를 구현하는 웨이브넷(WaveNet)은 구글의 모회사인 알파벳의 인공지능 연구소 딥마인드가 개발한 시스템이다. 

연구소와 기업들이 컴퓨터 기반 음성을 인간의 목소리에 가깝도록 들리게 하기 위해 수년간 음성변환시스템(TTS)를 개발해 왔다. 

구글은 기존 타코트론(Tacotron)과 워이브넷 프로젝트에서 얻은 결과물을 종합해 타코트론2를 만들었다. 

구글이 공개한 샘플에서 어느 목소리가 인간이 직접 읽은 음성인지를 구분하는게 불가능한 수준까지 올라갔다. 

구글의 이번 기술 개발로, 게임사 및 챗봇의 산업 도입 등 인공지능 기술기반 디바이스의 도입에 있어 사람과의 상호작용은 한차원 더 끌어올릴수 있게 됐다는 평가다. 

국내 엔씨소프트, 넷마블, 넥슨 등 MMORPG에 인공지능 기술을 적용을 확대하고 있는 국내 게임사들에게도, 이번에 구글이 발표한 기술이 어떤 영향를 미칠지에 대한 관심도 높아진다. 

저작권자 © 뉴스비전e 무단전재 및 재배포 금지