애플의 '시리' <사진/ 애플>

[뉴스비전e 정윤수 기자] 최근 IT업계에서 가장 화두가 되고 있는 기술은 바로 인공지능(AI)이다. 이제는 빅데이터와 클라우드를 거쳐 머신러닝을 갖춘 인공지능 기술이 지능형 IT기기 시대를 열고 있는 것이다. 특히 스마트폰에 접목되는 인공지능은 음성인식 기술과 결합되면서 사용자 경험을 대폭 향상시키고 있다. 애플의 ‘시리(Siri)’를 통해 음성인식 인공 지능의 현황을 살펴보았다.

▲ 최초의 인공지능 가상 비서 ‘시리’

시리는 SRI 인터내셔널 벤처그룹이 투자한 Siri Inc 라는 회사에서 만들어진 프로그램을 애플이 인수하여 사용한 것이다. 원래는 미국 국방연구소가 군사목적으로 40년간 추진 한 인공지능개발 프로젝트의 하나이며 2003년부터 약 8년간 300여명의 연구자와 수백 만 달러의 투자로 만들어졌다. 

시리는 2011년 10월 4일에 아이폰 4S와 같이 공개되었다. 발표 당시에는 영어, 독일어, 프랑스어 지원으로 시작했지만 이후 일본어를 비롯해, 이탈리아어, 독일어, 한국어, 중 국어 등이 추가되었다. 단순히 표준적인 발음을 지원하는 것 외에도 캐나다식 영어라든 가 스위스식 이탈리아어 같은 변형 발음도 지원하기 시작했다.

시리는 인공지능이기 때문에 사용자가 다소 모호하게 말하는 음성도 정확한 명령으로 인식할 수 있다. 단순한 관련 앱 실행부터 시스템 설정까지도 가능하다. 시리는 전화걸기, 음악재생, 문자전송, 일정관리 같은 기본 기능 외에도 영화정보, 식당의 리뷰와 가격대 검색도 지원하고 있다. 아이튠즈를 이용한 콘텐츠 구입과 홈킷을 이용한 가정내 사물인터넷 제어도 가능하다.

특정한 목적을 가진 작업 이외에도 대화를 통해 농담이나 노래부르기 같은 일상적인 대화도 어느 정도까지 가능하다. 다만 애플 측에서 사용자들이 인공지능의 발달로 인한 거부감을 느끼거나 과몰입하는 것을 방지하기 위해 지속적이고 감정적인 소통을 하지 못하도록 감정과 반응을 제한시켜 놓았다고 한다.

시리의 등장은 이후 경쟁사와 인공지능 서비스 경쟁을 촉발시킨 계기가 되었다. 시리는 기존에 존재하던 음성 인식과 달리 정해진 키워드가 아니면 인식하지 못하는 한계를 넘었다. 내용의 핵심 키워드가 없어도 문맥을 파악해 핵심 의미를 이해하고 한 문장의 문맥을 넘어 전체 대화 흐름이 가진 문맥도 이해한다. 

▲ 아직은 소음에 헛갈리는 ‘시리’

하지만 시리도 아직 완벽한 서비스는 아니라는 평가다. 

우선 주된 입력수단인 음성 인식률이 충분히 높지 않다. 사람과 달리 시리는 말하는 속도와 성량, 발음에 따라서 인식률이 크게 차이난다. 딥러닝으로 인해 개선되긴 했지만 사람들이 기대하듯이 사람에게 말하는 것처럼 편안하게 해도 전부 알아듣는 수준은 아니다. 음성명령을 쓰겠다고 의식하고 또박또박 명확하게 발음하지 않으면 자잘한 부분에서 잘못 인식하는 경우가 많다. 

주변 소음이 크거나 음악이 들릴 때 이와 구분해서 정확히 명령만 가려내는 부분도 부족하다. 사람은 상대가 이야기하는 음성과 주변 배경음을 명확히 구분하기 위해 양쪽 귀를 이용하고 맥락까지 뇌로 판단하는 데 비해 아직 스마트폰의 마이크 성능이나 처리능력이 그에 미치지 못하는 것으로 관측된다.

아이폰에서도 자체적으로 주위 소음을 구분하는 기술을 적용했지만 아직 사람수준으로 알아듣지는 못한다. 또한 음성입력 방식 자체의 문제점으로 소리를 크게 내지 못하는 도서관이나 지하철 같은 환경에서 사용이 어렵다는 점도 현재 시리의 한계로 보인다.

관련기사

저작권자 © 뉴스비전e 무단전재 및 재배포 금지