'강화학습' 강화한 알파고제로... "선생님 없이 독학으로 진화했다"

스스로 깨닫는 AI‘알파고 제로’등장, 기대와 우려 교차

[뉴스비전e 장연우 기자] 은퇴했던 알파고(AlphaGo)가 강화학습을 통한 ‘알파고 제로(AlphaGo Zero)’로 최근 컴백했다. 바둑에 대한 전혀 지식이 없는 상태에서, 70여시간만에 인간 바둑기사 수준으로 진화하게 되기까지에는 스스로 학습하는 강화학습이 가능했기 때문이다.

◆중국의 커제 9단에 완승 후 은퇴했던 알파고, 과학학술지 ‘네이처’를 통해 컴백

‘2016년 3월, 구글 자회사 딥마인드가 개발한 알파고(AlphaGo Lee)가 ‘구글 딥마인드 챌린지 매치 (Google Deepmind Challenge match)'를 통해 한국의 바둑 최고수 이세돌 9단에 승리하면서 커다란 충격과 함께 세계적인 인공지능(AI) 신드롬 촉발했다.

2016년 3월 9일부터 15일까지 서울 소재 포시즌스 호텔에서 하루 한 차례씩 총 5회에 걸쳐 진행된 이세돌과 알파고 간의 바둑 대결은 최고의 AI 바둑 프로그램과 최고의 바둑 기사간의 대결로 주목을 받았다. 최종 결과는 알파고가 4승 1패로 승리. 이중 1패는 바둑에서 인간이 인공지능에게 안겨다준 유일한 패배다.

이후 2017년 5월에는 한 단계 업그레이드 된 알파고(AlphaGo Master)가 바둑 발상지인 중국에서 세계 최고의 바둑 기사인 커제 9단과의 공식 대국에서도 3대 0으로 승리했다.

인간계 최고 고수들에게 승리한 알파고는 “알파고 개발팀은 다음 단계를 위한 개발에 주력할 것이다", "알고리즘을 보다 범용으로 개조해 세상에 존재하는 복잡한 문제를 해결하는데 도움이 될 수 있으면 좋겠다”는 하사비스(Hassabis) CEO의 말과 함께 68승 1패의 성적을 남기고 은퇴했다.'

◆딥마인드, ‘네이처(Nature)’를 통해 기술적으로 진화한 ‘알파고 제로(AlphaGo Zero)’ 공개

딥마인드는 동 네이처 지에 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’라는 논문을 통해 알파고 제로 공개했다.

논문에 따르면, 새로운 '알파고 제로'는 이세돌을 상대했던 ‘알파고 리’, 커제와 대결했던 ‘알파고 마스터’와의 대국 결과 각각 ‘100대 0’, ‘89대 11’로 압도적 승리했다.

'알파고 제로'는 새로운 충격파를 던진 인공지능의 진화된 모습이다.

그 바탕에는 강화학습 시스템을 적용한 자기학습 결과가 있었다. '알파고 제로'에는 인간의 지식으로 AI를 교육･감독하는 ‘지도학습 시스템(supervised learning system)’이 아니라 생물의 뇌와 유사하게 시행착오를 통해 이치를 깨닫는 ‘강화학습 시스템 (reinforcement learning system)’이 적용됐다.

즉, 기존 '알파고 리'와 '알파고 마스터'가 인간이 만든 정석이나 기보 등을 통해 바둑을 학습했다면, '알파고 제로'는 바둑의 규칙 외에는 기존 지식이나 데이터 없이, 즉 인간의 도움을 받지 않고 셀프 대국을 통해 스스로 실력을 배양할 수 있다.

그 결과 '알파고 제로'는 사흘 동안 490만 회의 셀프 대국 이후 ‘알파고 리’와 진행된 100판의 대국을 모두 이겼고, 40일 동안 2,900만 회의 셀프 대국 뒤엔 ‘알파고 마스터’와의 대국에서도 90% 가까운 승률을 기록했다.

딥마인드는 논문에서 알파고 제로가 3시간 만에 바둑 초심자처럼 상대 돌을 잡고, 19시간 만에 바둑의 사활을 이해했으며, 70시간 만에 인간 바둑기사 수준에 이르렀다고 밝혔다.

◆새로운 기술적 진전에 대한 기대와 우려 교차

강화학습을 통해 기존 인공지능보다 훨씬 더 진화한 '알파고 제로'를 보며 ICT업계와 과학계는확장가능성, 범용성 확대로 AI의 활용 폭이 획기적으로 넓혀져 신약과 신소재 개발 등 난제 해결에 돌파구가 될 것으로 기대했다.

논문 제목에서 드러나듯 '알파고 제로'는 사전 지식이 없는 백지상태의 신경망에서 출발해 자기 학습을 통해 데이터를 쌓아가며 스스로 바둑의 이치를 터득했다.

이 같은 알파고 제로의 능력과 관련하여 논문은 “인간이 가진 지식의 한계에 구속되지 않기 때문에 더 강력해졌다”고 설명했다.

딥마인드는 블로그를 통해 “알파고 제로는 새로운 지식을 발견했고 새로운 수를 창조했다."며 "우리는 이런 창조력을 보고 인간의 독창성을 배가할 수 있을 것으로 확신했다”고 밝혔다.

허사비스 CEO는 “알파고 제로는 인간의 데이터를 전혀 사용하지 않아도 AI가 얼마나 많은 발전을 이룰 수 있는지를 보여준다”고 설명하기도 했다.

이어 그는 “알파고 제로와 같은 AI에는 지금까지 인간의 지식 기반 위에서 풀지 못한 인류의 난제들을 해결할 수 있는 잠재력이 있다”며 “AI가 단백질 구조 및 신소재 설계 등 현실의 문제를 해결하는 데 혁신을 이뤄낼 수 있기를 희망한다”고 기대감을 전했다.

딥마인드는 “알파고 제로의 성공은 빅데이터 확보가 어려운 신약 개발이나 에너지 절약 대책 등의 분야에서 돌파구가 될 가능성이 있다”고 강조했다.

이와 같은 기대감과 반대로, 부실 또는 왜곡 등 진화된 AI에 대한 우려감도 나오고 있다.

이를 테면, AI가 탑재된 자율주행차가 오류를 일으켜 사고를 낼 수는 있어도, AI 자율주행차가 스스로 독립 개체로 성장해 사람에 위협적인 존재가 될 것으로 보진 않는다는 시각을 들수 있다.

'알파고 제로'에 대해, 사람의 기보 없이 자기 학습을 통해 스스로 바둑의 원리를 깨우치고 필승의 길을 찾아냈다는 점에서 인간의 통제를 벗어나 AI를 더 높은 경지로 이끌었다는 평가의 이면에는 ‘사람보다 더 우월하면서 독립적인 존재’에 대한 두려움 또한 이끌어냈다는 것이 AI 관련 전문가들의 평가다.

◆새로운 변곡점 그려가는 인공지능

2016년에 벌어졌던 알파고와 이세돌의 바둑 대결 이후 AI의 무한 잠재력이 크게 부각되며 주요 기업은 투자를 확대하고, 각국 정부는 발전 정책을 드라이브 하기 시작했다.

전세계는 너나없이 AI 열풍 속에 빠져 있는 상황이다.

이런 가운데 AI 기술 개발에 있어 글로벌 리딩 기업중 하나인 구글 딥마인드는 새로운 학습 방법을 적용하는 등 기존 AI의 틀을 깨는 새로운 AI 길에 도전하고, 일정 성과를 거둠으로써 AI 분야에 새로운 변곡점을 그려가고 있다.

4차 산업혁명의 선도국가 도약을 위한 시책의 일환으로 AI 전략 프로젝트를 추진하고 있는 한국도 글로벌 기술개발 트렌드에 대한 모니터링을 강화하는 한편 R&D 투자와 연구인력 양성 등 AI 선진 대열에 진입하기 위한 총체적 노력이 필요한 때다.

상단영역

본문영역

'강화학습' 강화한 알파고제로... "선생님 없이 독학으로 진화했다"

스스로 깨닫는 AI‘알파고 제로’등장, 기대와 우려 교차

관련기사

개의 댓글

댓글 정렬

내 댓글 모음