SAT 기준 인간의 80% 수준 도달...조금만 변경해도 기계학습 성능 급격히 하락

[뉴스비전e 정윤수 기자] 인공지능이 미국의 대학입학자격시험인 SAT 기준으로 인간의 80%수준에 도달하고, 음성인식 및 게임 등 일부 영역에서는 인간의 능력에 버금가거나 오히려 뛰어넘는 수준까지 도달했다는 연구보고서가 최근 발표돼 관심을 모은다. 

스탠포드대학 연구팀은 이와 같은  'AI 인덱스 연차보고서'를 공개했다. 

인공지능 성능의 발전수준을 예상하는 지표로, 각 연구기관 및 세계 각국의 정부도 이에 대한 예측 조사를 통해, 앞으로 AI가 사회에 미칠 영향에 대해 로드맵을 그리는데 사용하고 있다. 

연구팀은 'AI인덱스 연차보고서'를 공개하며, 기계학습은 조금만 변형을 해도 성능이 급격히 떨어진다고 밝혔다. 

◆인공지능 기술 발전 예측의 중요성 

<이미지 / Singularity hub>

인공지능의 발전 단계를 예측하는 방법은 다양한 채널과 방식을 통해서 이루어져 왔다. 가장 많이 사용한 방식은 전문가들의 투표에 의해 어떤 기술이 언제 가능해질 것이며, 인간 지능을 넘어서는 기계 지능은 언제 나타날 것인가에 대한 의견 수렴이었다.

‘생명의 미래’ 연구소가 매년 주최하는 컨퍼런스에서도 참가자들을 대상으로  언제쯤 중요한 인지 과제에서 기계 지능이 인간을 넘어설 것인가를 투표했다. 2015년 참가자들은 대부분 30~60년 사이에 이루어질 것이라 예측했다.

또 다른 연구로는 옥스포드 대학 ‘인류의 미래 연구소’와 예일 대학 정치학과 교수들이 인공지능 분야의 대표적인 학술대회인 NIPS와 ICML에 논문을 발표한 연구자들을 대상으로 서베이한 결과다.

2천352명이 대답한 결과는 인간의 노동을 완전 자동화하는 수준의 고도 기계 지능은 50%의 확률로 122년 뒤에 가능하다는 것이다. 

이와 같이 인공지능의 발전 단계를 예측하는 것은 언제쯤 어떤 수준의 기계 지능이 가능할 것인가를 기반으로 각 연구자들의 연구 평가나 각국의 정책 수립에 매우 중요하다. 오바마 정부 시절 미국의 인공지능 전략 보고서에서도 인공지능 기술의 수준을 측정하고 평가하는 것이 중요한 전략으로 제시되기도 했다. 

이번 보고서는 미국을 중심으로 이뤄졌다는 점에서, 한국의 실정과는 다소 괴리가 있을수 있지만, 그럼에도 국내에서도 이와 같은 연구가 시급하다는 지적도 나온다. 

세계 주요국의 정부과 연구기관들이 AI 기술에 대한 실태 조사와 앞으로의 기술발전 예측 지표를 통해 산업육성의 로드맵으로 활용하고 있다는 점은 한국 정부과 연구진에게 주는 의미가 적지 않다. 

한상기 테크프론티어 대표는 " 국내의 경우도 우리의 인공지능 수준을 좀 더 데이터 기반으로 파악하고, 이 보고서에서 제시한 기준으로 평가하는 작업이 필요하다"며 "단지 전문가들의 감으로 격차를 판단하거나 우리 수준을 평가하는 방식에서 이제 탈피해야 할 것"이라고 조언했다. 

 

◆활동량·기술성능에 이어 인간과의 비교 항목 강화

<이미지 / 스탠포드 대학>

스탠포드 대학 연구팀의 'AI 인덱스 연차보고서'에서는  인공지능에 관련된 데이터를 추적, 분석, 가공, 시각화한 결과를 담았다. 연차보고서를 위한 연구 조사에는 MIT, SRI 인터내셔날, 오픈AI 등도 협력했다. 

이와 같은 조사를 한 이유로, 아직도 인공지능 분야가 빠르게 진화하고 있고, 전문가들도 전체 영역을 아우르는 내용을 이해하거나 추적하기 어렵기 때문이라고 연구팀은 설명했다. 

이에 따라 이번 연구조사 프로젝트는 개방된 방식의 비영리 과제로 인공지능 관련 활동과 진보를 추적하는데 목표를 뒀다. 

보고서에서 수집한 데이터는 ▲활동량, ▲기술성능, ▲파생측정기준, ▲인간과 비교한 성능 수준 등 크게 네 가지 부문으로 구별했다. 

▲활동량은 인공지능 컨퍼런스 참석자나 인공지능 스타트업에 대한 벤처 캐피털 투자 상황들을 측정한 결과며, ▲기술 성능은 인공지능 기술이 얼마나 주어진 과제를 잘 푸는가를 파악하지는지를 나타내는 지표로, 두 가지 지표는 기존 연구에서도 대부분 반영을 해왔다.  

반면, ▲파생 측정 기준은 트렌드 사이의 관계를 조사하며, 학교 및 산업을 아울르는 트렌드를 결합함으로써, 인공지능이 종합적으로 얼마나 활성화 됐는지에 대해 측정 지표로 나타냈다.  

▲인간과 비교한 성능 수준의 경우, 인공지능 시스템의 성능을 평가할 때 가장 자연스러운 것은 인간 성능과 비교를 해 보는 것이라는 점에서, 인공지능의 중요한 진전을 이룬 영역을 나열하는 방식으로 발표됐다. 
 

◆AI연구 및 투자 급속 확대중

주요 활동량 관련 데이터 지표에서, 인공지능 관련 논문은 1996년 이후 9배 이상 증가했고, 스탠포드 대학에서 인공지능 수업 수강 신청은 11배 늘었다.

주요 학술대회 참가자들의 참석자 수는 급속하게 증가하고 있으며, 연구 주제는 '기호 기반 추론'에서 '기계 학습'과 '딥 러닝'으로 이동하고 있다.

연구 주제 관심이 변화하고 있지만, 작은 연구 커뮤니티에서 기호 기반 추론 방식 역시 지속적으로 발전하고 있다.

미국내 AI 스타트업 투자 추이 / 단위 십억달러 <자료 / 스탠포드 대학>

미국에서 인공지능 관련 활동 중인 스타트업은 2000년 이후 14배 증가했고, 이에 대한 투자 규모도  2000년 이후 6배 증가했다. 미국내 인공지능 기술을 요구하는 일자리 비중도 2013년 이래 4.5배 증가했다. 스타트업 투자규모와 관련 일자리의 증가율은 캐나다와 영국이 더 높았다. 

분야 별로는 기계 학습과 딥 러닝에 관련된 일자리 증가가 가장 크다.

AI 오픈소스 영역별 사용 상황 <자료 / 스탠포드 대학>

오픈 소스 영역에서는 텐서플로우가 가장 널리 사용되고 있다. 인공지능에 대한 미디어 보도는 긍정적인 보도가 25% 이상, 부정적인 기사가 5% 수준이다.

 

◆AI가 인간보다 잘하는 분야는 언어처리...헤매는 분야는 이미지에 대한 질의 응답

인간과 비교한 인공지능의 이미지 처리 성능 수준 인덱스 <자료 / 스탠포드>

객체 인식 분야에서 인공지능 시스템의 성능은 인간을 넘어서, 이미지 레이블 정하기의 에러율이 2010년 이래 28.5%에서 2.5% 이하로 내려갔다

일반적인 이미지에 대한 질의 응답은 인간 수준이 80% 대라면 가장 뛰어난 시스템도 아직 60% 후반 대에 머물고 있다.

자연어 문장의 구문 구조 분석은 이제 95%에 근접하는 수준이다.

스위치보드라는 표준의 전화 음성 데이터 기반의 음성 인식은 인간 수준에 도달했다.

AI의 언어처리 기능 인간(100)과의 비교 인덱스 <자료 / 스탠포드>

SAT 문제 풀이는 80% 조금 넘는 수준이다.

연구계와 산업계의 여러 데이터를 모아서 인공지능 분야의 활성도 수준을 측정하면, 2010년부터 투자자들이 인지하기 시작해서 2013년에 빠른 성장을 보임을 알 수 있었다.

인간 수준의 성능을 평가해보면 아직도 매우 한정된 영역에서 좋은 성능을 보이지만, 문제를 조금만 바꿔도 기계의 성능은 급격히 하락하고 있다.

인간 수준을 넘어서는 영역을 연도에 따라 분석하면, 2015년에 아타리 게임을, 2016년에 이미지넷 기반 이미지 인식, 바둑 영역에서 넘어섰고, 2017년 피부암 분류, 스위치보드 음성 데이터 인식, 포커와 팩맨 문제에서 인간을 넘어섰다.

◆AI 기능의 인덱스 산업적 의미 높지만....자동차·금융 등 산업적 영향 분석 부족

이번 ‘AI 인덱스’ 보고서는 처음으로 전반적인 인공지능 기술이 어느 수준에 와 있으며, 학계와 산업계의 여러 데이터를 한 눈에 볼 수 있는 자료라는 평가다. 

그러나 표준화된 벤치마크가 명확하지 않음으로 인해,  헬스케어, 자동차, 금융, 교육 등 인공지능 기술이 본격 투입될 산업에 있어서의 영향에 대한 설명은 부족하다는 지적이다.

이와 함께 연구대상 역시 미국 중심이라는 점에서 중국 등 급속도로 발전하고 있는 주요국의 상황도 반영하지 못했다. 

그러나 스탠포드 대학의 이번 보고서가 한국 정부와 연구기관에게 주는 무엇보다 의미있는 시사점은, 우리나라 역시 4차산업 시대의 본격적인 진입 시기를 맞이해, 이와 같은 연구에 착수해야 할 필요가 높다는 것이다. 

저작권자 © 뉴스비전e 무단전재 및 재배포 금지