알파고, 이세돌 9단에 첫 승 거둔 비결은?


이세돌 9단 "알파고의 실력에 놀랐다"…심층 강화학습 기술 주목

[성상훈기자] '최강의 인공지능'으로 꼽히는 알파고가 인간 최고수 이세돌 9단을 상대로 바둑 대결을 펼쳐 불계승을 거두면서 바둑계 뿐만 아니라 ICT 업계에서도 놀라움을 금치 못하고 있다.

9일 서울 광화문 포시즌즈호텔 특별대국장에서 열린 '알파고 vs 이세돌 구글 딥마인드 챌린지 매치' 제1국은 치열한 접전 끝에 알파고가 이세돌 9단에게 186수만에 충격적인 불계패를 안겼다.

불계패란 상대가 이길 가능성이 없을때 돌을 던져 패배를 인정하는 것을 말한다.

이세돌 9단은 제 1국 이후 "진다고 생각하지 않았는데 너무 놀랐다"며 "이렇게 완벽하게 마무리될 줄 몰랐는데 초반 실패가 끝까지 이어진 것 같다. 알파고 개발자들에게 존경심을 표하고 싶다"고 소감을 전했다.

이어 이세돌 9단은 "알파고의 초반 판을 풀어가는 능력과 중반 이후 서로가 어려운 바둑이 된 상황에서도 깊은 수읽기에 바탕을 둔 승부수를 구사한다는 점도 놀라웠다"고 감탄했다.

그러면서도 이세돌 9단은 "알파고의 승부수를 보니 남은 대국도 쉽지 않을 것이라는 생각이 들고 5:5 정도로 본다"며 "하지만 나는 세계 대회 우승경험도 있고 실전경험도 많기에 1국을 졌다고 크게 흔들리지는 않는다. 이제 시작이다"라며 다시금 자신감을 되찾는 모습을 보였다.

◆제 1국 90수, 알파고 실수 눈여겨봐야

알파고는 많은 전문가들이 첫 수를 화점(4선과 10선의 교차점)에 둘 것으로 예상됐다. 알파고가 유럽 챔피언 판 후이 2단과 벌인 다섯 번의 공식 대국에서도 첫 수는 모두 화점에 둔 바 있기 때문이다.

이날 알파고는 백을 잡고 이세돌 9단을 흑을 잡았다. 제 1국 이세돌 9단의 첫 수는 소목(3선과 4선의 교차점)에 두자 알파고가 화점에 두면서 출발했다.

머신러닝 전문가 메이크어스 김호광 최고기술책임자(CTO)는 "1국 24수 정도 됐을때 알파고가 난전으로 몰고가려는 승부수를 띄웠다"며 "90수 정도 됐을때 어이없는 실수를 하긴 했지만 전체적으로 밸런스가 좋았다"고 평가했다.

바둑 전문가 역시 알파고의 실력을 높게 평가했다. 구글 딥마인드 챌린지 매치 공식 해설자 김성룡 9단은 알파고의 후반 우변 급습을 가리키면서 "프로기사 27년동안 이런 수는 처음 본다"며 "알파고가 미쳤다고 밖에 표현할 말이 없다. 가볍게 이길 상대가 아니다"라고 말했다.

◆제 1국은 '신수' 대결 주요 향후 난전 예상

김호광 CTO는 당초 언론사 기고를 통해 알파고와 이세돌 9단의 대결이 '신수(정석을 바꿔 놓는 새로운 감각의 이례적인 수)' 대결이 될 것이라고 정확히 예견한 바 있다. 알파고와 이세돌 9단이 새로운 패턴을 들고 나온 것이 주요했고 양측 모두 효과를 봤다는 것.

김호광 CTO는 "이세돌 9단이 흑을 들어서 7집반 덤을 넘어가야 했는데 그렇지 못했다"며 "다음 제 2국은 이세돌 9단이 백을 들고 나올 가능성이 높다"고 내다봤다.

이어 김호광 CTO는 "2국은 더욱 난전이 될 것으로 예상된다"며 "다만 90수에 나타났던 알파고의 실수가 로직의 문제인지 딥러닝 기술의 한계점이 나타난 것인지는 생각해 봐야 할 문제"라고 진단했다.

업계 전문가들은 인공지능인 알파고가 첫 대국에서 인간 최고수를 상대로 불계승을 거둘 정도의 바둑 실력을 보여준 것에 놀랍다는 반응이다.

알파고는 기계이기 때문에 피로감을 느끼지도 않고 두려움도 느끼지 않는다. 제 1국에서 이정도 실력이라면 남은 대국에서도 난전으로 가게 될 것이라는 예상이 지배적이다.

◆심층 강화학습 기술 주목

알파고가 이세돌 9단을 상대로 1차전 승리를 거머쥐면서 알파고의 심층 강화학습 기술도 함께 주목받고 있다. 알파고는 지난해 10월 유럽 챔피언 판 후이 2단과 대국을 펼칠때보다 실력이 비약적으로 상승했다는 평을 받고 있기 때문이다.

구글 딥마인드 연구팀에 따르면 알파고는 심층학습(Deep Learning)과 강화학습(Reinforcement Learning)을 결합한 '심층 강화학습' 기술이 적용돼 있다.

심층학습은 신경 세포의 기능을 모방한 신경망을 여러단계에 겹쳐 대량의 데이터에서 학습하는 머신러닝(기계학습)기술의 일종이다. 이 기술은 이미지 데이터로 물체 종류를 인식하는데 있어 타의 추종을 불허하는 정밀도를 지닌다.

강화학습은 컴퓨터가 선택한 행동과 그에 따른 환경 변화에 어떤 '보상' 을 설정함으로써 더 나은 단계의 행동을 할 수 있도록 학습하는 기술을 말한다.

알파고는 이 심층 강화학습을 통해 인간이 1천년 동안 쌓아야 하는 연습량을 4주만에 소화하고 있다.

또한 구글 딥마인드가 갖고있는 독자적인 인공지능 기술 '심층 큐 네트워크(DQN)' 기술에도 주목할 필요가 있다고 입을 모은다.

이 기술은 다층 신경망(Deep Neural Network)과 큐 러닝(Q-Learning)기술을 조합한 기술로 게임에서 높은 점수를 내기 위한 조작 알고리즘을 심층 강화학습을 통해 자동으로 생성하게 된다.

알파고는 이 기술을 통해 스스로 대국을 만들어 형세를 판단하고 '승리를 위한 판단'을 평가한다. AI를 단련하는데 필요한 빅데이터를 기계가 스스로 만들어 내고 있다는 의미다.

이세돌 9단은 알파고가 지난해 10월 판 후이 2단과 대국을 펼칠때의 실력을 보고 자신과 대국을 논할 수준이 아니라며 완벽한 승리를 장담했다.

그러나 불과 4개월만에 인간 바둑 최고수 이세돌 9단을 상대로 186수만에 불계승을 거둘 정도로 일취월장했다.

바둑TV 해설자 국가대표 감독 유창혁 9단은 알파고의 대국을 지켜보면서 "사람은 보통 생각하지 못한 수가 나오면 감정적으로 흔들리기 때문에 장시간 고민을 하게 되지만 알파고는 그런 모습이 전혀 없다"며 "알파고의 기보를 보면 인공지능인지 사람인지 구분을 못하는 수준에 올라 있다"고 평가했다.

성상훈기자 hnsh@inews24.com







포토뉴스