본문 바로가기
기술

오픈AI, 소닉 더 헤지호그 머신러닝 대회 개최

by 더쇼트 2018. 4. 7.


레트로 비디오 게임은 수년간 기계 학습 연구를 위한 유용한 플랫폼이었으며, 이러한 목적으로 만들어진 시스템들은 고전게임들을 하나하나 마스터 해 왔습니다. 이제는 소닉 더 헤지호그(Sonic the Hedgehog)가 기계 학습의 다음 과제가 될 것으로 보입니다.오픈AI(OpenAI)는 이 게임에 기계 학습을 적용하기 위하여 대회를 개최할 것이라고 발표했습니다.


이 대회는 슈퍼 마리오 브라더스 (Super Mario Bros) 나 스페이스 인베이더 (Space Invaders), 둠 (Doom)을 대상으로 시도했던 것과 크게 다르진 않습니다. 그러나 규칙은 약간 다릅니다.


AI가 어떻게 마리오 같은 것을 배우는 지에 대한 간략한 설명은 다음과 같습니다. 

1. 알고리즘은 화면에서 객체를 인식하고, 게임 내 점수를 모니터링하는 등의 몇 가지 기본 기능이 우선 설정됩니다. 

2. 게임 자체에서 점수를 최대화한다는 목표만 두고, 컨트롤 권한을 줍니다.

3. 수백만의 시도를 통해, 기계가 점수를 얻으려면 먼저 게임을 시작 해야한다는 것을 알게 됩니다.

4. 이제는 오른쪽으로(게임 진행 방향) 이동하는 법을 알게 됩니다.

5. 굼바(게임 내 몬스터)가 마리오 캐릭터에 부딛히면 게임이 종료되고 점수를 더 내지 못하게 하는 걸 알게 됩니다. 


이 모든 작업을 통해 화면의 모양을 인식하거나 시스템 메모리에 직접 액세스하는 등의 작업을 수행합니다. 구출해야 할 공주는 뒷전으로 둔 채, 스코어 점수만을 올리기 위해 때때로 이상한 행동을 합니다. 가령, 게임을 더 빨리 진행하기 위해 막힌 벽을 뚫어 보려고 시도 해 봅니다.




주의하여야 할 점은, 이 시스템들이 평가 대상이 될 게임과 스테이지(맵)에 대해서도 미리 학습할 수 있다는 점입니다. 따라서 이번 시합에서는 마리오보다 시스템이 복잡하고, 좀 더 제한된 조건에서 테스트 됩니다.


대회에 참가할 시스템들은 아무것도 모른 채로 시합에 참가하지 않을 것입니다. 오히려 AI가 단 번에 게임을 클리어 할 위험이 너무 높습니다. 각 시스템을 담당하는 연구원들이 전력을 다해 기존 소닉 게임을 기준으로 학습 메커니즘을 설계하겠지만, 학습 메커니즘을 테스트에서 준비된 스테이지에 적용시키는 데에는 게임 시간으로 18시간만 주어집니다. 


따라서 게임 내에서 사용할 모든 기술과 지름길, 여타 화면에 나타나는 정보를 효율적인 알고리즘을 통해 학습할 수 있어야 합니다. 각 게임마다 다른 컨트롤 방법, 기믹과 물리학이 적용되어 있으므로 이를 식별하는 것이 매우 중요 합니다.


참가자는 오픈AI의 짐 레트로(Gym Retro) 플랫폼을 사용하게 될 것입니다. 이 플랫폼은 소닉을 플레이 할 수 있는 에뮬레이터와 데이터 추출, 입력 매핑을 할 수 있는 툴이 제공됩니다.


우승자들에게는 상금이나 상품이 제공되지는 않지만, 1위부터 3위까지에게는 트로피가 주어지며 이 대회에 대한 보고서의 공동 저자가 됩니다. 오픈AI의 보고서는 흥미롭고 광범위하게 읽혀지기 때문에 시간과 의지가 있다면 좋은 기회라고 생각합니다. 유명세를 타게 해주겠다는 건 돈을 주지 않으려는 "고전적인" 전략으로 보입니다.


출처: https://goo.gl/VukseN