강화 학습과 행위자 기반 모형

https://deepmind.com/blog/understanding-agent-cooperation/

최근에 인공지능에 승부욕이 있다느니 혹은 공격성을 보였다느니 하는 식으로 소개된 딥마인드의 연구다. 사실 연구의 핵심은 두 행위자들을 강화학습으로 훈련시켜서 행위 전략을 스스로 학습하게 했을 때 협력 혹은 경쟁 전략이 나타나는 것을 분석했다고 보면 될 것 같다.

사실 많은 수의 행위자들이 환경과 전략, 상호작용에 의해 행위하면서 나타나는 집단적 행위와 현상에 대한 계산적 접근은 행위자 기반 모형(Agent-Based Modeling)이라는 나름 오랜 역사를 가지고 있는 장르다. 행위자 기반 모형은 행위자와 환경을 설정하고 행위자가 주위 환경과 다른 행위자, 자신의 상태에 의거해 어떻게 행위할 것인지를 설정하는 것으로 구성된다. 그렇게 행위자와 환경을 구성해놓고 시뮬레이션해서 어떤 결과가 나타나는지를 분석하는 것이 행위자 기반 모형의 요지라고 할 수 있을 것이다.

이 연구는 행위자 기반 모형에서 행위자의 구체적인 행위 전략을 지정하는 대신 행위자가 스스로 전략을 학습하도록 했다는 것이 일반적인 행위자 기반 모형과의 가장 큰 차이일 것이다. 행위자가 취할 수 있는 행위와 최대화하고자 하는 목표 혹은 보상을 지정한 다음 강화학습으로 학습시키면 행위자는 스스로 합리적인 전략을 학습해낸다.

여전히 환경과 가능한 행위를 지정해야 하고 추가적으로 목표도 설정해야 한다는 한계가 있긴 하지만 스스로 전략을 학습할 수 있다는 것만으로도 여러모로 해볼만한 것들이 많을 듯 싶다. 행위자가 둘이 아니라 그보다 훨씬 많다면? 가능한 선택지들이 더 많아진다면? 그렇다면 어떤 일들이 벌어질 것인가? 그런 상황 속에서 행위자들이 어떻게 행위하고 그렇게 행위할 때 집단 규모에서 현상이 나타나는가 하는 것은 흥미로운 주제일 것이다. 예를 들어 슈가스케이프에서 행위자들이 자신의 설탕을 최대화하기 위해 행위한다면 행위자들은 어떻게 행위하게 될까? 그리고 설탕의 양을 최대화하기 위해 행위자들이 합리적으로 행위할 때 전체 시스템의 모습은 어떠할 것인가?

물론 목표에 대해 최적인 전략을 학습하는 것이기 때문에 늘 인간의 비합리적인 행위에 관심이 많은 사회학적 관점에서는 조금 흥미가 떨어질 수도 있긴 하겠다. 그렇지만 제한적 합리성을 반영한다면 또 재미있는 현상을 관찰할 수 있을지도 모른다.

강화 학습과 행위자 기반 모형

Kim Seonghyeon

Posts

클레르 옵스퀴르: 33 원정대

Scaling Law, Architecture for Stability and Layer Stacking

Preliminary Explorations on UL2 and Second-order Optimizers

Constitutional AI

이미지와 텍스트 생성 모델에 대해

언어의 손실 압축에 대하여

OCR 회고

텔 아비브와 ECCV 2022 여행기 7

텔 아비브와 ECCV 2022 여행기 6