지금의 강화학습은 행동주의 심리학의 조작적 조건 형성과 많이 닮아있다. 사실 강화Reinforcement라는 단어를 쓰는 것 자체가 행동주의적 심리학의 언어 …
https://deepmind.com/blog/understanding-agent-cooperation/ 최근에 인공지능에 승부욕이 있다느니 혹은 공격성을 보였다느니 하는 식으로 소개된 딥마인드의 연구다. 사실 연구의 핵심은 두 행위자들을 강화학습으로 훈련시켜서 …
Nondifferentiable Log
https://deepmind.com/blog/understanding-agent-cooperation/ 최근에 인공지능에 승부욕이 있다느니 혹은 공격성을 보였다느니 하는 식으로 소개된 딥마인드의 연구다. 사실 연구의 핵심은 두 행위자들을 강화학습으로 훈련시켜서 …