인과적 구조

유디 펄(Judea Pearl)이 어디 초청받아 강연을 하러 가보니까 강연을 주최한 기관 이름이 데이터 사이언스 및 엔지니어링 연구소였다고 한다. 유디 펄이 이게 마음에 안 들었는지 우리가 필요로하는 것이 데이터의 과학인가 아니면 데이터를 생성하는 실제에 대한 과학인가? 라고 물었단다. 하여간 이 양반도 참 까다로운 양반이다.

이 질문의 요지는 우리가 인과적 관계를 어떻게 발견할 수 있는가 하는 문제와 관련되어 있다. 유디 펄이 꾸준히 강조해온 것은 인과적 구조는 데이터에서 뽑아낼 수 없다는 것이다. 인과적 구조를 다루는 것은 이론이 해야 할 일이고 이론을 통해 데이터의 인과적 구조, 즉 데이터를 생성하는 자연과 세상의 메커니즘을 기반으로 모델이 구성되었을 때 그 모델을 통해 인과적 추론을 수행할 수 있다는 것이다. 유디 펄은 이 문제를 가지고 앤드류 겔만과 한 판 붙은 적도 있는데 자세한 내용은 앤드류 겔만의 블로그를 참조하면 된다. (http://andrewgelman.com/2014/07/03/great-advantage-model-based-ad-hoc-ap-proach-seems-given-time-know/) 하여간 인과적 정보를 데이터를 통해서 추론할 수 없다는 것은 메커니즘 기반 설명을 지지하는 학자들도 공통적으로 동의하는 부분이고 이와 관련된 논의는 Hedstrom의 디쎅팅 더 소샬 같은 것에 잘 정리되어 있다. 방법론 공부를 하려고 계량경제학 책만 보던 불쌍한 사회학도들이 사회학자가 쓴 책으로 공부할 수 있게 해준 Morgan & Winship 같은 경우에도 실용적인 측면에서 이런 시각에 대해 소개하고 있다.

그런데 문제는 데이터를 본다고 데이터 생성 과정을 알 수 있는 것도 아닌데 어떻게 데이터 생성 과정에 대한 이론을 만들 수 있는가? 하는 것이다. 그럴 듯한 인과적 구조가 한둘 밖에 없으면 좋겠지만 사회 현상이라는 게 그렇질 않다. 일찌기 Stinchcombe이 이르길 상관관계를 보고 최소 3개 정도의 그럴 듯한 설명을 만들어낼 수 없는 학생은 사회학자 말고 다른 직업을 알아보는 것이 좋다고 했다. 여튼 인간이 그럴 듯하다고 생각하는 인과 메커니즘은 수도 없이 많은데다 끊임없이 새로 생겨나기까지 한다. 물론 데이터를 통해 인과 메커니즘을 테스트하는 것은 할 수 있으니 이론과 실증이 서로 피드백하며 잘 하다보면 발전할 수 있다는 이런 쪽 학자들이 딱히 할 말이 없으면 하는 말 정도는 할 수 있겠지만.

그러면 모델에 인과적 구조를 잘못 기술하면 어떻게 되는가? 물론 추론이 무너지고 설명이 무너지고 예측이 황폐화된다. 반대로 이론적으론 꼭 집어넣어야 하는 변수인데 데이터가 없는 경우도 흔하다. 몇 가지 경우에는 인과 그래프 모형의 특성을 이용해 인과성의 존재 여부를 테스트할 수는 있는데 이러면 효과 크기를 추정하는 것이 불가능해진다. 인과관계가 있는지 없는지도 몰라서 문제인데 효과 크기까지 따지는 건 과욕이긴 하겠다.

그래서 Breiman 같은 경우엔 자연이 니들 생각처럼 간단한 메커니즘을 가지고 있을 거라는 기대를 버리고 그냥 블랙박스 취급하는 것이 나을 수 있다는 이야기까지 하게 된 것이다.

하여간 사회현상에 대한 인과적 설명을 신뢰롭게 한다는 것은 정말 어려운 일이고 많은 사람들이 관심 있어하는 문제에 대해서 사회과학이 그런 수준까지 도달하는 것이 가능하긴 한지 하는 생각이 들 때가 있는 것이다.

인과적 구조

Kim Seonghyeon

Posts

클레르 옵스퀴르: 33 원정대

Scaling Law, Architecture for Stability and Layer Stacking

Preliminary Explorations on UL2 and Second-order Optimizers

Constitutional AI

이미지와 텍스트 생성 모델에 대해

언어의 손실 압축에 대하여

OCR 회고

텔 아비브와 ECCV 2022 여행기 7

텔 아비브와 ECCV 2022 여행기 6