강한 사전 분포
균일 사전 분포 같은 정보가 없는 분포가 아닌 정보가 있는 사전 분포(이하 강한 사전 분포)를 사용한다고 할 때 왜 생리적인(?) 거부감 같은 것이 생기는 것일까? 그건 아마도 논문에서 가설에 따라 양측 검정이 아닌 단측 검정을 했다는 대목을 마주했을 때 많은 사람들이 하는 생각과 비슷한 이유 때문일 것이다. ‘사전 가설 때문이 아니라 단측 검정을 해야 유의하게 나왔기 때문이겠지!’
그런데 사실 강한 사전 분포는 실용적인 목적으로는 정말로 흔하게 사용되고 있다. 대표적인 예가 정규화 회귀일 것이다. Ridge는 회귀 계수에 대해 가우시안 분포를 가정하는 것과 동등하고 LASSO는 계수에 대해 라플라스 분포를 가정하는 것과 동등하다. 계수가 0과 가깝거나 혹은 아주 0일 가능성이 높다는 사전적인 지식과 정보, 가정을 가지고 모형을 적합하는 것이다.
그렇다면 가우시안 분포의 분산 혹은 라플라스 분포의 스케일 파라미터, 즉 보다 구체적인 정보는 어떻게 결정되는가? 그저 데이터셋을 나눠놓고 테스트 셋 혹은 validation 셋에 대해 가장 나은 퍼포먼스를 보여주는 파라미터로 결정하는 것이다. 혹은 트레이닝 셋 자체를 통해 추론할 수도 있다(Empirical Bayes). 모형에 대한 주관성의 반영이라는 매우 철학적이고 거창해보이는 문제를 실용적 측면에서는 Cross validation 혹은 더 골때리는 방법의 힘으로 우회하거나 해소하고 있다.
그래서 강한 사전 분포의 사용 등은 많은 사람들이 생리적 거부감을 느끼는 것처럼 무시무시한 방법이 아니라고 본다. 오히려 반대로 늘 증거에 증거를 쌓으며 발전하고 있는 과학이 매번 마치 이전에 아무 것도 없었던 것처럼 맨땅에서 시작하려고 시도하면서 그것이 객관성을 담지하는 방법인 것처럼 여기는 것이 오히려 이상한 것이 아닐까 한다. 하다못해 이전 연구에서 잘 동작한다고 알려진 하이퍼 파라미터 세팅 등을 다들 가져다 쓰고 있지 않은가? 그 뿐만 아니라 실험의 설계라거나 수집하는 변수, 모형의 설계 등등에 모두 이전 연구들의 정보가 녹아들어가 있는 것이다. 단지 사전 분포 등에 그러한 정보를 반영하지 않는 것이 컨벤션일 뿐…
물론 과학이 신뢰롭게 사전 분포에 반영할 수 있을만한 정보를 축적해왔는가 하는 것은 별개의 문제이긴 하다.