https://www.theguardian.com/politics/2017/jan/19/crisis-of-statistics-big-data-democracy

예컨대 회귀분석에서 어떤 요인들은 은연중에 오차항으로 취급된다. GDP 등이 중요한 예측 혹은 응답 변수로 취급된다면 이 글에서 제안하는 것과 같이 지역 등등의 요인들은 오차항에 포함되는 것으로 취급된다.

이전 글에서도 썼지만 그래서 분산 설명량이 높기 힘든 것이다.

당연히 더 나은 모형이 되기 위해서는 기존의 모형에 포함되지 않았던 변수들을 포함시킬 필요가 있다. 이는 단순히 분산 설명량을 높이는 것 뿐만 아니라 변수들 사이의 새로운 관계 - 예컨대 조절효과 등을 밝혀주는 것이 될 수도 있고 변수들의 인과 관계를 보다 신뢰롭게 만들 수도 있다.

그렇다면 왜 이러한 변수들은 통계 모형에 포함되지 않았던 것인가? 첫번째 바로 생각할 수 있는 이유 - 동시에 가장 무해한 이유 - 는 단순히 데이터가 없거나 충분하지 않았기 때문이라는 것이다.

둘째 이유, 좀 더 위험한 가능성은 엘리트들이 그러한 요인들에 대해서 관심이 없었기 때문이라는 것이다. 예컨대 국내총생산에는 관심이 있으면서도 그것이 어떻게 분배되고 분포하고 있는지에 대해서는 특별한 관심이 없었기 때문일 수 있다. 마찬가지로 노동이나 지역, 계층에 대해서는 큰 관심이 없었기에 그러한 것들이 모형에 포함되지 않았을 수 있다.

물론 더 위험한 가능성이 있다면 그건 엘리트들이 그러한 요인을 의도적으로 무시해왔기 때문이라는 것일 것이다.