K값 논란
노령인구 비율과 미분류비율로 그린 산포도인데 상당히 강한 선형입니다. 툭 튀어나와있는 점은 세종시인데 세종시는 아웃라이어라고 볼 수 있겠죠. 그래서 분석에서 일단 뺍니다. (이러면 안 되긴 하는데 큰 문제는 없을 거라고 봅니다.)
노령인구 비율은 [0, 1] 사이의 값이고 하니 일단 단순선형회귀를 해볼 수 있겠죠. 그러면 노령비율에 의한 계수는 0.2356이고 절편은 0.0056입니다. 그러니까,
미분류비율 = 0.0056 + 0.2356 * 노령인구비율
인 것이죠. Adj R^2 = 0.8575입니다. 꽤 높죠?
그러면 이걸 가지고 노령인구에 의해 발생한 미분류비율을 추정해볼 수 있습니다. 아주 과격한 외삽이지만 노령인구비율이 0이라고 했을 때 미분류비율을 위의 회귀식으로 구해볼 수 있죠. 그러면 절편의 값인 0.0056이 나옵니다. 그리고 전체 노령인구비율이 0.19인데 이걸로 회귀식에 넣어서 계산해보면 예상되는 전국 미분류비율은 0.03623이고 실제 미분류율인 0.03663과 거의 같습니다. 그리고 이렇게 계산해보면 미분류표 비율에서 노년층의 비율은 0.8471이 나오고 미노년층의 비율은 0.1529가 나옵니다.
그러면 각 세대별로 분류표에서 문재인-박근혜 지지율과 미분류표에서 문재인-박근혜의 지지율이 같다고 가정해봅시다.
2012 대선에서 60대 이상의 문재인 박근혜 지지율은 0.3057 : 0.6943이었고 60대 미만의 문재인 박근혜 지지율은 0.5453 : 0.4546이었습니다. 그러니까 문재인 박근혜 지지율이 55%대 45%인 60대 미만 세대의 분포에서 15% 만큼이 나와서 미분류표가 되고, 31%대 69%인 60대 이상 세대의 분포에서 85% 만큼이 나와서 미분류표가 됐다고 합시다.
문재인과 박근혜 각각에 대해 계산해보면
미분류 문재인 = 60대 미만 * 미분류표 * 55% + 60대 이상 * 미분류표 * 31%
미분류 박근혜 = 60대 미만 * 미분류표 * 45% + 60대 이상 * 미분류표 * 69%
가 되겠죠.
그러면 미분류표에서 문재인은 34%가 나왔고 박근혜는 66%가 나왔다는 계산이 나옵니다. 실제 미분류표에서의 비율은 40%대 60%입니다.
그러면 이 비율을 가지고 K값을 계산해보죠. (미분류 박근혜 / 미분류 문재인) / (전체 박근혜 / 전체 문재인)으로 계산해보면 1.7861이 나옵니다. 1.5보다 크네요.
그리고 이렇게 계산해보면 왜 미분류율이 3%가 넘어가는지 알 수 있습니다. 노년층을 빼고 생각해보면 위의 회귀식에서 미분류율은 0.5% 정도가 나왔을 거라고 볼 수 있죠. 미분류율을 계산할 때 노년층의 특징을 반영하지 못했던 것 같고 노년층이 3%p 정도의 미분류율을 만든 것이라고 볼 수 있습니다.