머신 러닝이 사회과학 연구에 어떤 도움이 될까?

머신 러닝 알고리즘 중에는 사회과학에서 흔히 쓰이던 방법과 거의 동일한 작업을 수행할 수 있으면서 많은 경우에 더 강력한 알고리즘들이 있다. 예를 들면 랜덤 포레스트 aka 갓갓 포레스트 같은 것들. 이건 사회과학에서 기존에 쓰이던 방법을 대체할 수 있는 방법이다.

어떤 알고리즘은 기존에 쓰이던 데이터를 다른 방식으로 접근할 수 있게 해주는 것도 있다. 예를 들면 시각화를 위해 t-SNE를 쓴다거나 하는 경우. 물론 MDS 같은 전통적인 알고리즘이 있으니까 사실상 1번 케이스라고 해도 좋을 것이다.

아마 머신 러닝 알고리즘들이 가장 크게 기여할 수 있는 것은 아주 새로운 종류의 데이터를 다룰 수 있게 된다는 것일 것이다. 예를 들면 이미지나 텍스트, 혹은 오디오나 비디오 등등 소위 비정형 데이터라고 불리는 것들을 다룰 수 있다는 것이 그런 사례다.

그런데 반대로 기존의 사회과학에서 이런 종류의 데이터를 분석하는 것이 필요한 경우가 있었을까? 아마 대체로 전통적인 tabular 데이터를 분석하는 것이 필요한 연구 문제들이 사회과학에 주류였을 것이다. 새로운 종류의 데이터를 분석할 수 있게 되기는 했지만, 굳이 그런 데이터를 분석할 필요가 없을 경우가 있을 수 있다.

물론 그런 필요가 없는 것은 이전에는 그런 데이터를 거의 분석할 수 없었기 때문에 그런 데이터를 활용할 방법들에 대해서 그다지 생각해보지 않았기 때문일 수 있다. 그런 데이터 또한 분석할 수 있다는 것을 인식하고 생각해보다 보면 기존의 문제들을 새롭게 접근해서 푸는 방법들을 생각해볼 수 있을지도 모르겠다.

그렇지만 나는 여전히 중요한 문제들을 푸는데 굳이 새로운 형식의 데이터가 필요하지 않거나 혹은 별 도움이 되지 않는 경우가 많지 않을까 생각한다.