현대는 정보과잉의 시대다. 우리가 필요한 건 더 많은 정보라기보다 정보를 효과적이고 객관적으로 요약해주는 도구다. 요즘 중요성이 증가하는 빅(Big) 데이터도 그 데이터를 작게 요약해서 메시지를 전달해주는 도구가 없으면 무용지물이다. 이러한 도구들을 우리는 흔히 ‘통계’라고 부르며 앞으로 그러한 의미의 통계는 점점 중요해질 것이다. 하지만 이처럼 증가하는 통계의 중요성과 더불어 통계가 얼마나 믿을만한가에 대한 질문 또한 커지고 있다. 당장 대학에 있는 우리들은 각종 언론에서 복잡한 통계수치에 근거해 내놓는 대학순위가 때로는 터무니없다고 생각하면서도 상당히 이 순위에 집착한다. 실업률을 계산할 때 구직포기자를 계산에 넣어야 하는지, 비정규직 비율을 반영해야 하는 건 아닌지 등이 분명하지 않더라도 실업률은 한 사회의 중요한 지표다. 이러한 문제들은 통계를 의도적으로 왜곡하는 문제를 논외로 하더라도 통계라는 것이 절대적 객관성이 없다는 점을 드러낸다. 당장 교양통계 수업을 들어본 학생이라면 통계적 검정기준이 되는 5%, 1% 등의 유의수준이 객관적이라기보다는 관습적이라고 생각할 것이다.

결국 현실을 요약하고 메시지를 전달하는 통계의 타당성은 사회적 환경과 화두에 따라 상대적으로 평가해야 한다. 평균(mean) 소득이 중요한 사회가 있고, 중간(median) 소득이 중요한 사회가 있으며, 상대적 소득 분포가 더 중요한 사회가 있다. 상대적 소득분포 중에서도 빈곤률이 중요할 수도 있고 양극화가 중요할 수도 있다. 극단적으로 말하자면 보편적 객관성보다는 상대적 실용성이 있을 뿐이라고 말하고 싶다. 만일 어떠한 통계치가 더 타당한지를 상대적으로 평가해 줄 사회적 화두에 대한 합의가 없다면, 대안적인 복수의 통계치를 개발, 제시하고 각 통계치의 산출 근거에 대한 정보도 제공되어야 할 것이다. 그러나 이러한 방식이 심화되다보면 정보 과잉을 해결하고자 도입한 통계 자체가 과잉이 되어 통계 본연의 임무가 무색해진다. 이러한 논지를 따르다보니 통계에 대한 상대적이고 실용적 입장은 냉소적인 결론에 도달하는 것 같다. 그러나 통계의 실제 활용 문제에 있어서는 그렇지 않다고 말하고 싶다.
 
빅데이터 문제로 한 번 돌아가 보자. 보통의 경우 통계적 기법은 우리가 궁금한 모집단(population)의 어떤 특성을 어떻게 추정할지를 주로 고민한다. 그런데 빅데이터를 통계적으로 다룰 때는 사실 모집단 전체를 분석하곤 하기 때문에 추정의 문제는 상대적으로 덜 고민한다. 대신 그간 상대적으로 덜 고민했던 문제를 끄집어낸다. 우리가 궁금해 하는 모집단을 제대로 정의할 수 있는가? 예를 들어 트위터에 계정만 열어놓은 모든 사람을 트위터 사용자로 정의하고 싶지는 않을 것이다. 이 문제는 빅데이터를 생산해내는 SNS 사용자가 일반 인구를 대표할 수 없는 편향된 모집단이라는 문제점 이전에, SNS 사용자 집단 자체라는 걸 정의할 수 있느냐 하는 문제이다. 한 사회의 모집단을 그 사회의 시민권자라고 정의할 수 있다면, 한 온라인 사회의 시민권은 어떻게 획득되거나 규정할 수 있느냐 하는 문제이다. 그리고 이 문제는 통계학자보다는 사회철학자에게 더 적합한 문제일 수 있다. 이처럼 인간 사회에서 통계를 실용적으로 활용하는 문제는 타 학문 분야까지 걸치는 지적, 사회적 질문을 던지고 해답을 모색할 수 있다.
 
영화 ‘살인의 추억’에서 서류(숫자/데이터)는 거짓말을 하지 않는다고 말하던 젊은 형사의 눈빛은 영화 마지막에서는 누구보다도 불확실성으로 가득 차 있다. 한 사회가 부조리하다면 통계에 대한 신뢰는 참으로 덧없을지 모른다. 사회 통계의 문제를 통계학자에게 맡겨놓을 수 없듯이, 사회의 부조리를 해결할 수 있는 화두의 발견과 합의는 국가에 맡겨놓을 문제가 아니다. 통계분석의 대상인 우리 모두의 몫이다.
 
저작권자 © 연세춘추 무단전재 및 재배포 금지