최근 뉴스 기사를 보던 중 눈에 띄는 제목이 있었습니다. ‘대한민국 작년 평균 월급이 300만 원이 넘어’ 라는 제목으로 기사가 올라왔기 때문입니다.


저도 놀라고, 친구도 놀라고, 네티즌들도 놀랐습니다. 도저히 믿기지가 않았기 때문입니다. 하지만 기사의 내용을 보니 고용노동부가 발표한 사업체 노동력조사 결과에 따르면 2013년 상용근로자 5인 이상 사업체라며 정확한 출처와 공신력 있는 기관에서 정확한 조사대상을 선정하여 조사했다고 하니 한번 더 놀랐습니다.


그렇다면 네티즌들의 반응들은 어땠을까요? 기사의 댓글 중 네티즌들의 가장 많은 공감을 받은 댓글입니다.

 

 

사진의 내용처럼 어느 나라 임금이 300이냐?’, ‘의미 없는 기사 올리지 마라.’, 등등 기사의 내용을 인정할 수 없다는 의견들이 가장 공감을 많이 얻었습니다. 댓글의 공감의 수로 미루어 보아, 대부분의 네티즌들은 우리나라의 작년 평균 월급이 300만 원 이라는 발표를 신뢰하지 못하는 것으로 보여집니다.

 

특히, '통계를 어떤 식으로 내는 건지 궁금하네.' 라고 어느 분이 말씀하셔서 혹시 기사가 잘못되었나 싶어서 직접 통계청에서 자료를 얻고 그래프로 만들어 보았습니다. 그 결과...!!  

 

 

 

<자료 : 통계청 >

 

 

 

 <원본 출처 : flickr.com >

 

 

진짜였습니다. 작년 대한민국의 월 평균 임금은 3,229,000원이었습니다! 통계청과 고용노동부의 발표가 틀렸을까요? 아니면 조사를 정말 잘못해서 일반 사람들이 인정을 못 할 통계치가 나온 것일까요? 결론부터 말하자면 '통계청의 발표는 잘못되지 않았습니다.' 정말 작년 대한민국의 월 평균 임금은 300만 원이 맞습니다. 그렇다면...,

 


"무엇이 우리를 이토록 통계치현실괴리감을 느끼게 하는 것 일까요?"

  

  

<원본 출처 : flickr.com >

 

 

평균(Mean)

 

 

< 출처 : 네이버 지식백과 >

 

 

우리가 생활 속에서도 쭉 써오던 용어이자 초등학교 5학년부터 배우는 개념인 바로! ‘평균입니다평균이라는 단어 속에 우리는 본능적으로 어느 집단의 대푯값 혹은 특징을 잘 나타내는 중심이라고 생각하고 있기 때문입니다. 틀린 생각은 절대 아닙니다. 평균'하나도 빠짐없이' 자료의 모든 값을 잘 반영하여 평형을 시켜주는 아주 멋있는 친구입니다.

 

 

밑의 자료는 초등학교 교과서에서 평균에 대한 설명을 나타내는 방법 중 한 예화입니다.

 

 

 

<출처 : 네이버 지식백과 >

 

학교 선생님이 우리 반 과목별 평균점수다.” 라며 평균= 집단의 대푯값이라는 식의 설명으로 시작하고 있습니다. 실제로 우리도 평균을 그런 뜻으로 많이 사용해 왔습니다.

 

지만 여기에 치명적인 단점이 있습니다. 그 단점을 제가 재밌는 한 가지 예화로 설명해 드리겠습니다.

 

 

 

<사진 원본 : http://ask.nate.com/qna/view.html?n=8100637 >

 

 

 

이 달동네의 평균 월급을 구하면

이 나왔습니다.

 

"달동네 주민의 평균 월급은 정말로 1,000만 원인가요?"

 

"네, 맞습니다."

 

평균 월급은 1,000만 원이 맞습니다. 하지만 평균 월급이 달동네라는 집단의 특징을 잘 나타내는 것일까요이 달동네 주민들의 소득 수준이 정말 1,000만 원이 맞을까요평균 월급이 1,000만 원이라고 해서 이 달동네 대부분 주민이 1,000만 원을 벌고 있나요?

 

 

당연히 아닙니다. 즉, 평균이라고 해서 '무조건' 어느 집단의 중간쯤 되는 대표라고 생각하시는 것은 옳지 않다는 것입니다.

 

 

 

위 예화처럼 평균은 모든 자료의 값을 사용하기 때문에 극단적으로 크거나, 극단적으로 작은 값 즉, 이상점(outlier)이 나오게 되면 모든 자료의 균형은 깨지게 되고 우리가 알고자 하는 평균으로서의 대표 값의 의미는 사라지게 됩니다.

 

 

 

 

 

 

<원본 출처 : http://ask.nate.com/qna/view.html?n=6275345>

 

 

우리는 집단의 중심 알고자 할 때 치명적인 약점을 가진 평균 말고 다른 어떤 것들을 사용할 수 있을까요?

 

 

 

#  자료 중심의 측도

 

중앙값(Median)

 

 

 

<출처 : 이훈영,『일반통계학』(도서출판 청람 2013), p74

 

 

앙값은 전체 자료 값들을 오름차순 정렬하였을 경우 중앙에 위치한 값을 뜻합니다. 자료의 개수가 홀수이냐 짝수이냐의 따라서 구하는 방법도 달라집니다. 중앙값의 특징은 자료들의 수치를 전부 다 담고 있지는 않지만, 자료들의 중간을 가장 잘 나타내줍니다. 또한, 극단적인 값들의 영향을 받지 않기 때문에 평균이 극단적인 값들로 인해 대푯값으로 쓰일 수 없을 때 자료의 대푯값으로 쓰입니다.


 

최빈값(Mode)

 

 

 

빈값은 자료 값들의 빈도(출현횟수)를 구하였을 때, 가장 높은 값을 말합니다. 위의 사진에서 보신 것처럼 24명의 과일 선호도를 구했습니다. 이때의 최빈값으로는 10명의 선택을 받는 수박이 최빈값이 됩니다. 이렇듯 많은 사람이 선택한 값이거나 속한 자료가 그 집단의 대푯값이 되기도 합니다. 평균과 중앙값과 더불어 최빈값은 자료의 대푯값으로 주로 쓰이는 개념입니다.

 


절사평균(Trimmed Mean)

 

 

 

 

사평균은 평균의 단점을 보완하기 위해 만들어진 평균입니다. 중앙값과 평균을 혼합하여 계산하는 방식으로, 알고자 하는 '집단의 모든 자료를 오름차순으로 정렬한 뒤 상위 α % 와 하위 α % 를 제외한 나머지 자료들의 평균'입니다. 평균의 단점인 이상 점(outlier)으로 인한 왜곡현상을 막으며 더욱 정확한 자료 중심의 측도라 할 수 있습니다. 하지만 α 어느 정도까지 할 것인지에 따른 의견차이로 인해 자주 쓰이지는 않습니다.

 

 

#  정리

 

<출처 : http://www.datanews.co.kr/site/datanews/Print.asp?aID=20090128155538060>

 

 

보시는 그림이 지금껏 제가 해왔던 이야기의 결론 입니다. 그렇습니다. 평균이 아무리 높아도 그 구성원이 모두가 높은 것이 아닐 수가 있습니다. 극단적인 값들로 인해 극단적으로 중심이 변하게 되는 평균은 '무조건' 집단의 대푯값이 될 수 없습니다. 즉, 중앙값최빈값을 고려해야만 집단의 중심을 알아볼 수 있습니다.


 

이번 고용노동부의 발표에 따른 대부분 네티즌의 댓글처럼 평균이 전하는 표면적인 수치만 보고 결과를 잘못 해석하며 잘못된 판단하는 것이 아니라, 수치 이면의 내용까지 꿰뚫어 볼 줄 아는 멋있는 통통이 독자 여러분이 되길 바랍니다! 아자! 아자! 화이팅! 



 ※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다



 

+ Recent posts