본문 바로가기
데이터 사이언스 이야기/통계학

[통계학] 표본과 모집단(Sample and Population)

by Data_to_Impact 2021. 5. 26.
반응형

모집단과 표본의 관계 Source: https://www.cliffsnotes.com/study-guides/statistics/sampling/populations-samples-parameters-and-statistics

 

표본과 모집단(Sample and Population)

 

내가 한국에서 통계학을 처음 접했을때 교과서에 나오는 통계학에 대한 용어가 참 싫었는데, 그 이유 중에 하나는 아마도 번역본 특유의 억지 번역투 때문에 거부감이 컸던 것 같다. 그 중에서도 표본(標本)과 모집단(母集團) 같은 용어는 한자를 써서 개념이 더 직관적으로 와닿지 않았었는데, 쉽게 설명 하자면 표본은 모집단의 부분집합이고, 어미모를 쓰는 모집단은 우리가 관심있어 하는 전체 집단을 포괄하는 개념이다. 영어로는 Sample(표본) 과 Population(모집단)이라고 기술을 하는데, 개인적으로는 이런 개념들은 영어로 설명을 하는 것이 머리로 받아들이기에  직관적으로 와닿지 않나 하는 생각이 든다.

 

 

모집단(Population)과 통계적 추론(Statistical Inference)

 

우리가 통계학을 공부하는 이유를 잘 생각해보면 결국에는 이 모집단에서 알고자 하는 것이다. 우리가 손에 쥐고 있는 데이터는 모집단이 아니라 모집단의 일부분인 표본(Sample)으로 한정 되어 있는데, 통계학이 표본을 통해서 모집단에서 대해서 연구를 하는 것이라는 것을 이해하는 것이 아무리 강조해도 지나치지 않을 만큼 처음 통계학을 접하는 사람들에게는 중요한 개념이다. 이렇게 모집단에 대해서 수학적으로 예측하거나 불확실성을 계량화 하는 것을 통계적인 추론(Statistical Inference)이라고 하고, 우리에게 익숙한 평균, 분산등 수치적인 요약(Summary)을 하는 것을 기술통계(Descriptive Statistics)라고 한다.

 

반응형

매개변수(Parameter)와 통계값(Statistic)

 

매개변수(Parameter)는 모집단의 정보가 담긴 수치정보를 말하는 것이고, Statistic은 표본의 수치정보가 담긴 것을 말한다. 예를 들어서 선거의 경우에는 우리는 출구조사를 통해서 전체 득표율을 추측하고자 할 것이다. 여기에서 출구조사에서 나오는 득표율을 P^(P hat)이라는 통계값으로 명명하고, 개표가 끝난 뒤에 전체 득표율을 P라는 매개변수라고 정의할 수 있다. 두 개념이 모집단과 표본의 차이라는 것을 잘 기억을 해야 한다.

 

 

임의추출(Random Sampling)의 중요성

 

통계학교과서에서는 늘 빠짐없이 랜덤 샘플링의 중요성을 언급하는데, 이는 우리가 샘플링의 과정에서 모집단의 특성을 왜곡하지 않기 위해서이다. 대선후보의 지지율 조사를 예를들어 보고자 한다. 우리는 한 대선 후보의 전국 지지율을 알고 싶다고 한다면, 여기서 모집단은 투표권이 있는 모든 국민이 될 것이다. 하지만 우리가 표본을 특정 지역에서만 뽑아오거나 특정 당원의 명부에서 선별을 한다면 이 샘플링 과정은 모집단을 잘 대표하지 못하기 때문에 잘못된 추론이 될 가능성이 크다.

 

 

빅데이터는 통계학을 대체할까?

 

몇년 전부터 Big Data라는 Buzz words가 유행을 했는데, Big Data의 신봉론자에 따르면 데이터가 더 많아지면 질수록 결국 수집된 정보가 모집단에 가까워 지므로 나중에는 통계학이 전혀 필요없을 것이라는 의견도 있었는데, 개인적인 생각으로는 이런 빅데이터의 장밋빛 견해에 대해서 부정적인 입장을 가지고 있다.

 

첫째로는 데이터수 자체가 많다는 것 보다는 얼마나 필요한 정보들 포함한 양질의 데이터를 확보하는지가 더 중요하기 때문이고, 둘째로는 기타요인으로 데이터를 대량으로 수집하기 힘든 환경인 경우도 많기 때문이다. 예를 들어서 내가 일하는 신약개발, 임상시험 분야의 경우에는 환자(표본)들을 모집해서 전통적인 통계학 방법으로 추론을 하고 결론을 내는데 현실적으로 해당 질병에 해당되는(모집단)을 대상으로 데이터를 수집하기가 불가능하기 때문이다. 그렇기 때문에 나는 빅데이터의 시대에도 통계학은 여전히 그 역할이 중요하다고 생각을 한다.

 

 

 

글이 도움이 되셨다면 구독하트 부탁드립니다.

반응형

댓글