본문 바로가기

데이터 사이언스 이야기/통계학4

[통계학] 표본과 모집단(Sample and Population) 표본과 모집단(Sample and Population) 내가 한국에서 통계학을 처음 접했을때 교과서에 나오는 통계학에 대한 용어가 참 싫었는데, 그 이유 중에 하나는 아마도 번역본 특유의 억지 번역투 때문에 거부감이 컸던 것 같다. 그 중에서도 표본(標本)과 모집단(母集團) 같은 용어는 한자를 써서 개념이 더 직관적으로 와닿지 않았었는데, 쉽게 설명 하자면 표본은 모집단의 부분집합이고, 어미모를 쓰는 모집단은 우리가 관심있어 하는 전체 집단을 포괄하는 개념이다. 영어로는 Sample(표본) 과 Population(모집단)이라고 기술을 하는데, 개인적으로는 이런 개념들은 영어로 설명을 하는 것이 머리로 받아들이기에 직관적으로 와닿지 않나 하는 생각이 든다. 모집단(Population)과 통계적 추론(Sta.. 2021. 5. 26.
통계적 모델링(Statistical Modeling)의 목적과 과정 통계를 배우는 이유?- 통계적 모델링의 목적과 과정 요즘에는 Coursera에서 베이지안 강의를 듣고있는데, 강의의 도입부에서 통계적 모델링의 목적과 과정에 관해서 잘 설명을 한 것 같아서 글로서 한번 정리를 해보려고 한다. 통계를 처음 배우는 사람이거나 통계학을 배웠지만 아직 체계가 잡히지 않은 사람이 이 글을 읽는다면 유용할 것 같다는 생각이 든다. 통계적 모델링의 정의 통계적 모델링이란 확률/수학적인 모형을 가지고 현실세계의 데이터 형성 과정을 모방을 한 것이라고 정의를 한다. 이러한 모형은 현실을 그대로 반영하지는 못한다는 한계가 있지만, 그럼에도 불구하고 적절한 가정들(Assumptions) 하에 유용하게 쓰일 수 가 있다. 다음의 네 가지 경우는 이런 통계적 모델링의 활용을 유형화 한 것이다... 2020. 12. 12.
인과관계와 상관관계의 차이와 그 사례들 인과관계와 상관관계의 차이와 그 사례들 그리고 인과추론 “Correlation does not imply causation.” 회귀분석 같은 통계학 교과서를 읽다보면 위와같이, 상관관계(Correlation)는 인과관계(Causation)를 보장하지 못한다라는 문장을 자주 접하게 된다. 통계학을 이제 막 배우기 단계라면 이런 개념 자체에 대한 이해가 없기 때문에 문장이 주는 의미가 잘 다가 오지 않을 수 도 있는데, 이런 경우에는 사례를 통해서 이해를 하는 편이 좋은데 이들의 차이점에 대해서 일반적인 몇 가지 예를 들어보려고 한다. 조상들의 인과추론 실폐사례 - 기우제와 마녀사냥 수 백년전만 하더라도 인류는 과학에 대해서 무지했음으로 관측된 두 사건이의 관계를 인과관계로 착각한 사례가 많았는데, 가뭄이 .. 2020. 12. 7.
[test][통계학]Dynamic Treatment Regime Background Dynamic Treatment Regime은 Personlized Medicine 의 한 분야이다. 존의 치료법이 전체에 대한 집단을 대상으로 진행을 하는 것이였다면, Personalized Medicine은 개개인의 특성 (성별, 유전 정보, 호전 상태)를 가지고 개인화된 치료법을 제공하는 것이다. Personalized -Why? Dynamic Treatment Regime은 이런 개인화치료법을 Longitudinal Environment에 적용을 한 것이다. 미리 설정된 Final End Point가 정해져 있고 여기에 Outcome Y를 maximize 하는것이 Dynamic Treatment의 목표이다. 위 그림은 DTR의 개략적인 과정을 보여주고 있는데 환자들의 질병 상황.. 2019. 7. 19.