본문 바로가기
데이터 사이언스 이야기/통계학

인과관계와 상관관계의 차이와 그 사례들

by Data_to_Impact 2020. 12. 7.
반응형

인과관계와 상관관계의 차이와 그 사례들 그리고 인과추론

 

 

“Correlation does not imply causation.” 

회귀분석 같은 통계학 교과서를 읽다보면 위와같이, 상관관계(Correlation)는 인과관계(Causation)를 보장하지 못한다라는 문장을 자주 접하게 된다. 통계학을 이제 막 배우기 단계라면 이런 개념 자체에 대한 이해가 없기 때문에 문장이 주는 의미가 잘 다가 오지 않을 수 도 있는데, 이런 경우에는 사례를 통해서 이해를 하는 편이 좋은데 이들의 차이점에 대해서 일반적인 몇 가지 예를 들어보려고 한다.

 

기우제의 전통은 여전히 계승되고 있다.


조상들의 인과추론 실폐사례 - 기우제와 마녀사냥

수 백년전만 하더라도 인류는 과학에 대해서 무지했음으로 관측된 두 사건이의 관계를 인과관계로 착각한 사례가 많았는데, 가뭄이 들었을때 기우제를 하면 비가 내린다던지 혹은 중세시대에 마녀가 저주를 내려서 흑사병이 돌았다던지 하는 것을 예로 들 수 있을 것이다. 21세기를 사는 우리는 기상현상은 기우제와 별개로 지구 순환의 대기 사이클에 따라서 순환하는 것이고, 흑사병의 유행은 전염성이 페스트 균이 공기중으로 전파되었기 때문이라는 것을 잘 알고 있다. 그렇기 때문에 기우제와 마녀의 저주가 사건의 원인이라는 생각을 하지 않는다. 아마도 과거의 사람들이 이러한 추론을 하게된 배경에는 공교롭게도 기우제를 한 시점에 가뭄이 끝나서 비가 내렸거나, 성난 군중들이 마녀를 덮쳤을때 마녀가 누군가를 저주 하고 있었기 때문일 것이다.

 

이렇게 관측된 연관성(Observed association) 혹은 두 변수의 상관관계를 가지고 두 가지의 변수의 인과관계를 예단하는 것은 바람직하지 않다. 이러한 한계를 극복하고 두 변수사이의 인과관계를 추론하기 위해서 우리는 외부적 요인을 차단한 통제된 실험(Controlled Experiement)을 해야한다. 신약을 개발하는 과정을 우리는 임상시험(Clinical trial)이라고 하는데 이 과정에서 객관적이고 합리적인 결과를 도출하기 위해서 임상시험 참가자의 동의하에 통제된 실험을 한다. 

반응형


상관관계와 인과관계의 해석이 모호한 경우 - 흡연과 폐암의 사례

위 사례처럼 발생한 사건의 근원이 명백한 경우에는 보통 상식으로 치부되거나 의무 교육과정에서 배우는 ‘과학’에 포함이 되기 때문에, 개념의 이해에 있어서는 사실 큰 혼란을 주지 않는다. 하지만 원인에 대해서 윤리적, 현실적인 이유로 통제된 실험을 하기 어렵고 관측을 한 경우에 한해서만 결론을 도출해야하는 경우에는 문제는 복잡해진다.

 

www.chosun.com/site/data/html_dir/2015/02/22/2015022201445.html

 

건보공단 "담배회사에 책임 물어야"… '흡연·폐암 인과관계' 본격 공방

국민건강보험공단은 지난해 4월 "흡연 폐해의 책임은 담배회사에 있다"며 담배회사들을 상대로 537억4000만원을 청구하는 손해배상 소송을 서울중앙지법에 냈다. KT&G, 필립모리스코리아, BAT코리

www.chosun.com

최근까지도 의견이 분분했던 한 가지 사례를 들자면 흡연과 폐암 발생의 사례가 있을 것이다. 지금은 흡연이 폐암에게 치명적이고 직접적인 영향을 미친다는 것에 대해서 어느정도 사회적인 합의가 되어 있지만, 몇 십년 전까지만 하더라도 이 주제에 대해서 담배회사와 폐암환자들의 소송이 오가고 연구자들 끼리도 의견이 분분했었다. 흡연과 폐암의 인과성을 밣히기가 힘들었던 이유는 윤리적인 이유로 통제 실험이 불가능하고 환자들의 관측데이터(Observational data)에만 의존을 해서 인과관계에 대한 결론을 내려야 했기 때문인데, 사람들의 다른 행동들이 통제가 되지 않았기 때문에, 암을 유발하는 다른 이유들(생활 습관, 유전, 식습관 등등..)을 배제하고 결론을 내리기가 힘들기 때문이다.

 


마무리

 

통계를 처음 배울때는 분석 모델로 무엇이든지 예측이 가능수 있을 것 같지만, 유의미한 인과관계에 대한 추론을 이끌어내기 위해서는 그 도메인을 잘 이해하는 전문가가 필요하다. 내가 지금 몸을 담고있는 임상시험 분야를 예로 들지면, 환자들의 부작용들(Adverse Events)가 투여한 신약때문에 발생한 것인지 아닌지에 대한 판단이 필요한데 이는 전적으로 PI인 의사들이 담당을 한다. 통계학자들이 이런 전문적인 부분에서는 데이터만을 가지고 판단을 할 수 없기 때문이다. 조직의 데이터 분석가나 데이터 사이언티스트들은 통계를 잘 알아야 하는 것 과 더불어서 도메인 전문과들과의 의사소통도 상당히 중요하다. 

 

 

관련글

[잡썰] 데이터 분석가의 핵심 역량- 도메인 지식과 커뮤니케이션의 중요성

반응형

댓글