데이터 사이언스 이야기17 인과관계와 상관관계의 차이와 그 사례들 인과관계와 상관관계의 차이와 그 사례들 그리고 인과추론 “Correlation does not imply causation.” 회귀분석 같은 통계학 교과서를 읽다보면 위와같이, 상관관계(Correlation)는 인과관계(Causation)를 보장하지 못한다라는 문장을 자주 접하게 된다. 통계학을 이제 막 배우기 단계라면 이런 개념 자체에 대한 이해가 없기 때문에 문장이 주는 의미가 잘 다가 오지 않을 수 도 있는데, 이런 경우에는 사례를 통해서 이해를 하는 편이 좋은데 이들의 차이점에 대해서 일반적인 몇 가지 예를 들어보려고 한다. 조상들의 인과추론 실폐사례 - 기우제와 마녀사냥 수 백년전만 하더라도 인류는 과학에 대해서 무지했음으로 관측된 두 사건이의 관계를 인과관계로 착각한 사례가 많았는데, 가뭄이 .. 2020. 12. 7. [SAS Programming] 날짜 변수 속성(Type) 바꾸기 (Input, put, format) [SAS Programming] 날짜 변수 속성(Type) 바꾸기 (Input, format) 임상시험 데이터들을 접하다가 보면 날짜와 관련 변수들을 다루어야 할 때가 많은데, 이 날짜 관련 데이터들은 SAS Date 변수이나 Character Type 으로 정의된 변수로 저장될때가 있다. 데이터마다 저장되는 방식이 일괄되지 않아서 변수의 정의 방식을 바꾸어야 할 필요가 생긴다. 1) 다른 데이터 셋에서 Merge를 할때 두 변수의 속성들이 일치하지 않는 경우 2) 리포트를 할때 Character인 날짜 변수를 사용하여도 상관이 없겠지만, 어떤 질병의 지속기간을 구하기 위해서 두 날짜들을 빼는 연산을 해야 될 경우에는 (e.g., Duration=End Date - Start Date +1) SAS Da.. 2020. 9. 10. 미국 신약 개발 & 임상시험 자주 쓰이는 약자(Abbreviation) 정리 미국 신약 개발&임상시험 용어 약자(Abbreviation) 정리 Intro 미국에서 임상시험 회사에서 일을 하면서 처음 들었던 생각은 업무 전반에 약자(Abbreviation)와 전문 용어가 엄청 많이 쓰인다는 것이었다. 그래서 이런 용어에 대한 의미와 맥락을 한번 정리를 해봐야겠다는 생각을 하였는데, 고맙게도 직장 상사가 내 고충을 듣고는 따로 본인의 시간을 내서 이런저런 용어와 의미 대한 설명을 해주었다. 개인적으로 굉장히 유용한 시간이었다고 생각을 해서 블로그에 시간을 내서 세션에 대한 정리를 해 본다. 이 글은 이제 막 제약회사/CRO에서 신약개발 업무를 맡은 Biostatistician이나 Statistical Analyst/Programmer에게 유용할 것이라고 생각한다. 처음 CRO나 신약.. 2020. 4. 24. FDA 신약 승인을 위한 임상시험의 각 단계들 Intro 우리는 뉴스에서 어떤 실험실의 물질이 동물 실험에서 암을 치료하는 효과를 보였다던지, 탈모를 치료할 수 있는 마법의 치료제를 찾았다는 뉴스를 종종 미디어를 통해 접하곤 한다. 그런데 이런 뉴스가 나온지 한참이 지난 것 같은데 아직도 암이라는 질병이 정복되었다는 소식은 들리지 않고, 마법의 탈모 치료제는 시판이 되지 않고 있을까? 이에 대한 설명을 위해서는 길고 험난한 임상시험의 각 단계를 이해해야 한다. 임상시험이란? - 4 단계(Phases)로 구성, 신약 후보물질 FDA 승인 프로세스 평균 12년 신약이 될 만한 후보 물질을 실험실에서 찾은 이후(Pre-clinical testing)에 임상시험을 준비하는데, 후보물질이 시험관이나 동물 실험과 같은 Pre-clinical test에서 효과를.. 2020. 4. 9. [test][통계학]Dynamic Treatment Regime Background Dynamic Treatment Regime은 Personlized Medicine 의 한 분야이다. 존의 치료법이 전체에 대한 집단을 대상으로 진행을 하는 것이였다면, Personalized Medicine은 개개인의 특성 (성별, 유전 정보, 호전 상태)를 가지고 개인화된 치료법을 제공하는 것이다. Personalized -Why? Dynamic Treatment Regime은 이런 개인화치료법을 Longitudinal Environment에 적용을 한 것이다. 미리 설정된 Final End Point가 정해져 있고 여기에 Outcome Y를 maximize 하는것이 Dynamic Treatment의 목표이다. 위 그림은 DTR의 개략적인 과정을 보여주고 있는데 환자들의 질병 상황.. 2019. 7. 19. [R Programming] R로 하는 데이터 전처리 & 시각화 예제 R로 하는 데이터 전처리/시각화: tidyverse, ggplot2 패키지를 통한 효율적 접근 Sooyeong Lim 2019년 3월 31일 데이터분석에서 가장 시간과 에너지가 많이 뺏기는 것이 생각외로 이 데이터 전처리 과정이다. 데이터사이언티스트 들은 대략 70~80%의 시간을 데이터를 가공하는데 쓰고, 나머지 시간에는 모델링을 하거나 자료 정리를 하는데 할애한다. 데이터 전처리 과정을 얼마나 효율적으로 하느냐에 따라서 다른 디테일에 할애 할 수 있는 시간이 좌우되기 때문에 전처리에 사용되는 Package와 스텝을 체화시켜야 한다. R에는 다행히 tidyverse라는 우수한 Data handling package가 있기 때문에 이 과정이 다른 언어에 비해서 편리하다. 이번 글에서는 인터넷에서 긁어온 .. 2019. 4. 1. [R 데이터 시각화] 워드클라우드 (Wordcloud) 만들기 R로 워드 클라우드 만들기 (tidytext)- 도널드 트럼프 취임사 2018년 11월 21일 예전에 빅데이터라는 말이 이제 막 유행을 했을때 본인을 빅데이터 전문가라고 스스로 팔고다니는 사람들이 많았는데, 그 사람들이 방송에서 제일 많이 보여줬던 것이 이 워드클라우드라는 것이다. 워드클라우드는 그냥 비정형 데이터 종류의 하나인 텍스트 데이터를 의미단위(tokenize)로 구분해서 빈도 별로 가중치를 줘서 Plot을 하는 것에 불과하다. 통계학, 머신러닝 지식도 없이 이런거 만들고 빅데이터 전문가 소리를 들었으니… 참 돈 벌기 쉬웠을때였다 싶다. 잡설이 길어지니 이에 대한 썰은 나중에 쓰는 것으로 하자. 필요한 패키지 library(readr) library(wordcloud) ## Loading req.. 2018. 11. 22. [머신러닝] 정규화 (Regularization) PRML 예제 구현 [머신러닝] 정규화 (Regularization) PRML 예제 구현 regularization 정규화 (Regularization)¶By Sooyeong Lim 이 노트는 Bishop의 PRML 정규화 예제 그림 1.7& 1.8에 대한 설명과 Python 구현이다. In [1]: #Import packages import numpy as np import pandas as pd import random import math import matplotlib.pyplot as plt %matplotlib inline from matplotlib.pylab import rcParams import sklearn rcParams['figure.figsize'] = 12, 8 # Set up the size o.. 2018. 11. 18. 이전 1 2 다음