데이터 사이언스 이야기17 데이터 사이언스란 무엇인가 - 데이터 사이언스의 과정 데이터 사이언스란 무엇일까? 데이터 사이언스/데이터 사이언티스트라는 단어는 빅데이터라는 개념과 더불어서 이제는 어디에서나 들을 수 있는 말이 되지만 데이터 사이언스가 무엇인지 정작 구글에 검색을 해보면 그 정의가 웹사이트마다 다양한데, 위키피디아에서는 아래와 같이 정의를 하고 있다. 데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다. - 출처: 위키피디아 데이터 사이언스가 무엇인지에 대해서 한마디로 딱 잘라서 대답하기는 어렵지만 내가 생각하는 데이터 사이언스는 짧게 말해서 데이터로부터 의미 있는 결론을 끌어내서 의사결정을 .. 2023. 10. 31. [임상시험] CDISC 데이터 표준 - SDTM과 ADaM 데이터 [임상시험] CDISC 데이터 표준 - SDTM과 ADaM CDISC(Clinical Data Interchange Standards Consortium)란? 임상시험에서 수많은 종류들의 데이터가 수집된다. 신약개발 과정에서 수집되는 몇 가지 데이터의 예를 들자면 약의 안전성(Safety)에 대한 대한 데이터, 약물의 효능(Efficacy)에 대한 데이터 혹은 약물 동태학에 대한 Pharmacokinetics(PK) 등 이 있다. 이외에도 환자나 약물에 대한 다양한 정보들도 CRF(Case Report Form)로 부터 수집이 된다. 그런데 문제는 각 사이트마다 통일된 규정이 없어서 우리가 받게 되는 데이터는 그 변수의 이름도 다양하고 CRF의 디자인에 따라서 데이터의 구조와 정의가 스터디마다 달라진다... 2022. 12. 27. [임상시험] Phase 1- Thorough QT(TQT) Study Design 임상시험 Thorough QT Study에 대해서 임상 1상에서는 주로 스터디의 Primary Endpoint가 PK에 초점을 두거나 다음 2상에서 약물의 적정 투여량을 결정하는 것에 초점을 맞춘 경우들이 많지만 그렇지 않은 스터디 디자인도 꽤 있는데, Thorough QT Study 스터디도 그런 디자인 중 하나이다. 이 스터디의 목적은 테스트를 하고자 하는 약이 ECG로 측정되는 QT 파장의 간격을 늘리는지 아닌지 체크를 하는 것에 있다. 왜냐하면 이 구간의 시간이 길어질 수록 부정맥 같은 심장질환이 생길 가능성이 커지기 때문에, FDA에서는 개발하고자 하는 약의 후보군이 이런 의도하지 않은 부작용을 초래하지 않는지에 대한 스터디를 하기를 권장했다. 그리고 2005년 10월에 아래의 문서에서 가이드라.. 2022. 8. 19. 데이터 사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할 데이터사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할 데이터 사이언스의 일반적인 프로세스 데이터 사이언스를 한다는 것은 무엇을 의미할까? 데이터 사이언스라는 말을 이제는 어느 곳에서나 들을 수 있을 만큼 흔하다. 하지만 데이터 사이언스의 일반적인 업무 프로세스는 회사/조직마다 다르기도 하고 보편적으로 이를 한눈에 쉽게 설명하는 소스를 찾기가 쉽지 않았다. 그러던 와중에 Hadley Wickham의 R for Data Science라는 책에서 데이터사이언스의 과정을 쉽게 요약을 해놓은 그림을 보았는데, 간단한 그림에 전반적인 과정에 대한 요약을 참 잘 해놓았다고 생각을 했다. 이 Diagram에 따르면 데이터 사이언스의 과정은 크게 [Import->Tidy->Transfor.. 2022. 7. 16. [R Programming] 데이터 내 여러 변수 중 이름이 비슷한 변수 선택하기 임상시험의 Raw데이터들은 데이터셋에 정의된 변수 이름도 각양각색이고, 비슷한 이름의 변수들이 뒤에 숫자만 붙어서 나타나는 경우가 많다. 한 변수내에서 특정조건을 만족하는 Observation을 찾는데에는 %>% Filter() 함수를 쓸 수 있다고 하지만, 많은 변수들이 정의된 데이터셋에서 이름이 비슷한 여러개의 변수만 골라내서 선택을 하고 싶을땐 어떻게 해야할까? 예제) CM Dataset library(ggplot2) library(dplyr) #Let's say we have CM Raw dataset names(cm) grep()을 이용한 솔루션 CM이라는 데이터셋에는 이렇게 많은 변수들이 정의되어있는데, 이 많은 변수중에서 나는 WHO에 관련된 변수들만을 고르고 싶다. 그럴때는 R base에 .. 2022. 2. 20. [통계학] 표본과 모집단(Sample and Population) 표본과 모집단(Sample and Population) 내가 한국에서 통계학을 처음 접했을때 교과서에 나오는 통계학에 대한 용어가 참 싫었는데, 그 이유 중에 하나는 아마도 번역본 특유의 억지 번역투 때문에 거부감이 컸던 것 같다. 그 중에서도 표본(標本)과 모집단(母集團) 같은 용어는 한자를 써서 개념이 더 직관적으로 와닿지 않았었는데, 쉽게 설명 하자면 표본은 모집단의 부분집합이고, 어미모를 쓰는 모집단은 우리가 관심있어 하는 전체 집단을 포괄하는 개념이다. 영어로는 Sample(표본) 과 Population(모집단)이라고 기술을 하는데, 개인적으로는 이런 개념들은 영어로 설명을 하는 것이 머리로 받아들이기에 직관적으로 와닿지 않나 하는 생각이 든다. 모집단(Population)과 통계적 추론(Sta.. 2021. 5. 26. [SAS Programming] LOCF - Last Observation Carried Forward LOCF - Last Observation Carried Forward 임상시험에서 Missing 데이터를 처리하기 임상시험은 짧게는 수 개월에서 몇년간 지속이 되기 때문에, 환자들의 상황에 따라서 정해진 방문 기간에 방문하지 않는 경우도 흔히 발생을 한다. 이렇게 되면, 그때 그때 체크해야될 Vital Sign이나 혈액 샘플등의 Lab 데이터가 기록되지 않는 경우가 생기는데, 이런 경우에 데이터를 Missing으로 그냥 둘 수도 있지만, LOCF- Last Observation Carried Forward 알고리즘을 이용해서 가장 최근의 데이터의 값을 사용하는 방법을 고려해볼 수 있다. 아래의 예시 Lab 데이터와 코드를 가지고 조금 더 자세하게 살펴보자. 예시) 간단한 ADLB의 예제 데이터셋 da.. 2021. 4. 16. 통계적 모델링(Statistical Modeling)의 목적과 과정 통계를 배우는 이유?- 통계적 모델링의 목적과 과정 요즘에는 Coursera에서 베이지안 강의를 듣고있는데, 강의의 도입부에서 통계적 모델링의 목적과 과정에 관해서 잘 설명을 한 것 같아서 글로서 한번 정리를 해보려고 한다. 통계를 처음 배우는 사람이거나 통계학을 배웠지만 아직 체계가 잡히지 않은 사람이 이 글을 읽는다면 유용할 것 같다는 생각이 든다. 통계적 모델링의 정의 통계적 모델링이란 확률/수학적인 모형을 가지고 현실세계의 데이터 형성 과정을 모방을 한 것이라고 정의를 한다. 이러한 모형은 현실을 그대로 반영하지는 못한다는 한계가 있지만, 그럼에도 불구하고 적절한 가정들(Assumptions) 하에 유용하게 쓰일 수 가 있다. 다음의 네 가지 경우는 이런 통계적 모델링의 활용을 유형화 한 것이다... 2020. 12. 12. 마르코프 체인 (Markov Chain) 정의 및 예시 마르코프 체인 (Markov Chain) 정의 및 사례 마르코프 체인이란 한 상태(State)에서 다른 상태로 이전을 할때 특정한 확률적인 특성을 따르는 것을 의미하는데, 마르코프 체인을 대표하는 가장 중요한 성질은 현재 상태에서 다음 상태로 넘어갈때 현재 시점보다 이전의 과거 상태에는 의존을 하지 않는 다는 것이다. 추상적으로 느껴지는 개념이지만 사실 사례를 통해서 살펴보면 꽤나 간단한 원리이고, 이 특성을 이용하면 복잡한 Joint Distribution을 계산을 손쉽게 할 수 있다. 강화 학습을 공부하거나 베이지안 통계학을 공부하면 이 마르코프 체인(Markov Chain)이라는 개념이 많이 등장하는데, 흔히 쓰이는 MCMC (Markov Chain Monte Carlo)를 이해하는 것에도 필수적인.. 2020. 12. 12. 이전 1 2 다음