본문 바로가기
데이터 사이언스 이야기/Clinical Data Science

데이터 사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할

by Data_to_Impact 2022. 7. 16.
반응형

데이터사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할 

 

데이터 사이언스의 일반적인 프로세스

 

데이터 사이언스를 한다는 것은 무엇을 의미할까? 데이터 사이언스라는 말을 이제는 어느 곳에서나 들을 수 있을 만큼 흔하다. 하지만 데이터 사이언스의 일반적인 업무 프로세스는 회사/조직마다 다르기도 하고 보편적으로 이를 한눈에 쉽게 설명하는 소스를 찾기가 쉽지 않았다. 그러던 와중에 Hadley Wickham의 R for Data Science라는 책에서 데이터사이언스의 과정을 쉽게 요약을 해놓은 그림을 보았는데, 간단한 그림에 전반적인 과정에 대한 요약을 참 잘 해놓았다고 생각을 했다.

  

출처- R for Data Sciecne, Hadley Wihcam, https://r4ds.had.co.nz/index.html

 

이 Diagram에 따르면 데이터 사이언스의 과정은 크게

 

[Import->Tidy->Transform] (데이터 전처리)

[Visualization, Modeling] (데이터 시각화,모델링)

그리고 [Comunicate] (커뮤니케이션)으로 나뉜다.

 

 

 

앞서 언급했듯이 데이터 사이언티스트들의 역할과 목적이 조직과 회사마다 다양하기 때문에 이런 간단한 Diagram으로 모든 경우들을 다 설명을 할 수는 없지만 이 Diagram을 통해서 임상시험에서 Statistical Programmer들이 데이터 사이언스에서 어떤 역할을 하는지 정리를 해보면 의미가 있을 것 같아 이렇게 글로서 생각을 정리해 본다. 

 

 

 

 

제약회사에서의 임상시험 데이터 사이언스 조직

 

임상시험은 어떠한 후보군약이 효과가 있는지(Efficacy), 그리고 안전한지(Safety)를 최대한 객관적으로 검증하기 위해서 사람을 대상으로 통제된 실험(Controlled Experiement)을 하는 것이다. 

 

이런 실험의 설계와 타당성을 검증하기 위해서 데이터사이언스라는 말이 유행하기 훨씬 이전부터 제약회사/임상시험분야에서는 Biometrics라는 부서가 있었고 통계학을 전공한 많은 사람들이 Statistician/Statistical Programmer로 일을 시작하였다. 최근 들어서는 Genome 데이터와 Biomarker 분석의 중요성도 커지면서 생물정보학(Bioinformatics)을 전공한 사람들도 제약회사에서 많이 채용을 하고 있다. 

 

지금 내가 일하고 있는 회사의 Biometrics 조직은 그 이름이 몇 년 전부터는 Clinical Data Science라는 부서로 아예 이름이 바뀌었다.  임상시험을 하는 부서는 주로 Research and Development에서 Development에 속한다. 이 부서에서는 크게 Biostatics, Bioinformatics, Real World Evidence, Statistical Programming, Clinical Data Management로 바뀌는데 이런 구조는 미국의 큰 제약회사들의 임상시험 부서는 거의 대부분 따르고 있다. 

 

 

 

 

 

임상시험 데이터 사이언스의 특징과 다른 분야의 데이터 사이언스와의 차이점

 

데이터 사이언스를 일반적으로 데이터를 기반으로 하는 합리적인 의사결정을 하는 것이라고 한다면, 임상시험 데이터 사이언스와 다른 분야의 데이터 사이언스의 가장 큰 차이점은 어떤 질문에 대한 답을 원하는가에 있다.

 

인터넷회사들이나 Commercial Side 쪽에서는 데이터 사이언스를 통해서 답하고자 하는 질문은 다음과 같을 것이다.

 

  • X 캠페인을 했을 때 앞으로의 매출이 어떻게 예상될 것인지 (Prediction)
  • 기존 고객 거래데이터를 바탕으로 고객들에게 어떤 상품을 추천해 줄 것인지 (개인화, 추천 알고리즘)

등등 그 질문들이 주로 미래에 대한 예측(Prediction)이 주가 될 것이다. 더 정확한 결과를 얻어내기 위해서는  [Visualization, Modeling] (데이터 시각화, 모델링)과정을 끊임없이 반복을 해야 될 것이다. 

 

하지만 임상시험에서의 질문은 주로 다음과 같다.

  • 개발하고 있는 신약이 기존에 시판되는 약에 비해서 얼마나 효과가 있는지? (임상시험 3상)
  • 100mg의 약을 넣었을 때와 200mg의 약을 투약했을 때 PK Parameter가 같은지 (임상시험 1상)

다음 사례에서 볼 수 있듯이 임상시험에서는 주로 비교분석(Comparative Analysis)을 하고, 통계적인 가설과 어떤 파라미터를 비교할지 등등이 애초부터 임상시험이 시작되기 전에 미리 설계가 되어 있다. 그렇기 때문에 다른 회사의 데이터 사이언티스트들이 하는 것처럼 모델을 계속 바꾸어보거나 가설을 세우기 위한 Exploratory Anaylsis를 거의 하지 않는다. 

 

그다음 차이점이라고 한다면 최종 커뮤니케이션의 대상이다. 인터넷회사들이나 Commercial Side 쪽의 최종 커뮤니케이션의 대상은 CEO나 실무자와 같은 의사결정자에게 프레젠테이션이나 Executive Summary 등으로 설명과 설득을 하는 것이 될 것이지만, 임상시험에서는 주로 최종 커뮤니케이션은 주로 FDA와 같은 규제기관과 스터디의 결론을 정리해 놓은 CSR(Clinical Study Report)을 통해서 서면으로 이루어진다.   

 

다만, Statistical Programmer는 데이터 전처리와 시각화/모델링 과정에서 Clinical Data Manager, Biostatistican, Clinical Programmer와 데이터 이슈 해결과 분석을 위한 지속적인 커뮤니케이션이 필요하다. 

 

반응형

 

임상시험에서의 Statistical Programmer의 역할

 

임상시험 데이터의 특성을 앞 문단에서 알아보았는데, 그렇다면 이 과정에서 Statistical Programmer는 어떤 역할을 할까? 위에서 언급한 해들리 위컴의 다이어그램과 업무를 매치를 해보았다. 

 

[Import->Tidy->Transform] (데이터 전처리) -  CDISC 표준화 데이터 SDTM/ADaM 생성 (70%)

 

[Visualization, Modeling] (데이터 시각화, 모델링) - Statistical Analysis Plan에 따라 TFL(Table, Figure and Listing) 프로그램 짜기. 이 과정에서 Survival Analysis, Linear mixed effect model 등 통계적인 이론을 이해하고 SAS의 Procedure를 가지고 구현을 할 수 있어야 한다. 실험계획법(Experimental Design)에 대한 이해가 있으면 더 좋다. (30%)

 

[Comunicate] (커뮤니케이션) - Clinical Study Report (FDA와 같은 규제기관에 제출) - 이 과정은 Medical Writing/Biostat에서 주로 담당을 한다.

 

CSR을 작성하는 것 자체는 Statistical Programmer의 역할보다는 Medical Writing이나 Biostatistican 등이 주로 문서를 작성하고 Statistical Programmer가 만든 In-text Table, Figure 등을 토대로 스터디에 대한 Narrative를 작성을 한다.

 

임상시험에서 수집되는 데이터가 회사마다 정의가 다르기도 하고 FDA와 같은 규제기관에서 리뷰를 하는 시간이 너무나도 많이 들었기 때문에 CDISC라는 비영리기관에서 임상 표준 정형 데이터셋인 SDTM과 분석 표준 데이터셋을 ADaM을 제시를 했고, 지금은 신약 승인을 받기 위해서 이 형태를 맞춘 임상시험 데이터를 규제기관에 제출하는 것이 필수적이다.

 

이 과정에 Statistical Programmer가 상대적으로 많은 시간을 할애를 하게 되는 이유는 우리가 받게 되는 Raw dataset에는 언제나 문제가 있고 Study Question에 따라서 분석 데이터를 정의하는 방법이 달라질 수 있기 때문이다. 이런 문제들을 다루기 위해서는 통계학적 지식보다는 임상시험에 대한 지식과 경험이 더 요구되고, Study Protocol과 Statistical Analysis Plan에 대한 깊이 있는 이해가 필수적이다. 

 

임상시험에서는 데이터 포인트 하나 하나가 중요한데, 만약 데이터에 대한 문제가 있는데 이를 미처 해결하지 못한다면 이러한 것들에 대해서 일일히 나중에 서면으로 설명을 해야한다. 요즘은 eCRF라고 자동으로 데이터가 수집이 되기도 하지만 질문지 자체가 잘못되었거나 간혹 명확하지 않은 케이스들이 있어서 문제가 있을 수도 있고, Lab 데이터나 PK데이터 같은 경우에는 센터가 바뀔때마다 수시로 Measurement Unit이 바뀌기도 하기 때문에 Statistical Programmer가 일일히 Study Protocol에 맞는지 확인을 해야한다. 

 

상대적으로 모델링과 시각화의 과정에서는 다른 분야에 비해서 간단하다. 이미 Statistical Analyis Plan에서 어떤 Figure를 그릴 것인지, 어떤 통계적인 방법을 사용을 할 것인지 정해져 있기 때문이고, 주로 하는 분석 자체가 비교 대조군이 명확한 Comparative Analysis이기 때문이다. Statistical Programmer는 이를 SAS로 구현을 해서 Output을 만들어 내기만 하면 된다. 이런 Outputs에 대한 리뷰는 Biostatistican들이 하게 된다. 

 

 

이런 과정들이 어떻게 보면 상당히 노동 집약적이고 In-house 인력만으로는 여러개의 임상시험을 동시에 감당하기 힘든 경우에는 CRO에 외주를 주게 되는데, 복잡하고 중요한 스터디의 경우에는 왠만하면 In-house의 인력으로 해결을 하려고 한다. 

 

 

Statistical Programmer 업무의 장,단점

 

내가 생각하는 Statistical Programmer의 장점으로는 우선 일의 역할이 굉장히 구체적으로 정해져 있어서 외국인으로서 일하기에 상당히 좋다. 부서인력의 대부분이 통계를 공부한 외국인이기 때문에 자신이 팀을 매니지하지 않는 미팅이 별로 없고, 영어 굳이 그렇게 잘 하지 않아도 차별을 받을 일이 거의 없다. 그 다음 장점으로는 제약회사/임상시험 업계에 전반적으로 직업에 대한 안전성이 굉장히 뛰어나다. 하나의 임상시험 프로젝트 자체가 최소 몇년을 가기 때문에 회사가 타 회사에 인수되지 않는 이상 레이오프가 거의 없을 뿐더러, 처음 업무를 시작하고 2년 정도 경험을 쌓고 영주권이 있으면 미국 어디에서도 일을 할 수 있다. 원격으로도 요즘에는 많이 뽑는 추세이기 때문에, 굳이 물가가 비싼 동네에서 살지 않아도 된다. 

 

단점으로는 페이가 Tech company만큼 쎄지가 못하다. 베이스 셀러리는 비슷할 수도 있겠지만, 주식이나 RSU의 보상에 대해서 차이가 많이난다. 그래서 보상을 따지면 Tech 회사로 가는 것이 더 빠른길이라고 생각된다. 그 다음 단점으로는 장점의 다른면인데, 일을 시작하고 몇년이 지나면 하는 스터디들이 거의 비슷하다. 그래서 매번 했던 비슷한 프로젝트를 하게되고, Machine Learning처럼 테크회사에서 상대적으로 많이 뜨고 있는 기술에 대해서 접할 기회가 별로 없다. Tool도 SAS라는 상당히 구닥다리 프로그램을 쓰고 있고, 최근에서야 R과 Python을 쓴다고는 하지만 거의 대부분의 프로젝트가 SAS로 돌아간다. 

 

하지만 이건 또 사람마다 받아 들이는게 다를 것 같다. 어떤 사람은 최대한 덜 배우고 오래 일을 할 수 있는 안정적인 직업을 선호를 할 수 도 있고, 또 어떤 사람은 새로 배우고 성장하며 경쟁하는 환경을 선호할 수도 있다. 그렇기 때문에 학교를 졸업을 하고 첫 직업을 정할때 만약 본인이 선택을 할 수 있다면 본인 성향에 대해서 고민을 잘 해보아야 한다. 

 

이상으로 임상시험/제약회사에서 일을 하는 Statistical Programmer가 Data Science관점에서 어떤 일을 하게 되는지 정리를 해 보았다. 통계학을 전공하고 진로에 대한 선택을 앞둔 사람들에게 조금이나마 도움이 되었으면 한다. 

 

 

 

 

 

관련글 

 

[미국 취업] Statistical Programmer CRO에서 제약회사로의 이직 성공기

[미국 취업] 통계학 전공자가 미국 임상시험 회사(CRO)에서 하는 일들

 

 

 

 

구독하트는 제가 글을 쓰는 원동력이 됩니다. 

 

궁금한 것은 공개댓글로 작성을 해주시면 시간이 나는대로 답변을 해 드리겠습니다. 

반응형

댓글