본문 바로가기
데이터 사이언스 이야기/Clinical Data Science

[임상시험] CDISC 데이터 표준 - SDTM과 ADaM 데이터

by Data_to_Impact 2022. 12. 27.
반응형

[임상시험] CDISC 데이터 표준 - SDTM과 ADaM

 

 

CDISC(Clinical Data Interchange Standards Consortium)란?

 

임상시험에서 수많은 종류들의 데이터가 수집된다. 신약개발 과정에서 수집되는 몇 가지 데이터의 예를 들자면 약의 안전성(Safety)에 대한 대한 데이터, 약물의 효능(Efficacy)에 대한 데이터 혹은 약물 동태학에 대한 Pharmacokinetics(PK) 등 이 있다. 이외에도 환자나 약물에 대한 다양한 정보들도 CRF(Case Report Form)로 부터 수집이 된다.

 

그런데 문제는 각 사이트마다 통일된 규정이 없어서 우리가 받게 되는 데이터는 그 변수의 이름도 다양하고 CRF의 디자인에 따라서 데이터의 구조와 정의가 스터디마다 달라진다. 이로 인해서 데이터를 어떻게 정리하고 분석을 해야 하는지에 대한 국제적인 표준이 없다면 이 데이터들 자체를 해석하고 설명하는데만 엄청난 시간과 노력이 생기는 비효율이 발생한다.

 

이렇게 국제적인 표준이 없어서 생기는 비효율을 없애기 위해서 CDISC라는 비영리 단체가 규제기관, 제약회사, 임상연구 조직등을 규합해서 임상시험 데이터의 표준을 정의를 했는데, 1997년 봉사자들의 모임으로 시작한 CDISC는 이제 미국 FDA나 일본의 PMDA와 같은 규제기관들도 신약개발/임상시험의 데이터를 CDISC 표준으로 제출하기를 요구하게 되는 만큼 널리 쓰이고 있는 표준이 되었다. 

 

아래는 CDISC 홈페이지에서 설명하는 본인들의 조직에 대한 설명이다. 

https://www.cdisc.org/about

 

About CDISC

 

www.cdisc.org

 

임상시험에 쓰이는 SDTM과 ADaM 데이터 표준

 

앞서 CDISC의 탄생 배경에서 서술했듯이, 임상시험이 점점 더 복잡해지고, 미국의 FDA나 일본의 PMDA와 같은 신약을 승인하는 규제기관들이 CDISC 데이터 표준을 신약 승인/검토 과정에 포함을 하면서, 제약회사의 임상시험 데이터가 CDISC 표준을 따르는 잘 따르는 것이 정말 중요해졌다. CDISC 표준 중에서도 제약회사나 CRO에서 일하는 Statistical Programmer나 Biostatistican들이 잘 알아야 하는 데이터 표준은 SDTMADaM이다. 

 

 

SDTM(Study Data Tabulation Model)

 

SDTM은 CRF에서 수집된 Raw 데이터를 각 도메인(정보들의 특징)에 맞게 분류/정의를 해놓은 기준이다. 도메인의 예로서는 환자들의 정보가 들어가 있는 DM(Demographics), 그동안 병원에서 치료를 받아왔던 기록들을 모아 놓은 MH(Medical History), 환자가 임상시험 과정에서 생기는 부작용들을 수집한 AE(Adverse Event), 약물을 언제 어떻게 배분을 하였는지에 대한 정보가 담긴 EX(Exposure)등이 있다. 

 

조직마다 다르겠지만 Clinical Programmer(CP)라는 사람이 보통 Raw data에 대한 코딩과 이런 SDTM의 매핑을 담당하며, Statistical Programmer는 SDTM 데이터들을 가지고 분석을 할 데이터셋인 ADaM을 만들고 CSR에 들어갈 TFL(Table, Figure, Listing)을 만드는 일을 주로 한다. 하지만 규모가 작아서 이런 SDTM만을 전문으로 하는 인력들을 따로 쓰지 못하는 조직이거나 임상시험 자체가 덜 복잡해서 이전에 했던 구조들을 비슷하게 쓸 수 있는 회사라면 Statistical Programmer가 SDTM, ADAM 그리고 TFL을 만드는 모든 일을 담당하기도 한다.  

 

CDISC에서 출시하는 표준은 유저들의 피드백을 거쳐서 주기적으로 업데이트가 되는데, 이때 유저들의 사용설명서와 같은 IG(Implementation Guide)도 같이 출시가 된다. 보통 업무를 할때는 정의된 표준이 적힌 Mapping Spec을 가지고 Implementation Guide를 자주 참고를 하면서 필요한 변수를 정의를 하고 어떤 데이터가 어느 도메인에 Mapping이 어떻게 되어야 하는지 판단을 한다. SDTM 데이터는 Raw데이터를 정리하는 것에 목적이 있는 만큼 스터디마다 그 차이가 크지 않고 통계 지식도 크게 필요가 없는 업무여서 Statistical Programmer가 직접 하기보다는 CRO에 외주를 주거나 담당 Clinical Programmer가 도맡아서 하는 경우가 많다. 

가장 최근에 나온 SDTM과 SDTMIG의 버전은 2021/11/29이다.

 

https://www.cdisc.org/standards/foundational/sdtm

 

SDTM | CDISC

SDTM provides a standard for organizing and formatting data to streamline processes in collection, management, analysis and reporting. Implementing SDTM supports data aggregation and warehousing; fosters mining and reuse; facilitates sharing; helps perform

www.cdisc.org

ADaM(Analysis Dataset Model)

 

Analysis Dataset이라는 말이 설명하듯이, 이 데이터를 가지고 우리는 임상시험 보고서에 들어갈 아웃풋들을 만들어 낸다. SDTM이 Raw Data를 잘 정리해낸 것이라면, ADaM은 우리가 분석에 필요한 데이터를 CDISC가 요구하는 "Analysis-ready" 룰에 맞게 SDTM 데이터들을 가공을 한 것이다. 현재 ADaM IG의 최신 버전은 2021년 11월 29일에 나온 ADaM IG v1.3이고 여기에서는 "Analysis-ready"에 대해서 아래와 같이 설명을 하였다. 요약을 하자면 가장 최소한의 노력을 들여서 통계 프로그램을 돌릴 수 있도록 데이터를 만들어야 한다는 것이다. 보통 One-step away라고 하는데 누가 봐도 이 Input을 넣고 Ouptut이 나오도록 변수에 대한 Mapping을 잘 정의해야 한다. 

 

ADaM datasets should have a structure and content that allow statistical analyses to be
performed with minimal programming. Such datasets are described as "analysis-ready." ADaM
datasets contain the data needed for the review and re-creation of specific statistical analyses. It
is not necessary to collate data into analysis-ready datasets solely to support data listings or
other non-analytical displays. 
반응형

단순히 수집된 데이터를 나열하는 Listing같은 경우에는 ADaM 데이터를 쓰지 않고 바로 SDTM으로 아웃풋을 만들 수 도 있지만, 계산이 들어가거나 통계적인 모델을 써야 하는 경우에는 임상시험 Primary Endpoint에 맞는 ADaM 데이터를 반드시 정의를 해야 한다. ADaM에는 여러 가지 도메인이 있고 다른 Data Structure들이 있지만, 이 글은 CDISC에 대한 기본적인 설명을 위한 글이기에 ADaM에 대한 자세한 사항은 다음 글에서 설명하려고 한다.

 

임상시험 데이터의 국제 표준이 된 CDISC- 신약개발을 하는 회사들은 규제기관에 이 구조를 따라서 데이터를 정의하고 분석을 해야한다.

 

CDISC를 공부할 수 있는 리소스 

 

Implementation Guide를 보는것이 가장 최선이겠지만 임상시험 데이터들은 보통 공개가 불가능한 기밀 데이터인 경우들이 많아서 초보자들이 실제 데이터를 접하는 것은 거의 불가능하다. SDTM이나 ADaM을 공부하는 것은 실제 임상 데이터를 접해보지 않고서 Implementation Guide만 보고는 뜬구름 잡는 소리처럼 느껴지기 때문이다.

 

그렇기 때문에 안타깝지만 어쩔 수 없이 인턴을 하거나 신입을 많이 뽑는 CRO에 들어가서 먼저 경력을 쌓아야 한다. 구글에서 한번 예제를 찾아보려고 했지만 샘플 데이터마저도 핵심 도메인이 빠져잇는 불완전한 데이터들 밖에 구하지를 못했지만 혹시나 도움이 될 만한 사람들이 있을까 봐 링크를 첨부한다.

https://dataverse.harvard.edu/dataset.xhtml? persistentId=doi:10.7910/DVN/51 B6 NK

 

이후에 1~2년 정도 경력이 생기면 Implementation Guide를 잘 숙지하고 Conference에 나오는 페이퍼 들을 만 잘 이해를 해도 업무를 하는데 큰 도움이 된다. 아래에서 개인적으로 더 살펴볼 수 있는 리소스들을 정리해 보았다.

 

 

1. Lexjansen 

https://www.lexjansen.com/

제약 바이오 SAS/R 유저들의 방대한 양의 콘퍼런스 자료들을 모아놓은 Archive이다. 

 

2. 제약 관련 Software User 콘퍼런스들

 PharmaSUG(Software User Group) (https://www.pharmasug.org/)

 WUSS(Western Users of SAS Software) (https://www.wuss.org/)

 R/Pharma Conference(https://rinpharma.com/)

 

3. CDISC에 제공하는 유료강의들 

 

CDISC에서도 온라인으로 강의를 제공한다고 하는데 안타깝게도 세 시간짜리 강의가 한국돈으로 100만 원이 넘어갈 만큼 비싸다. 그렇기 때문에 회사에서 돈을 대주는 것이 아니라면 굳이 이렇게 까지 돈을 내고 들을 필요는 없을 것 같다. 어차피 일을 시작하게 되면 기본적인 것은 다 회사에서 가르쳐 줄 것이고, 그때부터는 위에 언급한 Lexjansen에서 스스로 공부하거나 회사에서 능력 있는 시니어 친구들한테 잘 배우면 된다. 

 

 

4. 안재형 박사님 다음 Biostatistics 카페

https://cafe.daum.net/biometrika

 

안재형 님과 SAS MASTER님께서 유용한 글을 많이 남겨 두셨다. 바이오통계 유학 관련 질문도 많이 있고, SAS를 이용한 임상시험에는 CDISC관련 유용한 팁들이 많다.

 

 

마무리 및 전망에 대한 개인적인 생각 

 

이 글에서는 CDISC 데이터 표준의 탄생 배경과 SDTM/ADaM에 대해서 간략하게 설명을 하였고, CDISC를 공부하는데 참고할 수 있을 만한 리소스를 남겨 두었다. 

 

임상시험 분야에서 일하는 Statistical Programmer가 된다는 것은 도메인 지식에 굉장히 종속이 되는 Data Scientist가 되는 것이라고 생각을 한다. 도메인에 경력을 잘 쌓은 Data Scientist들은 툴이나 알고리즘에 종속되지 않고 경험이 쌓일수록 더 대우를 받는다. 마찬가지로 CDISC 표준을 잘 이해하고 임상시험 리드를 한 경력 있는 Statistical Programmer는 언제나 구인난이고 대우도 좋다. 

 

 

이 글이 도움이 되셨다면 하트구독 부탁드립니다. 

 

 

관련글

 

- [임상시험] Phase 1- Thorough QT(TQT) Study Design

- 데이터 사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할

- [미국 취업] 통계학 전공자가 미국 임상시험 회사(CRO)에서 하는 일들

반응형

댓글