본문 바로가기
데이터 사이언스 이야기/통계학

[test][통계학]Dynamic Treatment Regime

by Data_to_Impact 2019. 7. 19.
반응형

Background

 

Dynamic Treatment Regime은 Personlized Medicine 의 한 분야이다. 존의 치료법이 전체에 대한 집단을 대상으로 진행을 하는 것이였다면, Personalized Medicine은 개개인의 특성 (성별, 유전 정보, 호전 상태)를 가지고 개인화된 치료법을 제공하는 것이다.

 

Personalized -Why?

 

Dynamic Treatment Regime은 이런 개인화치료법을 Longitudinal Environment에 적용을 한 것이다. 미리 설정된 Final End Point가 정해져 있고 여기에 Outcome Y를 maximize 하는것이 Dynamic Treatment의 목표이다.

 

위 그림은 DTR의 개략적인 과정을 보여주고 있는데 환자들의 질병 상황 혹은 intermediate outcome이 베이스라인에서 계속 evolving 하며, Y에서 관측이 멈춘다. End point K에 다다르기 전에 의사결정자는 t_1,t_2,... t_K 에서 Action- 치료어옵션을 제공을 해야한다. 

 

예를들어 위와 같은 binary treatment 상황을 가정하자. 환자 w는 S1 baseline information을 가지고 있고, 실제로 이 환자가 관측된 Trajectory는 {1,0}이다. 하지만 우리는 {1,1}, {1,0}, {0,1}, {0,0}에 대한 결과를 모른다. 우리는 이를 Potential Outcome 이라는 framework로 생각을 하고자 하고 우리의 목표는 어떤 combination of treatment가 max(Y*|S_1)인지를 알아보는 것이다. 

 

 

Method

 

Q-learning

구현의 용이함과 모델의 설명력 때문에 Q-learning과 A-learning이 자주 쓰였다. Q-learning은 Dynamic Programming, 방법으로 Q-function을 가정하여 마지막 스테이지로 부터 베이스라인 직전까지 back ward fitting 을 하는 것이다. 이 방법은 Linear approximation을 이용해서 아직 우리가 알지못하는 action에 대해서 guess 를 가능하게 했다는 것이다. 하지만 이 모델의 취약점은 Outcome에 대한 Q-function을 제대로 명시하지 못하면 (misspecify) 모델의 퍼포먼스가 급격하게 떨어진다는 점이다. 

 

A-learning

 

A-learning은 Optimal Dynamic Treatment Regime을 찾는 것에는 Outcome 모델의 일부만 이용된다는 점에 착안을 해서 아이디어를 냈다. 여기서는 대신 Propensity Score라는 추가 사항이 필요한데, 이는 Covariates의 정보를 이용해서 특정 환자가 어떤 치료를 받을 probability를 나타낸다. 이 A-learning은 Q-learning 과는 달리 Model misspcification에 덜 민감한데, 이를 Double robustness property라고 칭한다. 모델의 설정은 Q-learning과 동일하고 Propensity Score 파트가 추가되었다.

 

BART (Bayesian Additive Regression Tree)

 

BART 모델은 복잡한 모델의 예측 성능과 그 유연함 때문에 Causual Inference 그룹에서 많이 유명해졌다. 우리는 Potential Outcome Framework에 감안하여 BART 모델을 사용해 Counter Factual Outcome을 각 스테이지마다 만들어내서 마지막 Final Outcome에 대한 Potential Outcome을 계산을해 어떤 것이 평균적으로 더 높은 Outcome 을 가져다 주는지 보는것이다. ---( 설명이 더 필요)

 

 

Simulation Setup

 

K=1

K=2

 

Conclusion

반응형

댓글