반응형
임상시험의 Raw데이터들은 데이터셋에 정의된 변수 이름도 각양각색이고, 비슷한 이름의 변수들이 뒤에 숫자만 붙어서 나타나는 경우가 많다. 한 변수내에서 특정조건을 만족하는 Observation을 찾는데에는 %>% Filter() 함수를 쓸 수 있다고 하지만, 많은 변수들이 정의된 데이터셋에서 이름이 비슷한 여러개의 변수만 골라내서 선택을 하고 싶을땐 어떻게 해야할까?
예제) CM Dataset
library(ggplot2)
library(dplyr)
#Let's say we have CM Raw dataset
names(cm)
grep()을 이용한 솔루션
CM이라는 데이터셋에는 이렇게 많은 변수들이 정의되어있는데, 이 많은 변수중에서 나는 WHO에 관련된 변수들만을 고르고 싶다. 그럴때는 R base에 들어있는 grep()을 이용하면 편리하게 변수들을 뽑아낼 수 있다.
#grep function will return nominal indices of variable, which contains "WHO" string
grep("WHO", colnames(cm))
cm %>% select(grep("WHO", colnames(cm)))
제 글이 도움이 되셨다면 구독과 하트 부탁드립니다.
반응형
'데이터 사이언스 이야기 > R & SAS Programming' 카테고리의 다른 글
[SAS Programming] LOCF - Last Observation Carried Forward (0) | 2021.04.16 |
---|---|
[SAS Programming] 날짜 변수 속성(Type) 바꾸기 (Input, put, format) (0) | 2020.09.10 |
[R Programming] R로 하는 데이터 전처리 & 시각화 예제 (0) | 2019.04.01 |
댓글