본문 바로가기
데이터 사이언스 이야기/R & SAS Programming

[R Programming] 데이터 내 여러 변수 중 이름이 비슷한 변수 선택하기

by Data_to_Impact 2022. 2. 20.
반응형

임상시험의 Raw데이터들은 데이터셋에 정의된 변수 이름도 각양각색이고, 비슷한 이름의 변수들이 뒤에 숫자만 붙어서 나타나는 경우가 많다. 한 변수내에서 특정조건을 만족하는 Observation을 찾는데에는 %>% Filter() 함수를 쓸 수 있다고 하지만, 많은 변수들이 정의된 데이터셋에서 이름이 비슷한 여러개의 변수만 골라내서 선택을 하고 싶을땐 어떻게 해야할까? 

 

예제) CM Dataset

library(ggplot2)
library(dplyr)

#Let's say we have CM Raw dataset
names(cm)

예제 데이터셋 - CM

 

 

grep()을 이용한 솔루션 

CM이라는 데이터셋에는 이렇게 많은 변수들이 정의되어있는데, 이 많은 변수중에서 나는 WHO에 관련된 변수들만을 고르고 싶다. 그럴때는 R base에 들어있는 grep()을 이용하면 편리하게 변수들을 뽑아낼 수 있다. 

 

#grep function will return nominal indices of variable, which contains "WHO" string

grep("WHO", colnames(cm))

Grep을 이용해서 "WHO"가 들어간 변수들을 자동 추출

 

cm %>% select(grep("WHO", colnames(cm)))

Select 구문을 써서 필요한 변수들만 grep()의 결과를 이용해서 추출 할 수 있다. 

 

 

제 글이 도움이 되셨다면 구독하트 부탁드립니다. 

반응형

댓글