본문 바로가기
Career/잡썰

[잡썰] 데이터 사이언스 잡을 시작하기 전에 생각해봐야 것 - 전처리 과정의 고욕

by Data_to_Impact 2020. 9. 10.
반응형

데이터 사이언스 잡을 시작하기 전에 생각해봐야 것 - 데이터 전처리의 고욕

 

예전에 페이스북에 일기 형식으로 남겼던 글인데, 데이터 사이언스 관련 직업, 연구에 관심이 있으신 분들이 한번 쯤은 생각해보시면 좋을 것이라는 생각에 블로그에도 글을 남긴다.

 

오늘 데이터셋 하나를 전처리 하기위해서 10시간 이상을 컴퓨터 앞에서 보냈다. 데이터사이언스는 지금 굉장히 핫한 분야이다. 하지만 그것만 보고 이 분야를 직업을 택하는 일은 별로 추천 하지 않는다. 왜냐하면 데이터 분석을 하기 위해서 보내는 시간 중에 거의 대부분은 이 지루한 전처리 작업의 연속일 때가 많기때문이다.

 

내가 이 과정이 반 중노동이라는걸 깨닫기에는 그리 오랜시간이 걸리지 않았다. 복잡하고 Fancy한 알고리즘을 적용하고 시험하는건 Simulation의 경우에나 실험/대조군이 명확한 Controlled 데이터에서나 잘 적용이 되지 현실의 데이터에서는 Missing Value, 기록 오류 등등 다양한 이유로 분석에 적용하기가 쉽지 않다.

 

데이터 분석가들은 이를 일일히 수작업으로 모든 케이스를 고려해서 수정을 해주어야 한다. (이 과정에서 Domain Knowledge +인간의 판단이 필요하기 때문에 데이터 분석을 통해서 의미를 추출해내는 것 자체는 AI에 대체되서 자동화 되기는 어려울 것 같다)

 

요즘 데이터사이언스가 뜨면서 관심이 높아지고 사람들이 커리어 전환을 많이 도전하고 있다고 하는데, 결정 이전에 이 지루한 전처리 과정을 버틸 수 있을지, 하루 종일 앉아서 머리쓰고 모니터를 보는것이 적성에 맞을지 결정을 하기전에 잘 생각해 보고 결정해야 한다는 생각이 들었다.

 

아직도 데이터 전처리 과정이 끝나질 않아서 해보는 하소연이다.

 

 

 

05/19/2019

 

 

 

 

 

글이 도움이 되셨다면 구독좋아요 부탁드립니다. 

반응형

댓글