본문 바로가기
데이터 사이언스 이야기

데이터 사이언스란 무엇인가 - 데이터 사이언스의 과정

by Data_to_Impact 2023. 10. 31.
반응형

잘 안풀리는 문제가 있을때는 책상에 저렇게 공책을 하나 놓고 생각을 정리해 보곤 한다

 

데이터 사이언스란 무엇일까? 

 

데이터 사이언스/데이터 사이언티스트라는 단어는 빅데이터라는 개념과 더불어서 이제는 어디에서나 들을 수 있는 말이 되지만 데이터 사이언스가 무엇인지 정작 구글에 검색을 해보면 그 정의가 웹사이트마다 다양한데, 위키피디아에서는 아래와 같이 정의를 하고 있다. 

 

 

데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.
- 출처: 위키피디아

 

데이터 사이언스가 무엇인지에 대해서 한마디로 딱 잘라서 대답하기는 어렵지만 내가 생각하는 데이터 사이언스는 짧게 말해서 데이터로부터 의미 있는 결론을 끌어내서 의사결정을 합리적으로 하는 과정을 말한다고 생각한다. 많이 들어 보았을 빅데이터, 딥러닝, 머신러닝, 통계 검정이니 하는 것들은 이런 데이터를 통해서 의사결정을 하는 과정들의 도구이다.

 

데이터를 가지고 할 수 있는 것

 

앞서서 데이터 사이언스가 데이터를 가지고 의사결정을 합리적으로 하는 과정이라고 하였는데, 그렇다면 데이터 사이언스는 데이터를 가지고 어떤 의사결정을 할 수 있을까? 몇 가지 프로젝트의 예를 들자면 다음과 같다

 

1. 대시보드를 가지고 현재 상품의 매출의 동향 파악 (데이터 시각화 & Descriptive Statistics)

2. 머신러닝 알고리즘을 통한 신용카드 부정 사용 적발 

3. 사건의 인과관계 추론 (Causal Inference)

4. 홈페이지에서 A/B 테스트를 통해 더 나은 상품 페이지 선정 

5. 딥러닝을 이용한 자율주행 서비스

6. 구매 패턴이 비슷한 고객들에게 상품 추천하기

 

이외에도 여러가지 데이터 사이언스 프로젝트가 있을 수 있지만 가장 중요한 것은 우리가 어떤 데이터를 가지고 어떤 질문에 대답을 할 것인지 정의가 잘 되어 있어야 한다는 것이다. 많은 데이터를 가지고 있어도 그 데이터들이 질문에 적합하지 않은 데이터 형식이 될 수도 있는 것이고, 질문의 방향성이 제대로 되지 정의되지 않다면 의미 있는 결론을 끌어내기가 힘들기 때문이다. 

 

우리가 가지고 있는 데이터가 실험 데이터인지, 아니면 단순 관측 데이터인지, 얻고자 하는 인사이트가 미래의 예측에 초점을 두고 있는지 아니면 단순히 두 대조군의 차이를 검증하는 것인지에 따라서 우리가 쓰게 되는 툴과 접근 방식이 달라진다. 예를 들어서 레이블링이 된 트레이닝 데이터도 충분하지 않은데 머신러닝 프로젝트 가지고 예측을 하려고 한다면 좋은 결과를 얻지 못할 가능성이 크다. 

 

 

데이터 사이언스의 일반적인 업무 과정 

 

앞서 데이터 사이언스가 어떤 질문에 답을 하는지 사례를 통해서 살펴보았는데, 그렇다면 어떤 과정을 거쳐서 결론을 얻어내는 것일까? 일반적으로는 아래와 같은 단계로 업무가 이루어지는데, 아래의 데이터 사이언스 업무 과정을 챗봇 서비스를 개발하는것을 예를 들어서 설명을 해보려고 한다.

 

데이터 사이언스 업무 과정 - 출처: Datacamp

반응형

 챗봇 개발 예시 

그렇다면 어떤 과정을 거쳐서 데이터 사이언스 서비스가 개발되고 완성이 될까? 한 카드회사가 챗봇을 개발해서 상담원들이 하는 반복적인 업무를 대체를 하고자 하는 것을 예로 들어보자. 

 

1. 데이터 수집/저장 (데이터 엔지니어)

 

이전에 수 많은 고객들이 상담원과 나누었던 과거 데이터가 서버에 저장이 되어 있다. 데이터 엔지니어는 우선 우리가 필요로 하는 데이터를 선별을 해서 수집을 해야 한다. 예를 들어서 고객들의 정보, 고객들이 했던 질문들, 그리고 언제 이런 대화들이 수집이 되었는지에 대해서 데이터 사이언티스트들이나 분석가들이 필요로 하는 데이터를 필요할 때마다 제공을 해야 한다. 

 

 

2. 데이터 전처리  (데이터 엔지니어/데이터 사이언티스트)

 

원 데이터를 보니 모델에 쓰지 못할 만한 데이터가 많다. 오타도 많았고, 중간 중간 끊겨 있는 대화도 많았다. 이런 데이터는 지워내야 했고, 오타가 있는 경우라면 제대로된 단어로 수정을 해야 했다. 이후에 모델링과 시각화를 위해서 변수 이름을 잘 정의를 했고, 고객들이 원하는 대답을 얻었는지에 대한 것에 Labeling을 해서 추후에 예측 모델을 만들고자 한다.

 

 

3. 탐색적 데이터 분석 (데이터 사이언티스트)

 

통계학이나 머신러닝과 같은 도구들이 쓰이기 전에 어떤 방식으로 문제에 접근을 해아 할지 감을 잡는 단계이다.

앞선 과정에서 전처리된 데이터를 가지고 전반적인 동향을 살펴본다. 언제 어떤 대화들이 어느 시간대에 오갔는지 시각화를 해서 트렌드를 살펴보고, 어떤 종류의 질문들을 가장 많이 고객들이 궁금해했는지 미리 파악을 할 수 있게 되었다. 

 

 

4. 실험 및 예측 (데이터 사이언티스트)

 

이제는 우리가 배웠던 도구들이 쓰일 차례이다. 이 문제에서는 딥러닝을 이용한 자연어 처리 알고리즘을 적용을 하기로 했다. 

탐색적 데이터 분석에서 나온 가장 많이 물은 질문 들을 가지고 고객이 궁금해할 만한 다른 세부 질문들을 제시하는 알고리즘을 제시하고, 자연어 처리 모델을 써서 각 질문들에 대한 모범 답안을 제시한다. 고객들이 채팅 이후에 하는 설문조사 만족도로 이 알고리즘의 퍼포먼스를 체크를 한다. 

 

 

 

정리

 

데이터 사이언스가 무엇인지 딱 잘라서 말을 하기는 어렵지만, 데이터 사이언스는 데이터로부터 의미 있는 결론을 끌어내서 의사결정을 합리적으로 하는 과정이라고 생각을 한다. 데이터 사이언스는 여러 가지 질문에 대답을 할 수 있지만, 중요한 것은 어떤 데이터를 가지고 어떤 질문에 대답을 할 것인지 정의가 잘 되어 있어야 한다는 것이다. 

 

챗봇 개발을 예시로 들어서 데이터 수집/저장 -> 데이터 전처리 -> 탐색적 데이터 분석 -> 실험 및 예측 과정이 어떻게 진행이 되는지 살펴보았다. 

 

이 글이 데이터 사이언스 분야에 입문을 하고자 하는 사람들에게 도움이 되었으면 한다. 

 

 

 

관련글 

 

2017.12.16 - [Career/한국 취업] - [데이터 사이언스 인턴] 서울대학교 융합과학기술원 Applied Data Science Lab 인턴 후기

 

[데이터 사이언스 인턴] 서울대학교 융합과학기술원 Applied Data Science Lab 인턴 후기

데이터 사이언스 인턴- 서울대학교 융합과학기술원 Applied Data Science Lab 인턴 후기 2016년 여름 나는 서울대학교 융합과학기술원 대학원 Applied Data Science Lab(ADSL)에서 인턴을 하였다. 이미 2년 가까

cosmy.tistory.com

2022.07.15 - [데이터 사이언스 이야기/Clinical Data Science] - 데이터 사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할

 

데이터 사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할

데이터사이언스의 관점에서 본 임상시험 Statistical Programmer의 역할 데이터 사이언스의 일반적인 프로세스 데이터 사이언스를 한다는 것은 무엇을 의미할까? 데이터 사이언스라는 말을 이제는 어

cosmy.tistory.com

2021.11.20 - [Career/미국 취업] - [미국 취업] Statistical Programmer CRO에서 제약회사로의 이직 성공기

 

[미국 취업] Statistical Programmer CRO에서 제약회사로의 이직 성공기

[미국 취업] Statistical Programmer CRO에서 제약회사로의 이직 성공기 이직의 동기 운이 좋게도 첫 직장을 잡고나서 곧 바로 지원한 H1-B 추첨에 당첨이 되었고, 당첨 사실을 회사 측 로펌으로 부터 4월

cosmy.tistory.com

 

2021.03.26 - [Career/미국 취업] - [미국 취업] 통계학 전공자가 미국 임상시험 회사(CRO)에서 하는 일들

 

[미국 취업] 통계학 전공자가 미국 임상시험 회사(CRO)에서 하는 일들

통계학 전공자가 임상시험에서 하는 일들- CRO 회사에서 통계학 전공자가 하는 일들 미국에서 통계학 석사학위를 마치고 신약개발을 위한 임상시험을 하는 회사인 CRO(Contract Research Organization)에

cosmy.tistory.com

 

2019.08.19 - [Career/미국 취업] - [미국 통계 전공 취업] 미국 유통 대기업 데이터 분석가 인터뷰 및 합격후기

 

[미국 통계 전공 취업] 미국 유통 대기업 데이터 분석가 인터뷰 및 합격후기

[미국 통계 취업] 미국 데이터 분석가 인터뷰 및 합격후기 -유통 대기업 지원과정 & 스태핑 컴퍼니 작년 3월 즈음 내가 구직 사이트에 올린 Resume를 보고 한 스태핑 컴퍼니에서 전화가 왔었다. 스

cosmy.tistory.com

 

반응형

댓글