이번 글에서는 데이터 사이언스의 용어와 과정에 대한 정리를 해 볼 예정이다.
빅데이터라는 말은 많이 들어봤지만 정확히 데이터사이언스가 뜻하는 바는 무엇인지 모르니, 용어정리와 개념을 먼저 확실하게 넣고 시작하자!
데이터 과학(데이터 사이언스)란?
데이터 과학은 대량의 데이터를 분석하고 접근하는 종합적인 연구 방식으로,
빅데이터, 자료분석, 자료연구, 자료가공, 시각화 등이 모두 데이터 사이언스에 속한다.
데이터 과학 프로세스
1. 문제의 발견 및 데이터 획득(Obtain Data)
문제를 정의하고 인식하는 단계로, 문제 해결을 위한 데이터를 수집
2. 데이터 정리(Scrub Data)
데이터를 조건에 맞도록 수정하는 과정으로 누락된 데이터 처리, 오류 수정, 이상값 제거 등이 포함됨.
즉, 데이터를 사용할 수 있도록 가공하는 단계
3. 데이터 탐색(Explore Data)
추가 데이터 모델링을 위해 사용되는 예비 데이터 분석으로,
다양한 통계와 시각화 도구를 사용하여 데이터에 대한 이해를 얻는 과정
4. 데이터 모델링(Model Data)
기계 학습기술(연관, 분류, 클러스터링 등)이 훈련 데이터셋에 적용하는 과정.
결과의 정확도를 위해 테스트 데이터셋을 활용해 검증
5. 결과 전달 및 해석(Interpret Results)
데이터 인사이트를 도출하여 행동으로 옮기는 과정.
다이어그램, 그래프, 차트 등을 이용하여 데이터를 요약하고 효율적으로 사용.
데이터 과학에 사용되는 도구
데이터 분석 (Data Analysis) |
데이터 웨어하우징 (Data Warehousing) |
데이터 시각화 (Data Visualization) |
기계학습 (Machine Learning) |
- R - 스파크(Spark) - 파이썬(Python) - 사스(SAS) 등 |
- 하둡(Hadoop) - SQL - 하이브(Hive) |
- R - 태블로(Tableau) 등 |
- 스파크(Spark) - 애저(Azaure) - ML 스튜디오 - 머하웃(Maahout) |
'개발 스터디 > 데이터사이언스(빅데이터)' 카테고리의 다른 글
데이터 과학의 다양한 활용사례 :: 빅데이터 활용사례에 대해 알아보자! (0) | 2022.11.04 |
---|
댓글