통계와 관련된 분야 및 주제들 :: 통계 - mindscale
통계와 관련된 분야 및 주제들
통계와 관련된 분야 및 주제들
- 탐색적/확인적 데이터 분석
- 머신러닝
- 빅데이터
- 데이터 마이닝
탐색적 데이터 분석 Exploratory Data Analysis, EDA
- 데이터에 대한 초기 이해를 돕는데 초점
- 데이터의 구조, 패턴, 이상치, 변수 간의 관계를 파악하는 것이 목표
- 주로 시각화와 기술 통계를 사용하여 데이터를 요약하고 분석
- 가설 생성이나 문제 해결을 위한 통찰력을 도출
- 정형화되지 않은 질문에 답변을 찾는 데 도움이 되며, 데이터를 더 깊이 이해하는 데 기여
확인적 데이터 분석 Confirmatory Data Analysis, CDA
- 이미 수립된 가설이나 이론을 검증하는 데 초점
- 가설이 통계적으로 확인하고 결과를 일반화할 수 있는지 평가하는 것이 목표
- 추론 통계, 회귀 분석, 가설 검정 등을 사용하여 가설의 타당성을 평가
- 연구자가 가설을 검증하고 결과를 일반화하는 데 도움
- EDA와 CDA는 서로 보완적
- 일반적으로 먼저 EDA를 통해 데이터를 이해하고, 가설을 생성
- 이후 CDA를 사용하여 가설을 검증
머신러닝
- 과거의 인공지능은 논리, 계획, 지식에 바탕
- 현재의 인공지능은 데이터로부터 통계적 패턴을 학습 (머신 러닝)
- 딥러닝은 머신러닝의 일종
- 머신러닝과 통계: 대체로 비슷하나 경향성에 차이가 있음
데이터 마이닝
- 데이터 마이닝: 대규모 데이터셋 내에서 숨겨진 패턴, 추세 및 관계를 발견하는 과정
- 마이닝(mining): 광업
- 목표: 데이터로부터 가치 있는 통찰력과 지식을 추출하여 더 나은 의사 결정, 예측 또는 추천을 가능하게 하는 것
- 기술: 머신 러닝, 통계 분석 및 데이터베이스 시스템
- 데이터 마이닝 ⊂ 데이터 분석
빅 데이터
- 대량의 복잡한 데이터로 구성된 데이터셋
- 전통적인 데이터 처리 소프트웨어나 방법론으로는 처리, 저장, 분석이 어려울 정도로 규모가 크고 복잡
- 3V:
- 볼륨(Volume): 데이터 양이 엄청나게 많고, 테라바이트(TB)에서 페타바이트(PB) 이상의 범위. 기존의 데이터베이스나 저장 시스템에서는 처리하기 어려움
- 속도(Velocity): 빅데이터는 매우 빠른 속도로 생성되고 처리되어야. 실시간 또는 거의 실시간으로 데이터를 분석하고 대응해야 하는 상황.
- 예) 소셜 미디어, IoT 기기, 웹 로그 등
- 다양성(Variety): 빅데이터는 다양한 형태와 형식의 데이터를 포함
- 정형 데이터: 표, 데이터베이스 등에 잘 정리된 데이터
- 비정형 데이터: 텍스트, 이미지, 비디오, 오디오 등
구글 트렌드(2004~2023)로 살펴본 검색량 변화
- data mining big data machine learning 순으로 검색량 증가
- data mining의 시대: 대량의 데이터에서 인사이트 도출 중시
- big data의 시대: 데이터의 규모가 감당할 수 없을 정도로 커짐. 데이터를 다루는 것 자체가 관건
- machine learning의 시대: 데이터에 기반한 자동화 중시
처음으로