통계와 관련된 분야 및 주제들 :: 통계 - mindscale
Skip to content

통계와 관련된 분야 및 주제들

통계와 관련된 분야 및 주제들

  • 탐색적/확인적 데이터 분석
  • 머신러닝
  • 빅데이터
  • 데이터 마이닝

탐색적 데이터 분석 Exploratory Data Analysis, EDA

  • 데이터에 대한 초기 이해를 돕는데 초점
  • 데이터의 구조, 패턴, 이상치, 변수 간의 관계를 파악하는 것이 목표
  • 주로 시각화와 기술 통계를 사용하여 데이터를 요약하고 분석
  • 가설 생성이나 문제 해결을 위한 통찰력을 도출
  • 정형화되지 않은 질문에 답변을 찾는 데 도움이 되며, 데이터를 더 깊이 이해하는 데 기여

확인적 데이터 분석 Confirmatory Data Analysis, CDA

  • 이미 수립된 가설이나 이론을 검증하는 데 초점
  • 가설이 통계적으로 확인하고 결과를 일반화할 수 있는지 평가하는 것이 목표
  • 추론 통계, 회귀 분석, 가설 검정 등을 사용하여 가설의 타당성을 평가
  • 연구자가 가설을 검증하고 결과를 일반화하는 데 도움
  • EDA와 CDA는 서로 보완적
  • 일반적으로 먼저 EDA를 통해 데이터를 이해하고, 가설을 생성
  • 이후 CDA를 사용하여 가설을 검증

머신러닝

  • 과거의 인공지능은 논리, 계획, 지식에 바탕
  • 현재의 인공지능은 데이터로부터 통계적 패턴을 학습 (머신 러닝)
  • 딥러닝은 머신러닝의 일종
  • 머신러닝과 통계: 대체로 비슷하나 경향성에 차이가 있음

데이터 마이닝

  • 데이터 마이닝: 대규모 데이터셋 내에서 숨겨진 패턴, 추세 및 관계를 발견하는 과정
  • 마이닝(mining): 광업
  • 목표: 데이터로부터 가치 있는 통찰력과 지식을 추출하여 더 나은 의사 결정, 예측 또는 추천을 가능하게 하는 것
  • 기술: 머신 러닝, 통계 분석 및 데이터베이스 시스템
  • 데이터 마이닝 ⊂ 데이터 분석

빅 데이터

  • 대량의 복잡한 데이터로 구성된 데이터셋
  • 전통적인 데이터 처리 소프트웨어나 방법론으로는 처리, 저장, 분석이 어려울 정도로 규모가 크고 복잡
  • 3V:
    • 볼륨(Volume): 데이터 양이 엄청나게 많고, 테라바이트(TB)에서 페타바이트(PB) 이상의 범위. 기존의 데이터베이스나 저장 시스템에서는 처리하기 어려움
    • 속도(Velocity): 빅데이터는 매우 빠른 속도로 생성되고 처리되어야. 실시간 또는 거의 실시간으로 데이터를 분석하고 대응해야 하는 상황.
      • 예) 소셜 미디어, IoT 기기, 웹 로그 등
    • 다양성(Variety): 빅데이터는 다양한 형태와 형식의 데이터를 포함
      • 정형 데이터: 표, 데이터베이스 등에 잘 정리된 데이터
      • 비정형 데이터: 텍스트, 이미지, 비디오, 오디오 등

구글 트렌드(2004~2023)로 살펴본 검색량 변화

  • data mining  big data  machine learning 순으로 검색량 증가
  • data mining의 시대: 대량의 데이터에서 인사이트 도출 중시
  • big data의 시대: 데이터의 규모가 감당할 수 없을 정도로 커짐. 데이터를 다루는 것 자체가 관건
  • machine learning의 시대: 데이터에 기반한 자동화 중시