본문 바로가기

데이터분석/이론

[데이터분석]데이터 수집, 데이터분석 과정, 데이터분석 이론

데이터 수집하기

 

-데이터의 종류(내부 데이터, 직접 수집한 데이터, 외부 데이터)

 

-외부 데이터 얻는 사이트

  1. 공공 데이터

    -공공 데이터 포털(https://www.data.go.kr/)

    -통계청 MDIS(https://mdis.kostat.go.kr/index.do)

      -통계조사, 설문의 원자료(row data) 제공

    -서울시 열린 데이터 광장(https://data.seoul.go.kr/)

 

  2. 민간 데이터

    -SKT 빅데이터 허브(bigdatahurb.co.kr)

      -지역/시간대/업종별 통화량 데이터 등

    -네이버 데이터랩(https://datalab.naver.com/)

      -검색어 통계, 지역 업종 연령 성별 카드 사용 통계(BC카드)

    -캐글(https://www.kaggle.com/)

      -외국 사이트, 다양한 기업의 실제 데이터와 분석 사례

 

 

 

분석에 알맞게 데이터 가공하기

 

-분석의 종류

  1. 확증적 데이터 분석

    -정해진 목표에 따라

    -미리 설정한 가설을 확인하기 위한 분석

    -추정과 검정

    -주로 연구에서 사용

 

  2. 탐색적 데이터 분석

    -분석 목표가 명확하지 않거나 데이터의 이해가 떨어질 때, 초기 분석 때 필수!

    -변수 또는 변수간 관계 등 데이터 자체의 특성을 확인하기 위한 분석

    -간단한 기술 통계량 계산, 다양한 그래프 활용

    -모든 데이터 분석의 시작 단계에서 필수적인 과정

 

-요약과 모형

  1. 요약

    -데이터를 압축하는 과정

    -데이터의 정보를 인식 가능한 수준으로 줄이는 과정

    -그룹별로 관측치 수, 평균, 최댓값 계산 등 단순 숫자 요약

 

  2. 모형(model)

    -정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인

    -가능성을 수치화한 확률로 설명

    -일종의 요약이지만 더 복잡

 

-데이터 가공의 필요성

  >데이터 가공

    -데이터 인식과 분석을 위해 데이터의 형태를 변환하는 과정

  1. 부분 데이터 선택

    -관심 있는(분석에 필요한) 관측치와 변수만 선택->나머지는 제거

  2. 변수 결합, 분해 및 파생변수 생성

    -기존 변수를 더 활용하기 좋은 형태로 변환

    -ex) 나이(21세, 54세, ...) ->연령대(20대, 30대, ...)

 

 

 

적절한 방법으로 데이터 분석, 시각화, 문서화 하기

 

-분석 순서

  1. 분석 목표 설정(실행 가능성, 활용 가능성 고려)

  2. 데이터 수집(내부 및 관련 있는 외부 데이터 활용)

  3. 탐색적 데이터 분석(변수나 변수간 관계에 대한 열린 분석 실행)

  4. 확증적 데이터 분석/모형 적합(검정, 알고리즘 등을 활용해 분석)

    -동일한 분석을 반복하여 결과의 재현 확인

    -피드백을 통해 분석 목표 및 데이터 처리, 분석 방법 수정 고려

    -이러한 과정을 거치면서 분석의 정교화 및 모형의 고도화

  5. 분석 결과 공유

 

-분석 결과 시각화, 문서화 하기

  1. 분석과 분석 결과 요약

    -전체 과정이 아닌 흐름을 이해할 수 있는 수준으로 요약

    -효과적인 정보 전달을 위한 그래프 활용 필요

      >ms office(엑셀, 워드, 파워포인트 등) 활용 가능

      >markdown(r, phython 등)에서 분석&보고서 작성

      >대시보드:웹 기반으로 동적 보고서 작성 ex. R의 Shiny

 

 

 

데이터 분석의 재료인 데이터

 

1. 차이와 데이터

  -데이터:변수(variable)와 관측치(observation)로 구성

  -데이터 분석의 목적

    >변수 속에서 관측치 간의 차이 확인

    >변수 간의 관계를 확인

    >차이와 관계를 확인하고 설명

  -데이터 분석의 과정

    >숫자와 그래프로 차이를 확인

    >모형으로 차이를 설명

  -차이

    1. 절대적인 차이: 관측치의 실제 값이나 데이터를 요약

    2. 상대적인 차이: 절대적인 차이를 상대적인 값으로 바꿈(ex. 시험 등수)

 

2. 범주형(categorical) 변수의 요약

  -수준(levels)=처리=그룹

  -요약하기

    1. 수준별로 관측치 나누기

    2. 수준별로 관측치 개수 세기

    3. 표로 정리하기

  -표와 차이

    1. 빈도표(frequency table): 관측치 수를 정리, 수준간 절대적 차이

    2. 상대빈도(relative frequency): 각 수준의 비율, 수준간 상대적 차이

  -시각화

    1. 막대 그래프: 빈도표 이용, 절대적인 차이

    2. 원 그래프: 상대빈도 이용, 상대적인 차이

 

3. 순서대로 줄 세우는 수치형(numerical) 변수의 요약(정렬 이용)

  -분위수(quantile):관측치들의 전반적인 분포를 확인

    >사분위수(=다섯 숫자 요약): 최솟값, Q1(제 1 사분위수), 중앙값(제 2 사분위수), Q3(제 3 사분위수), 최댓값

  -시각화

    1. 상자그림(box plot): 사분위수로 나온 4개 구간의 길이 차이 확인, 3개 이상의 그룹 비교

    2. 도수 분포표(frequency table): 구간화하여 표로 정리, 분포 확인

    3. 히스토그램: 도수분포표를 높이로 표현, 각 구간의 비중 확인

   

4. 모두 더해 계산하는 수치형 변수의 또 다른 요약(합계 이용)

  -평균(mean): 관측치들의 전반적으로 큰 정도

  -분산/표준편차: 관측치들이 평균을 중심으로 흩어져 있는 정도

   

5. 수치형 변수를 상대적인 값으로 변환

  -백분율(percentage): 특정 값 이하인 관측치의 수를 비율로 계산

  -최소-최대 정규화(Min-Max normalization): (관측치-최소값)/(최대값-최소값), (결과의 범위: 0~1 사이)

  -표준화(standardization): (관측치-평균)/표준편차

   

 

 

개념이 보이는 데이터 공간

 

1. 데이터와 공간의 개념

  -데이터 공간: 데이터마다 다른 변수와 관측치 구성에 따라 만들어진 공간

    >데이터의 차원: 변수의 수

    >관측치 수만큼 점으로 표현

  -데이터 공간과 분석의 재정의

    1. 변수가 만들어내는 공간에서

    2. 관측치들이 만들어 내는 차이를 숫자와 그래프로 확인

    3. 더 자세히 상대적인 차이를 확인

    4. 모형 등을 이용해 차이를 설명

 

  -공간에서 범주형 변수 요약

    >한 범주형 변수: 1차원에서 정해진 k개의 수준 중 하나의 값을 가짐

  -공간에서 수치형 변수 요약

    >한 수치형 변수: 1차원 수직선에서 다양한 값을 가짐

      >평균: 1차원 공간의 무게중심

 

  -1차원에서 2차원으로

    1. 한 변수의 분석: 1차원에서 흩어진 패턴 파알, 주로 변수의 특성을 확인

    2. 두 변수의 분석: 2차원에서 흩어진 패턴을 파악, 두 변수의 관계를 설명

 

2. 두 범주형 변수의 관계

  -두 변수의 수준들 간의 관계로 확인

  -교차표(분할표, contingency table): 2차원 표, 수준 조합에 대한 빈도표, 수준 조합의 절대적인 차이 확인

  -열지도(heatmap): 2차원 교차표를 색으로 표현하여 시각화, 숫자 대신 색의 진하기로 표현

  -행(열) 백분율: 행(열) 별로 상대빈도 계산, 각 수준의 전체 상대빈도와 비교, 상대적인 차이, 두 변수의 숨은 관계

 

3. 두 수치형 변수의 관계

  1. 산점도(scatter plot) : 시각화

    >2차원 공간에서 점의 패턴을 파악

    >평균선의 교점=무게중심, 평균선 기준으로 4분면

    >제 1, 3 사분면의 관측치 수가 높으면->두 변수가 양의 상관

      제 2, 4 사분면의 관측치 수가 높으면->두 변수가 음의 상관

 

  2. 공분산(covariance): 두 수치형 변수의 관계를 계산한 기술 통계량(절대적인 요약 값)

    >공분산 공식:

    >각 관측치가 중심(x_bar, y_bar)로부터 떨어진 면적/(n-1)

    >큰 양수: 양의 상관

      0에 가까울수록 관련 없음

      큰 음수: 음의 상관

    >단점: 단위 - scale(숫자가 큼),  unit(단위가 다름)

 

  3. 피어슨 상관계수(Pearson's correlation coefficient): 두 변수의 관계에 대한 상대적인 요약값

    >두 변수를 표준화하여 공분산의 단위 문제를 해결, 표준화된 공분산

    > 피어슨 상관계수 공식: 

    >rho_xy>0 :양의 상관

      rho_xy=0 :상관x

      rho_xy<0 :음의 상관

 

4. 한 범주형 변수와 한 수치형 변수의 관계

  1. 범주형 변수를 그룹으로 활용해 수치형 변수의 그룹별 평균 계산

    -조건부 평균(conditional mean)

      >범주형 변수의 수준별로 수치형 변수의 평균 계산

      >그룹(수준)에 따른 절대적인 차이 확인

      >전체 평균과 비교하여 상대적인 차이 확인

    -그룹별 상자그림 : 시각화

      >각 수준별 상자그림을 동일한 축에 나란히 표현

      >그룹간 분포 비교

   

  2. 수치형 변수를 조건으로 활용해 범주형 변수의 조건부 비율 계산

    -수치형 변수를 구간화:구간 값을 활용해 범주형 변수로 변환

    -사실상 두 범주형 변수의 관계(교차표, 열지도 등 이용)

 

 

 

변수 유형 별 기술 통계량과 시각화 요약

 

첫번째 변수 두번째 변수 기술 통계량 시각화
범주형 범주형 교차표 열지도
수치형 수치형 상관계수 산점도
범주형 수치형 그룹별 평균 그룹별 상자그림

 

 

 

미래를 예측하는 회귀분석

 

1. 예측에 대한 개념

  -관심변수(=반응변수=종속변수): 예측의 대상이 되는 변수

  -설명변수(=독립변수)

  -조건부 평균(conditional mean): 설명변수를 조건으로 계산한 종속변수의 평균

    >범주형 설명변수 ->그룹별 평균

    >수치형 설명변수 ->선형회귀

 

2. 산점도와 추세선

  -수치형 설명변수를 이용한 예측

    >수치형 설명변수의 구간화 ->그룹별 평균 계산

    >산점도와 상관계수 활용

     

3. 선형 회귀 모형의 개념

  -단순 선형 회귀(simple linear regression) 모형(model): 

  -회귀 모형 적합

    >두 변수 X와 Y의 관계식을 확인하는 과정(beta_0, beta_1을 계산)

    >결국 산점도에 가장 적절한 추세선을 찾는 것

 

4. 회귀 계수의 계산과 예측

  -최소제곱법(Least Square Method)을 이용

    >의미:예측값과 실제값 Y의 전반적인 차이가 적은 직선 찾기

    >모든 회귀직선은 무게중심(x_bar, y_bar)을 지남

    >회귀계수의 MLE(maximum likelihood estimation): 

    >회귀 직선의 기울기 beta_1은 두 변수의 상관계수에 비례

  -회귀(regression)

    >X가 꽤 커도 Y는 생각보다 작게 예측

    >X가 꽤 작아도 Y는 생각보다 크게 예측

    >예측된 Y값이 평균(중심)으로 당겨지는 효과