본문 바로가기

데이터분석

(25)
[회귀분석]단순선형회귀분석(Simple Linear Regression) 예제-보스턴 주택 가격 예측 in python 보스턴 주택 가격 데이터로 주택 가격을 예측하는 단순선형회귀분석을 한 뒤 결과를 해석해보겠습니다. 이 데이터는 1978년 데이터로 506개 타운의 주택 가격의 중앙값(단위 1,000 달러)이고, 예측변수(Y)는 Target(주택 가격)으로 연속형 변수이므로 회귀분석이 가능합니다. 나머지 13개의 설명변수(X)에 대한 설명은 다음과 같습니다. CRIM: 범죄율 INDUS: 비소매상업지역 면적 비율 NOX: 일산화질소 농도 RM: 주택당 방 수 LSTAT: 인구 중 하위 계층 비율 B: 인구 중 흑인 비율 PTRATIO: 학생/교사 비율 ZN: 25,000 평방피트를 초과 거주지역 비율 CHAS: 찰스강의 경계에 위치한 경우 1, 아니면 0 AGE: 1940년 이전에 건축된 주택의 비율 RAD: 방사형 고속..
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 -간단한 모형일수록 under fitting(학습, 실제 data 모두 잘 안 맞음), 복잡한 모형일수록 over fitting됨(학습 data는 잘 맞지만 실제 data는 안 맞음) 데이터 분할 -과적합 방지를 위해 전체 data를 training & test(보통 8:2, 7:3) 또는 trainig & validation & test(보통 5:3:2, 4:3:3)으로 랜덤하게 나눔 -학습용 데이터(training data): 모형을 추정 -검증용 데이터(validataion data): 추정한 모형이 적합한지 검증 -테스트 데이터(test data): 최종 모형의 성능을 평가 -validation data로 k값(hypher parameter)을 조정함(=> validation data에 over ..
[머신러닝 개념]머신러닝(Machine Learning)의 종류와 장단점, Tree 기반 모델 쓰는 이유 1. 지도학습(supervised learning) HTML 삽입 미리보기할 수 없는 소스 입력변수(X)와 출력변수(Y)의 관계에 대해 모델링 또는 Y에 대해 예측, 분류 -종류: 1. 회귀(regression): 연속형 Y 2. 분류(classification): 이산형 Y 2. 비지도 학습(unsupervised learning) 출력변수(Y)가 존재하지 않고, 입력변수(X)간의 관계에 대해 모델링 -종류: 1. 군집분석: 유사한 데이터끼리 그룹화 2. PCA(principal component analysis): 독립변수들의 차원을 축소화 3. 강화학습(reinforcement learning) 수많은 시뮬레이션을 통해 현재 선택이 먼 미래에 보상이 최대가 되도록 학습(Agent가 action을 취..
[R]가설검정과 예제로 보는 1집단 t-test, paired t-test, 2집단 t-test 결과 해석, t.test() in r 1. 가설검정(hypothesis test)의 단계 2. 1집단 t-검정(one sample t-test) + 예제 3. paired t-test(짝진 표본 t검정) + 예제 4. 2집단 t-검정(two sample t-test) + 예제 1. 가설검정(hypothesis test)의 단계 가설검정은 다음의 5단계로 진행됩니다. 통계 분석 프로그램인 r을 이용하면 3, 4번의 과정을 자동으로 계산해줍니다. 1. 가설(hypothesis)을 세운다 2. 유의수준(significance level) alpha를 정한다. (보통 0.05) 3. 검정통계량(test statestic)을 구한다. 4. 기각역(critical region, rejection regeion)을 구하여 검정 통계량과 비교한다. 5. ..
[R 기초]vector, list의 슬라이싱, 원소 추가, 수정, 제거 등 in r 1. 벡터 c() 2. 리스트 list() 3. 1차원 자료의 슬라이싱(slicing) 4. 2차원 자료의 슬라이싱 5. 원소 추가(삽입) 6. 원소 수정(변경)+전처리 7. 원소 제거(삭제) 1. 벡터 c() c()에 원소들을 넣어 벡터를 만들 수 있습니다. 벡터의 원소로 문자열, 숫자, 변수, 논리값 등이 가능하지만 각 원소의 형태들이 같아야 합니다. > num cat("벡터의 길이:", length(num)) 벡터의 길이: 3 벡터의 원소가 모두 문자열 형태인 경우 class는 문자열, 원소가 모두 숫자인 경우 숫자로 인식합니다. 그러나 여러가지 형태의 원소들을 동시에 가질 경우 문자열이 아닌 원소도 모두 문자 형태로 인식합니다. > class(num);class(c(1,2,3)) [1] "char..
[R 기초]print 관련 정리(print, paste, cat, sprintf 함수) in r 1. 하나의 변수 출력하기 - print() 2. 2개 이상의 변수 출력하기 - paste(), cat() 3. 문자열 사이에 여러 형태의 값 넣어서 출력하기 - sprintf() 4. list를 table 형태로 출력하기 - unlist(), as.data.frame() 1. 하나의 변수 출력하기 - print() print() 함수에 하나의 변수를 넣으면 그 변수를 출력해주지만, 2개 이상의 변수를 넣으면 오류가 뜹니다. > num print(num) [1] 3.14 > print("변수 num의 type: ", typeof(num)) Error in print.default("변수 num의 type: ", typeof(num)) : invalid printing digits -2147483648 I..
[기초]5가지 data type(list, tuple, set, dictionary, string) 총정리 in python 1. data type1: List(리스트형) 2. data type2: Tuple(튜플형) 3. data type3: Set(집합형) 4. data type4: Dictionary(사전형) 5. data type5: String(str, 문자형) 6. 5가지 데이터 타입끼리 변환하는 방법 1. data type1: List(리스트형) 파이썬의 데이터 타입 중 리스트는 대괄호 [ ] 를 이용하여 만듭니다. indexing(인덱싱), slicing(슬라이싱)이 가능하고 원소의 수정도 가능합니다. > L=[1,2,3,4,5] > print(L, len(L), type(L)) [1, 2, 3, 4, 5] 5 대괄호만 적으면 원소가 하나도 없는 빈 리스트가 만들어집니다. > L1=[] > print(L1, le..
[데이터분석]데이터 수집, 데이터분석 과정, 데이터분석 이론 데이터 수집하기 -데이터의 종류(내부 데이터, 직접 수집한 데이터, 외부 데이터) -외부 데이터 얻는 사이트 1. 공공 데이터 -공공 데이터 포털(https://www.data.go.kr/) -통계청 MDIS(https://mdis.kostat.go.kr/index.do) -통계조사, 설문의 원자료(row data) 제공 -서울시 열린 데이터 광장(https://data.seoul.go.kr/) 2. 민간 데이터 -SKT 빅데이터 허브(bigdatahurb.co.kr) -지역/시간대/업종별 통화량 데이터 등 -네이버 데이터랩(https://datalab.naver.com/) -검색어 통계, 지역 업종 연령 성별 카드 사용 통계(BC카드) -캐글(https://www.kaggle.com/) -외국 사이트,..