반응형
29. 회귀분석
29.1 회귀분석(Regression)이란?
29.1.1 독립변수(X)와 종속변수(Y)의 관계식을 구하는 기법
독립변수가 한단위 증가할 때 종속변수가 얼마나 영향을 받는지 분석하는 방법
29.1.2 추정: 회귀식, 회귀계수
29.1.3 검정: 독립변수의 영향력, 모형의 적합성(R2) 등
29.2 회귀분석의 종류
29.2.1 단순회귀분석: 독립변수가 1개인 회귀모형
(예) 기업의 광고집행액(X)을 이용하여 그 기업의 매출액(Y)을 예측하는 모형
29.2.2 중회귀분석: 독립변수가 2개 이상인 회귀모형
(예) 어린이의 연령(X1)과 하루 평균 학습시간(X2)을 이용하여 그 어린이의 성적(Y)을 예측하는 모형
기법 | 대상변수A | 대상변수B | 적용 예 |
카이제곱검정 | 이산형 | 이산형 | 성별과 결혼유무 사이에 유의한 관계가 있는가? |
독립표본t검정 |
이산형 (2그룹/독립) |
연속형 | 성별에 따른 평균 취업률의 차이가 있는가? |
대응표본t검정 |
이산형 (2그룹/Pair) |
연속형 | 보충수업 후 성적의 향상이 있는가? |
일원배치 분산분석 |
이산형 (3그룹 이상) |
연속형 | 거주지역에 따른 평균소득액의 차이가 있는가? |
회귀분석 | 연속형 | 연속형 | 가계 수입과 사교육비 지출 사이에 유의한 관계가 있는가? |
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import statsmodels.api as sm
from scipy import stats
from matplotlib import font_manager, rc
from statsmodels.sandbox.regression.predstd import wls_prediction_std
from sklearn.datasets import make_regression
# 한글 처리를 위해 폰트 설정
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.......???")
rc('font', family=font_name)
# 회귀분석 : 1. 전기생산량과 소비량
# 독립변수(전기생산량), 종속변수(전기소비량)
# 독립변수가 1개이므로 단순회귀분석(선형회귀분석) 사용
# 귀무가설 : 전기생산량과 전기소비량 간에 상관관계가 없다.
# 대립가설 : 전기생산량과 전기소비량 간에 상관관계가 있다.
# 월별 전기생산금액(억원)
x = [ 3.52, 2.58, 3.31, 4.07, 4.62, 3.98, 4.29, 4.83, 3.71, 4.61, 3.90, 3.20 ]
# 월별 전기 사용량(백만kwh)
y = [ 2.48, 2.27, 2.47, 2.77, 2.98, 3.05, 3.18, 3.46, 3.03, 3.25, 2.67, 2.53 ]
# 기울기(slope), 절편(intercept),
# 상관계수(rvalue), pvalue(예측 불확실성의 정도를 나타내는 값)
# 에러의 표준편차(stderr)
# p-value는 0.05 미만일 때 통계학적으로 유의미
result=stats.linregress(x, y)
result
# p-value :
29.3 로지스틱 회귀분석
29.3.1 LOGIT(Logistic Regression)의 기본 배경
29.3.1.1 분류를 하는데 있어서 가장 흔한 경우는 이분법(二分法)을 기준으로 분류하는 경우임
(예1) 특정 고객이 물건을 살 것인가? (0), 말 것인가? (1)
(예2) 어떤 기업이 부도가 날 것인가? (0), 말 것인가? (1)
(예3) 내일 컴퓨터가 고장이 날 것인가? (0), 말 것인가? (1)
29.3.1.2 이항 확률을 가진 종속변수를 통계적으로 설명하고자 할 때, 일반적인 회귀분석은 적용하기에 어려움이 있음
29.3.1.3 로지스틱 회귀분석은 값이 연속적인 값을 가지더라도, 로지스틱 함수의 결과값은 0과 1사이의 값을 갖도록 설계 되어 있기 때문에 이분법적인 분류 문제를 해결하는 모형으로 적합
29.3.2 LOGIT의 적용분야
적용분야 : 기업 부도 예측, 주가-환율-금리 등의 Up/Down 예측
가능한 Software : SAS, SPSS 등 대부분의 통계 패키지
반응형