9. 로지스틱 회귀분석
9.1 LOGIT(Logistic Regression)의 기본 배경
9.1.1 분류를 하는데 있어서 가장 흔한 경우는 이분법(二分法)을 기준으로 분류하는 경우임
(예1) 특정 고객이 물건을 살 것인가? (0), 말 것인가? (1)
(예2) 어떤 기업이 부도가 날 것인가? (0), 말 것인가? (1)
(예3) 내일 컴퓨터가 고장이 날 것인가? (0), 말 것인가? (1)
9.1.2 이항 확률을 가진 종속변수를 통계적으로 설명하고자 할 때, 일반적인 회귀분석은 적용하기에 어려움이 있음
9.1.3 로지스틱 회귀분석은 값이 연속적인 값을 가지더라도, 로지스틱 함수의 결과값은 0과 1사이의 값을 갖도록 설계 되어 있기 때문에 이분법적인 분류 문제를 해결하는 모형으로 적합
9.2 LOGIT의 적용분야
적용분야 : 기업 부도 예측, 주가-환율-금리 등의 Up/Down 예측
가능한 Software : SAS, SPSS 등 대부분의 통계 패키지
9.3 실습예제
library(nnet)
data(iris)
# 로지스틱 회귀분석은 예측값이 0 또는 1의 두개 분류인 경우에 사용한다.
d <- subset (iris, Species == "setosa" | Species == "versicolor")
head(d)
str(d)
# subset()을 적용하면 품종이 setosa 또는 versicolor로 잘 걸러지지만
# Species 컬럼은 여전히 3개 레벨이 남게 된다.
'data.frame': 100 obs. of 5 variables:
$ Sepal