cool hamsters never sleep

다중회귀분석 (독립변수가 2개 이상인 회귀분석) 본문

임시 연구소

다중회귀분석 (독립변수가 2개 이상인 회귀분석)

슈슈 susu 2022. 10. 26. 10:35

- 독립변수 : 영향을 미칠 것으로 예측되는 변수
- 종속변수 : 영향을 받을 것으로 생각되는 변수

※ 단순회귀분석에 비해 정확한 예측이 가능하지만, 모형선택 문제와 다중공선성 문제가 발생한다.
- 다중공선성 : 독립변수들 사이의 상호 의존도이며, VIF 값이 10보다 작으면 문제 없다. 높은 다중공선성이 존재하게 되면, 의미없는 변수가 된다.

- 가설 : 독립변수가 종속변수에 유의한 영향을 미칠 것이다.
가설 1 ) 버스 정류장 갯수가 공원개수에 영향을 미칠 것이다.
가설 2 ) 주간평균생활인구수가 공원개수에 영향을 미칠 것이다.
가설 3 ) 토시공시지가평균이 공원개수에 영향을 미칠 것이다.

 

 

※ 총변동 SST = SSR 설명 가능한 변동 + SSE 설명 불가능한 변동
※ 결정계수 : 설명변수 x로 설명할 수 있는 반응변수 y의 변동 비율이므로 SSR / SST = 1 - (SSE / SST)
- 결정계수가 1에 가까울수록 선형 상관관계 정도가 크다고 할 수 있음. 일반적으로 0.7 이상이면 괜찮음
- 결정계수 77% 이면 y값의 77%를 x값 변수들로 설명할 수 있다는 의미


※ 변수간 산점도 확인 (pairplot) : 음 또는 양의 상관관계가 시작적으로 보이는 산점도가 확인될 경우, 다중공선성 일으킬 가능성이 높음 (변수 간 관계가 있다고 판단)

※ 바로 VIF를 통해 다중공선성을 이야기 하기 보다는 산점도, 결정계수와 유의확률 등 다른 과정을 먼저 보여주고 말하는 것이 더욱 신뢰성을 높일 수 있다.
- VIF가 높은 변수가 하나씩 줄어들수록, 다른 변수들의 VIF에도 영향을 미친다.
- 따라서 한번에 다 제거하는 것이 아니라, 하나씩 제거하면서 확인해야 함

'임시 연구소' 카테고리의 다른 글

스케일링과 주성분 분석 (PCA)  (0) 2022.10.27
GMM (Gaussian Mixture Model)  (0) 2022.10.26
상관관계 분석  (0) 2022.10.26
Comments