hyezdata 님의 블로그

[통계야 놀자] 4회차 본문

내일배움캠프/데이터 강의

[통계야 놀자] 4회차

hyezdata 2025. 4. 9. 16:18

3회차는 실습이었음

01. 회귀분석

독립변수(X)로 종속변수(Y)를 예측하는 분석 기법

데이터 셋에 없는 값을 예측, 즉 추세선(Y=a+bX)을 찾기 위해 회귀분석을 한다.

1. 프로세스

1) 독립변수, 종속변수, 가설 설정

독립변수, 종속변수, 귀무가설, 대립가설을 설정한다.

독립변수, 종속변수, 가설 설정

 

2) 데이터 경향성 확인

독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 통해 데이터 분포 확인한다.

 

3) 정합성 검증 & 결과 해석

  • 회귀모델(회귀식)이 얼마나 설명력(=정확도)를 갖는지 
  • 회귀모델(회귀식)이 통계적으로 유의한지
  • 독립변수와 종속변수 간에 선형관계가 있는지

결과를 해석하기 위해 위 3가지를 살펴본다.

 

02. 회귀분석의 특징, 종류

1. 특징

1) 장점

  • 친밀성 : 가장 많이 사용되는 방법
  • 유용성 : 다양한 정보를 얻는 데 유용하다.
  • 유연성 : 내가 설정한 방향대로 다양한 독립변수를 선택할 수 있다.

2) 단점

  • 복잡성 : 기본 가정이 어긋나면 회귀분석을 사용할 수 없다.
  • 한계성 : 비선형성 확인을 위한 방법이 없다.

 

2. 종류

회귀분석은 회귀 계수의 선형여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로 나눌 수 있다.

데이터 분석가는 특히 독립변수, 종속변수의 데이터 타입에 따라 나뉘는 선형회귀분석과 로지스틱 회귀분석을 가장 많이 사용한다.

 

1) 선형회귀 분석

독립변수 연속형
종속변수 연속형
분석목적 예측
분석방법 선형방정식에 의한 함수식(추세선) 표현
종류 단순회귀, 다중 회귀

 

● 단순회귀

독립변수 1개, 종속변수 1개인 경우

단순회귀

 

(회귀계수 → X(원인)가 1만큼 변할 때 Y가 얼만큼 변하는지)

- 공부시간(독립변수)에 따른 시험 점수(종속변수)
- 치킨 판매량(독립변수)에 따른 맥주 판매량(종속변수)

 

다중회귀

독립변수가 2개 이상, 종속변수가 1개인 경우

다중회귀

주택의 면적(독립변수1), 방 개수(독립변수2), 욕실 개수(독립변수3)에 따른 주책 가격(종속변수)

 

2) 로지스틱 회귀분석

독립변수 연속형, 범주형
종속변수 범주형이면서 이진형(예/아니요, 0/1...) 또는
순서가 없는 범주형(시험 등급/과일 종류/고객 만족도)
분석목적 분류, 예측
분석방법 연결함수를 이용한 함수식 표현
종류 이진 로지스틱 회귀, 다중 로지스틱 회귀

 

이진 로지스틱 회귀

공부시간(독립변수)에 따른 시험 합격 여부(종속변수)

 

다중 로지스틱 회귀

서비스 응답시간(독립변수)에 따른 고객 만족도(종속변수)

 

03. 정합성 검증 & 결과 해석

독립변수, 종속변수, 가설을 설정하고 데이터 분포까지 확인하고 나면 결과를 해석할 차례이다.

 

1. 회귀모델(회귀식)이 얼마나 설명력을 갖는지

독립변수와 종속변수의 관계를 나타내는 수치인 결정계수(R_squared( ))를 확인한다.

TRE 개념을 통해 설명해보면, 

TRE
TRE

 

R²은 전체 오류 중 회귀를 함으로써 얼마나 개선되었는가, 즉 R/T를 의미한다.

R²은 0과 1사이의 값을 가지고, 1에 가까울수록 성능이 좋다는 것을 의미한다.

 

2. 회귀모델(회귀식)이 통계적으로 유의한지

F검정과 p-value를 확인한다.

가설

p-value가 0.05보다 작으면 대립가설을 채택한다.

 

3. 독립변수와 종속변수 간에 선형관계가 있는지

회귀식의 기울기에 대한 t검정과 p-value를 확인한다.

가설

p-value가 0.05보다 작으면 대립가설을 채택한다.

 

4. OLS (Ordinary Least Squares) 해석하기

OLS는 회귀 결과 표이다. 이 회귀 결과표를 통해 위의 1,2,3 을 이용한 결과 해석을 하는 것!

OLS

OLS 전체 해석

728x90
반응형