hyezdata 님의 블로그

[통계학 기초] 04 회귀 본문

내일배움캠프/데이터 강의

[통계학 기초] 04 회귀

hyezdata 2025. 4. 2. 16:52

먼저, 회귀란 내가 가지고 있는 데이터를 가지고 특정 값을 예측하고자 하는 경우를 말한다.

직선형태로 회귀하는 걸 선형회귀라고 하는데, 선형회귀에는 단순선형회귀와 다중선형회귀가 있다.

1. 단순선형회귀

쉽게 말해 변수 1개를 가진 경우, 통계학 정의로 한 개의 독립 변수(x)와 한 개의 종속 변수(y) 간의 관계를 직선으로 모델링하는 방법이다.

회귀식은 'Y = β0 + β1X'으로, 일차함수라고 생각하면 됨! (y = b + ax 와 형태 같음)

 

2. 다중선형회귀

두 개 이상의 독립 변수(x1, x2, x3, ... xn)와 한 개의 종속 변수(y) 간의 관계를 모델링하는 방법이다.

회귀식은 'Y = β0 + β1X1 + β2X2 + ... + βnXn' 이다.

다중공선성 문제가 발생할 수 있는데, 

 

1) 다중공선성(Multicollinearity)

독립 변수들 간에 높은 상관관계를 가지는 경우를 말한다.

예를 들어, 10개의 변수 모두 서로 상관관계에 있다고 할 경우, 그냥 변수 1개로 분석하는 경우와 같다고 볼 수 있다.

예시처럼 독립 변수들이 서로 강한 상관관계를 가진다면 각각 변수의 효과를 분리하기 어려워 해석이 어려워지고 중요한 변수가 유의하지 않게 나타날 수 있다.

 

상관계수가 높은 변수(보통 0.7)가 있는지 확인하거나 VIF(분산 팽창 계수)값이 10보다 높은지 확인하는 방법을 통해 다중공선성인지 판단할 수 있다.

 

판단했을 때 만약 다중공선성이라면 변수 중 하나를 제거하거나 PCA(주성분 분석) 같은 변수들을 줄이는 차원 분석 방법을 이용해 해결할 수 있다.

 

3. 범주형 변수

문자형 데이터로 이루어져 있는 변수를 말한다.

 

1) 순서가 있는 범주형 변수

옷 사이즈(L, M, S), 수능 등급 등을 말하고, 각 문자를 임의의 숫자로 변환해서 사용한다.

 

2) 순서가 없는 범주형 변수

성별, 지역 등을 말하며, 2개 밖에 없는 경우엔 임의의 숫자로 변환해서 사용해도 되지만, 3개 이상인 경우에는 무저건 원-핫 인코딩 변환을 해주어야 한다.(pandas에서 get_dummies 이용)

ex) 원-핫 인코딩
부산 = [1, 0, 0, 0], 대전 = [0, 1, 0, 0], 대구 = [0, 0, 1, 0], 광주 = [0, 0, 0, 1]

 

4. 다항회귀

독립 변수와 종속 변수간의 관계가 선형이 아닐 때 모델링하는 방법이다. (n차 함수라고 생각!)

데이터가가 훨씬 복잡할 때 사용하고 곡선적 경향을 띄며, 고차 다항식의 경우 과적합(overfitting) 위험이 있다.

 

5. 스플라인 회귀

독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링하는 방법이다.

데이터가 국부적으로 다른 패턴을 보일 때 사용한다.

728x90
반응형