일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 표본분포
- 날짜함수
- limit
- split
- merge
- truncate
- dateofmonth
- 재귀쿼리
- calesce
- Recursive
- datediff
- 재퀴쿼리
- 프로그래머스
- 표본
- 정규분포
- python
- 데이터 리터러시
- 표준오차
- 신뢰구간
- 표분편차
- floor
- 모집단
- concat
- DATE_FORMAT
- lambda
- join
- curdate
- append
- rrule
- pivot table
- Today
- Total
hyezdata 님의 블로그
[통계학 기초] 04 회귀 본문
먼저, 회귀란 내가 가지고 있는 데이터를 가지고 특정 값을 예측하고자 하는 경우를 말한다.
직선형태로 회귀하는 걸 선형회귀라고 하는데, 선형회귀에는 단순선형회귀와 다중선형회귀가 있다.
1. 단순선형회귀
쉽게 말해 변수 1개를 가진 경우, 통계학 정의로 한 개의 독립 변수(x)와 한 개의 종속 변수(y) 간의 관계를 직선으로 모델링하는 방법이다.
회귀식은 'Y = β0 + β1X'으로, 일차함수라고 생각하면 됨! (y = b + ax 와 형태 같음)
2. 다중선형회귀
두 개 이상의 독립 변수(x1, x2, x3, ... xn)와 한 개의 종속 변수(y) 간의 관계를 모델링하는 방법이다.
회귀식은 'Y = β0 + β1X1 + β2X2 + ... + βnXn' 이다.
다중공선성 문제가 발생할 수 있는데,
1) 다중공선성(Multicollinearity)
독립 변수들 간에 높은 상관관계를 가지는 경우를 말한다.
예를 들어, 10개의 변수 모두 서로 상관관계에 있다고 할 경우, 그냥 변수 1개로 분석하는 경우와 같다고 볼 수 있다.
예시처럼 독립 변수들이 서로 강한 상관관계를 가진다면 각각 변수의 효과를 분리하기 어려워 해석이 어려워지고 중요한 변수가 유의하지 않게 나타날 수 있다.
상관계수가 높은 변수(보통 0.7)가 있는지 확인하거나 VIF(분산 팽창 계수)값이 10보다 높은지 확인하는 방법을 통해 다중공선성인지 판단할 수 있다.
판단했을 때 만약 다중공선성이라면 변수 중 하나를 제거하거나 PCA(주성분 분석) 같은 변수들을 줄이는 차원 분석 방법을 이용해 해결할 수 있다.
3. 범주형 변수
문자형 데이터로 이루어져 있는 변수를 말한다.
1) 순서가 있는 범주형 변수
옷 사이즈(L, M, S), 수능 등급 등을 말하고, 각 문자를 임의의 숫자로 변환해서 사용한다.
2) 순서가 없는 범주형 변수
성별, 지역 등을 말하며, 2개 밖에 없는 경우엔 임의의 숫자로 변환해서 사용해도 되지만, 3개 이상인 경우에는 무저건 원-핫 인코딩 변환을 해주어야 한다.(pandas에서 get_dummies 이용)
ex) 원-핫 인코딩
부산 = [1, 0, 0, 0], 대전 = [0, 1, 0, 0], 대구 = [0, 0, 1, 0], 광주 = [0, 0, 0, 1]
4. 다항회귀
독립 변수와 종속 변수간의 관계가 선형이 아닐 때 모델링하는 방법이다. (n차 함수라고 생각!)
데이터가가 훨씬 복잡할 때 사용하고 곡선적 경향을 띄며, 고차 다항식의 경우 과적합(overfitting) 위험이 있다.
5. 스플라인 회귀
독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링하는 방법이다.
데이터가 국부적으로 다른 패턴을 보일 때 사용한다.
'내일배움캠프 > 데이터 강의' 카테고리의 다른 글
[통계야 놀자] 2회차 (0) | 2025.04.04 |
---|---|
[통계야 놀자] 1회차 (0) | 2025.04.02 |
[통계학 기초] 03 유의성 검정 (1) | 2025.04.01 |
[통계학 기초] 02 데이터의 분포 (0) | 2025.03.31 |
[통계학 기초] 01 데이터 분석과 통계 (0) | 2025.03.31 |