일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 태블로
- tableau
- floor
- curdate
- 표본분포
- merge
- datediff
- truncate
- python
- 신뢰구간
- calesce
- 레이더차트
- 프로그래머스
- split
- 모집단
- limit
- dateofmonth
- join
- 재퀴쿼리
- 데이터 리터러시
- 표준오차
- 재귀쿼리
- 정규분포
- Recursive
- pivot table
- 표분편차
- rrule
- lambda
- concat
- DATE_FORMAT
- Today
- Total
hyezdata 님의 블로그
[통계야 놀자] 4회차 본문
3회차는 실습이었음
01. 회귀분석
독립변수(X)로 종속변수(Y)를 예측하는 분석 기법
데이터 셋에 없는 값을 예측, 즉 추세선(Y=a+bX)을 찾기 위해 회귀분석을 한다.
1. 프로세스
1) 독립변수, 종속변수, 가설 설정
독립변수, 종속변수, 귀무가설, 대립가설을 설정한다.
2) 데이터 경향성 확인
독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 통해 데이터 분포 확인한다.
3) 정합성 검증 & 결과 해석
- 회귀모델(회귀식)이 얼마나 설명력(=정확도)를 갖는지
- 회귀모델(회귀식)이 통계적으로 유의한지
- 독립변수와 종속변수 간에 선형관계가 있는지
결과를 해석하기 위해 위 3가지를 살펴본다.
02. 회귀분석의 특징, 종류
1. 특징
1) 장점
- 친밀성 : 가장 많이 사용되는 방법
- 유용성 : 다양한 정보를 얻는 데 유용하다.
- 유연성 : 내가 설정한 방향대로 다양한 독립변수를 선택할 수 있다.
2) 단점
- 복잡성 : 기본 가정이 어긋나면 회귀분석을 사용할 수 없다.
- 한계성 : 비선형성 확인을 위한 방법이 없다.
2. 종류
회귀분석은 회귀 계수의 선형여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로 나눌 수 있다.
데이터 분석가는 특히 독립변수, 종속변수의 데이터 타입에 따라 나뉘는 선형회귀분석과 로지스틱 회귀분석을 가장 많이 사용한다.
1) 선형회귀 분석
독립변수 | 연속형 |
종속변수 | 연속형 |
분석목적 | 예측 |
분석방법 | 선형방정식에 의한 함수식(추세선) 표현 |
종류 | 단순회귀, 다중 회귀 |
● 단순회귀
독립변수 1개, 종속변수 1개인 경우
(회귀계수 → X(원인)가 1만큼 변할 때 Y가 얼만큼 변하는지)
- 공부시간(독립변수)에 따른 시험 점수(종속변수)
- 치킨 판매량(독립변수)에 따른 맥주 판매량(종속변수)
● 다중회귀
독립변수가 2개 이상, 종속변수가 1개인 경우
주택의 면적(독립변수1), 방 개수(독립변수2), 욕실 개수(독립변수3)에 따른 주책 가격(종속변수)
2) 로지스틱 회귀분석
독립변수 | 연속형, 범주형 |
종속변수 | 범주형이면서 이진형(예/아니요, 0/1...) 또는 순서가 없는 범주형(시험 등급/과일 종류/고객 만족도) |
분석목적 | 분류, 예측 |
분석방법 | 연결함수를 이용한 함수식 표현 |
종류 | 이진 로지스틱 회귀, 다중 로지스틱 회귀 |
● 이진 로지스틱 회귀
공부시간(독립변수)에 따른 시험 합격 여부(종속변수)
● 다중 로지스틱 회귀
서비스 응답시간(독립변수)에 따른 고객 만족도(종속변수)
03. 정합성 검증 & 결과 해석
독립변수, 종속변수, 가설을 설정하고 데이터 분포까지 확인하고 나면 결과를 해석할 차례이다.
1. 회귀모델(회귀식)이 얼마나 설명력을 갖는지
독립변수와 종속변수의 관계를 나타내는 수치인 결정계수(R_squared( R² ))를 확인한다.
TRE 개념을 통해 설명해보면,
R²은 전체 오류 중 회귀를 함으로써 얼마나 개선되었는가, 즉 R/T를 의미한다.
R²은 0과 1사이의 값을 가지고, 1에 가까울수록 성능이 좋다는 것을 의미한다.
2. 회귀모델(회귀식)이 통계적으로 유의한지
F검정과 p-value를 확인한다.
p-value가 0.05보다 작으면 대립가설을 채택한다.
3. 독립변수와 종속변수 간에 선형관계가 있는지
회귀식의 기울기에 대한 t검정과 p-value를 확인한다.
p-value가 0.05보다 작으면 대립가설을 채택한다.
4. OLS (Ordinary Least Squares) 해석하기
OLS는 회귀 결과 표이다. 이 회귀 결과표를 통해 위의 1,2,3 을 이용한 결과 해석을 하는 것!
OLS 전체 해석
'내일배움캠프 > 데이터 강의' 카테고리의 다른 글
[매트릭] 비지니스 메트릭 2회차 (0) | 2025.05.07 |
---|---|
[매트릭] 비지니스 메트릭 1회차 (0) | 2025.05.07 |
[통계학 기초] 05 상관 관계 (0) | 2025.04.07 |
[통계야 놀자] 2회차 (0) | 2025.04.04 |
[통계야 놀자] 1회차 (0) | 2025.04.02 |