일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- truncate
- rrule
- limit
- 재귀쿼리
- 정규분포
- Recursive
- 재퀴쿼리
- append
- 표분편차
- calesce
- pivot table
- 표본
- lambda
- 표본분포
- 데이터 리터러시
- curdate
- floor
- dateofmonth
- 모집단
- split
- join
- 신뢰구간
- merge
- DATE_FORMAT
- 프로그래머스
- 날짜함수
- python
- concat
- 표준오차
- datediff
- Today
- Total
hyezdata 님의 블로그
[통계야 놀자] 2회차 본문
01. 통계적 실험
실험설계는 특정 가설(의도)을 확인하거나 기각하기 위한 목표를 가지고 있다.
- 변수 : 대상의 속성이나 특성을 측정하여 기록한 것
- 독립변수 : 원인이 되는 변수 (설명 변수)
- 종속변수 : 결과가 되는 변수 (결과 변수)
- 모수 : 모집단을 대표하는 값
- 모수통계 : 모집단이 정규분포를 따른다는 가정 하에 사용된다. (데이터 분석가는 주로 모수통계를 진행한다.), 평균, 분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석
- 비모수통계 : 모집단이 정규분포가 아닐 때 사용된다. (= 표본의 크기가 충분하지 않음; 소규모 실험), 평균, 분산 등의 값을 가정하지 않고 진행하는 통계분석

위 사진은 분석기법으로, 데이터 분석가는 데이터 종류에 따라 알맞은 분석기법을 활용해야 한다. (모수만 보면 됨)
현업에서 다른 팀의 요청이나 프로젝트를 진행하게 되면, 데이터의 유형과 분포를 먼저 살펴본 다음, 어떤 실험을 진행할 건지 결정한다.
그렇다면 통계적 실험이란?!

02. A/B 테스트
마케팅 고객데이터 분석에 자주 사용되는 방법으로, 대조실험과 비슷하다.
고객의 니즈파악과 최소 투자로 최대 이익을 창출(ROI 상승)에 목적을 두고 테스트를 한다.

1. 프로세스

2. 주의사항
- 적절한 표본 크기
- 하나의 변수만 변경 : 두 개 이상의 변수를 동시에 변경하게 되면 어떤 변수가 영향을 미쳤는지 알 수 없다.
- 무작위성
- 적절한 분석 방법
- 테스트 결과의 의미 : 결과가 유의미하게 나와도 실제로 의미 있는 결과인지 한번 더 생각해보기
- 정해진 기간 동안 진행 (적절한 기간이어야 함)
03. 유의수준 설정하기
신뢰수준의 반대 개념
가설 검정에서 결론을 해석하기 위해 기준을 세우는데 그 기준이 '유의수준'이다.


그래프의 면적 = 확률 이므로, 0 ~ 1 사이의 값을 가진다.
만약, 유의수준을 0.05(5%)로 설정한다는 것은 95% 신뢰도를 기준으로 정한 것!
04. 검정통계량 p-value
유의수준을 정하고 실험을 진행했다면 결과를 해석해야 할 차례! (귀무가설을 채택할지, 기각할지)
1. 결과 해석 1단계 : 검정 방식 정하고, 검정 통계량 계산하기
검정통계량이란?
귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수(0~1 사이의 값)를 의미한다. (라이브러리가 보여주는 값)
표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태로 표현할 수 있다.
검정방식의 선택은 가설과 데이터 종류에 따라 달라진다.

Z검정과 T검정
- Z검정과 T검정은 연속형 자료에 대해서 평균에 차이가 있는지 없는지를 보여준다.
- Z검정과 T검정의 차이는 모집단의 분산을 알 수 있다 없다
이 4가지 말고도 더 많이 있음!
2. 결과 해석 2단계 : p-value
p-value는 어떤 사건이 '우연히' 발생할 확률로, 마찬가지로 0~1사이의 값을 가진다.
검정통계량 값과 p-value 를 항상 같이 비교해서 검정통계량 값이 아무리 좋아도 통계적으로 의미가 있는 것은 p-value이다.
보통 대립가설을 채택하므로, 우연히 발생할 확률은 적어야 좋다.
즉, 유의수준(0.05)보다 p-value가 작은 경우엔 우연히 일어날 가능성이 거의 없어 대립가설을 채택!

즉, 그래프로 설명하면

p-value는 정규분포 그래프에서 빨간색으로 색칠한 곳!
검정통계량을 통해서 p-value를 얻을 수 있고, 얻은 p-value를 유의수준과 비교해서 대립가설을 채택할지 기각할지 결정!
'내일배움캠프 > 데이터 강의' 카테고리의 다른 글
[통계야 놀자] 4회차 (0) | 2025.04.09 |
---|---|
[통계학 기초] 05 상관 관계 (0) | 2025.04.07 |
[통계야 놀자] 1회차 (0) | 2025.04.02 |
[통계학 기초] 04 회귀 (0) | 2025.04.02 |
[통계학 기초] 03 유의성 검정 (1) | 2025.04.01 |