hyezdata 님의 블로그

[통계야 놀자] 1회차 본문

내일배움캠프/데이터 강의

[통계야 놀자] 1회차

hyezdata 2025. 4. 2. 17:24

01. 데이터의 종류

데이터의 종류

 

데이터는 크게 수치형과 범주형으로 나눌 수 있는데,

수치형에는 연속형, 이산형이 있고, 범주형에는 이진형, 순서형이 있다.

 

02. 편차, 분산, 표준편차, 표본분표

우리는 평균, 중앙값, 최빈값 등 대표값을 통해 값이 어디쯤 위치하는지 대략 알 수 있는데, 이런 값만 가지고 데이터 분석을 하기엔 부족하다. 그래서 편차, 분산, 표준편차 등을 통해 좀 더 데이터 분석의 설명력을 더해줄 수 있다.

 

평균, 중앙값, 최빈값'WHERE(어디에 위치하는지)'를 알 수 있었다면,

편차와 분산 'HOW(어떻게 분포하는지)'를 알 수 있다.

 

1. 편차 (deviation)

하나의 값에서 평균을 뺀 값 (평균으로부터 얼마나 떨어져 있는지)

각 값의 편차를 구한 후 모두 더해주면 값이 0으로 나오게 되어 분포를 정확히 알기 어렵다. 그래서 분산을 이용한다!

 

2. 분산 (variance)

편차 제곱합의 평균

그러나 제곱을 해주면서 값의 단위가 달라져서 또! 데이터를 정확히 알기 어렵다.(또??...) 그래서 이번엔 표준편차를 이용한다!

 

3. 표준편차 (standard deviation)

분산에 제곱근을 씌워준 값

이제 드디어! 값이 어떻게 분포하는지, 얼만큼 퍼져있는지 알 수 있게 됐다!!! 

 

근데 실제 현업에 가게 되면 지금 다루는 데이터보다 훨씬 더 양이 많을 것이고, 이 많은 데이터를 다 활용하기엔 어렵기 때문에 등장한게 모집단과 표본이다.

 

4. 모집단, 표본, 표본분포

무수히 많은 데이터로부터 편향을 최소화하기 위해 양질의 데이터를 추출한 게 표본이다.

 

모집단은 전체, 표본은 모집단의 일부(부분집합)이라고 한다.

표본분포는 말그대로 표본의 분포이다.

 

표본분포에는 두 가지, 표본평균의 분포와 표본분산의 분포가 있다.

표본평균의 분포는 표본 크기가 충분히 크다면, 표본 평균이 정규분포를 따른다는 걸 의미하고,

표본분산의 분포는 표본분산의 분포가 카이제곱분포를 따른다는 걸 의미한다.

 

표본이 전체를 대표하는 것이 아니니 모집단과 표본의 차이를 설명해주어야 하는데, 이 차이가 표준오차이다.

 

표준오차표본의 표준편차로, 표본평균의 평균과 모평균의 차이다.

 

5. 도수, 상대도수

시각화에 필요한 추가 개념들,,,

 

도수 특정 구간에 발생한 값의 수, 상대도수특정 도수를 전체 도수로 나눈 비율이다.

 

도수와 상대도수를 나타낸 도수분포표를 가지고 히스토그램을 시각화 할 수 있다.

 

도수분포표 만들기 (굳이 몰라도 됨 자동으로 생성되기 때문에)

 

03. 정규분포, 신뢰구간

1. 정규분포

 

정규분포 그래프

 

정규분포에서의 곡선들은 확률을 나타내고, 모두 더하면 1이 된다.

평균과 분산에 따라 다른 형태를 가지고, 평균 0, 분산 1을 가지는 경우, 표준정규분포라고 한다. (빨, 파, 노 그래프)

 

표준정규분포를 사용하는 이유는 만약, 위 그래프에서 초록색과 파란색을 비교한다고 했을 때, 기준이 다르기 때문에(초록색은 -2이고 파란색은 0) 비교하기 어렵다. 그래서 평균을 0, 분산을 1로 기준을 둔 것!

 

1) 표준화(standard sccler)

표준화 공식 (X; 확률변수, m; 평균,  σ; 표준편차)

 

보통 머신러닝 모델을 만들거나, 데이터 범위 차이가 많이 나는 경우 표준화가 필요하다.

 

0 ~ 7 범위와 0 ~ 무한대 범위가 있다고 할 때, 우리는 0-7에서의 1과 0-무한대에서 1은 서로 다른 의미를 가진다는 걸 안다.

그러나, 머신러닝은 같은 의미로 받아들이고 처리할 수 있기 때문에 표준화가 필요한 것!

 

2. 신뢰구간, 신뢰수준

신뢰구간 예시

 

위 예시에서 10-15분이 신뢰구간!

 

신뢰구간은 특정 범위 내에 값이 존재할 것으로 예측되는 영역,

신뢰수준몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률로, 주로 95%와 99%를 사용한다.

(ex. 95% → 무작위 추출했을 때, 100번 중 95번은 모집단의 값)

이 때, 신뢰수준이 높아지면 신뢰구간이 넓어지지만, 정확한 예측이 어렵기 때문에 95%보다 99%가 더 좋다고 말할 수 없다!

 

※ python으로 신뢰구간 구하기

신뢰구간

 

728x90
반응형