일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- merge
- truncate
- 신뢰구간
- 모집단
- concat
- pivot table
- calesce
- 레이더차트
- python
- 정규분포
- 태블로
- 표분편차
- join
- 데이터 리터러시
- dateofmonth
- curdate
- rrule
- tableau
- DATE_FORMAT
- 재퀴쿼리
- 재귀쿼리
- datediff
- 프로그래머스
- floor
- split
- limit
- 표본분포
- Recursive
- lambda
- 표준오차
- Today
- Total
목록분류 전체보기 (139)
hyezdata 님의 블로그

문제 1번 : 임직원 로그인 빈도 분석-- 2023년 7~9월-- 로그인 성공한 기준, 직원별 로그인 횟수-- unique_logins 오름차순WITH month79 AS ( SELECT employee_id, login_id, login_time, login_result FROM logins WHERE DATE_FORMAT(login_time, '%Y-%m-%d') BETWEEN '2023-07-01' AND '2023-09-30' AND login_result = 'SUCCESS') -- 7~9월 사이에 로그인 성공한 회원들SELECT unique_logins, COUNT(employee_id) AS employee_countFROM ( SELECT employee_id, COUNT..
코드카타 완.통계학 기초 4주차 : https://hyezdata.tistory.com/93통계야 놀자 1회차 : https://hyezdata.tistory.com/category/%EB%82%B4%EC%9D%BC%EB%B0%B0%EC%9B%80%EC%BA%A0%ED%94%84통계학 기초랑 통계학 놀자 복습 완.파이썬 베이직은 복습 하다 말음

01. 데이터의 종류 데이터는 크게 수치형과 범주형으로 나눌 수 있는데,수치형에는 연속형, 이산형이 있고, 범주형에는 이진형, 순서형이 있다. 02. 편차, 분산, 표준편차, 표본분표우리는 평균, 중앙값, 최빈값 등 대표값을 통해 값이 어디쯤 위치하는지 대략 알 수 있는데, 이런 값만 가지고 데이터 분석을 하기엔 부족하다. 그래서 편차, 분산, 표준편차 등을 통해 좀 더 데이터 분석의 설명력을 더해줄 수 있다. 평균, 중앙값, 최빈값은 'WHERE(어디에 위치하는지)'를 알 수 있었다면,편차와 분산은 'HOW(어떻게 분포하는지)'를 알 수 있다. 1. 편차 (deviation)하나의 값에서 평균을 뺀 값 (평균으로부터 얼마나 떨어져 있는지)각 값의 편차를 구한 후 모두 더해주면 값이 0으로 나오게 되어 ..
먼저, 회귀란 내가 가지고 있는 데이터를 가지고 특정 값을 예측하고자 하는 경우를 말한다.직선형태로 회귀하는 걸 선형회귀라고 하는데, 선형회귀에는 단순선형회귀와 다중선형회귀가 있다.1. 단순선형회귀쉽게 말해 변수 1개를 가진 경우, 통계학 정의로 한 개의 독립 변수(x)와 한 개의 종속 변수(y) 간의 관계를 직선으로 모델링하는 방법이다.회귀식은 'Y = β0 + β1X'으로, 일차함수라고 생각하면 됨! (y = b + ax 와 형태 같음) 2. 다중선형회귀두 개 이상의 독립 변수(x1, x2, x3, ... xn)와 한 개의 종속 변수(y) 간의 관계를 모델링하는 방법이다.회귀식은 'Y = β0 + β1X1 + β2X2 + ... + βnXn' 이다.다중공선성 문제가 발생할 수 있는데, 1) 다중공선..
코드카타 SQL 풀었는데 오랜만에 푸니 까먹은 것 같아서 SQL 좀 복습하고~ 통계학 기초 3주차 듣고~끝 통계학 기초 3주차 : https://hyezdata.tistory.com/91

1. A/B 검정A와 B 중 어느 것이 효과적인지 평가하기 위해 사용하는 방법이다. stats.ttest_ind독립표본 t-검정을 수행하여 두 개의 독립된 집단 간의 평균 차이가 유의미한지 평가한다.두 집단의 데이터 배열을 입력으로 받아서 t-통계량과 p-값을 반환한다.t-통계량 (statistic) : 두 집단 간 평균 차이의 크기와 방향 p-값 (pvalue) : 귀무 가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률, 유의수준(α) 보다 작으면 귀무 가설을 기각하고 이 값이 유의수준(α) 보다 크면 귀무 가설을 기각하지 않는다. 2. 가설 검정표본 데이터를 통해 모집단의 가설을 검증하는 과정데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설과 대립가설을 설정하고 둘 중 하나를 택한다...

내꿈을 위한 여행~~~ (피카츄!)ㅋ 갑자기 이노래가 생각남... 오늘부터 또 새로운 조원들과 함께 새롭게 시작하는 날~오랜만에 파이썬 코드카타를 풀려고 하니 다시 처음으로 돌아간 것 같다...아무것도 생각이 안나... 다시 첨부터 복습을 해야겠어... 이번 주차는 통계 수업이라고 해서 통계학 기초 들었구~~고딩때 확통 이후로 분산, 표준편차 오랜만에 듣는 듯ㅋ 통계학 기초 1강 : https://hyezdata.tistory.com/89통계학 기초 2강 : https://hyezdata.tistory.com/90

1. 모집단과 표본1) 모집단과 표본모집단 : 전체 집단표본 : 모집단에서 추출한 일부 (무작위로) 모집단과 표본은 전체 개수만 다를 뿐 유사한 특징을 가진다.2) 전수조사와 표본조사전수조사 : 모집단 전체를 조사하는 방법표본조사 : 표본만을 조사하는 방법, 표본이 대표성을 가져야 한다. np.random.normal 정규분포를 따르는 난수를 생성한다. np.random.choice 주어진 배열에서 임의로 샘플링해서 요소를 선택한다.무작위로 선택된 요소를 반환한다. 2. 표본오차와 신뢰구간1) 표본오차와 신뢰구간표본오차표본이 모집단을 완벽하게 대표하지 못하기 때문에, 표본오차를 이용해 오차를 파악한다.표본에서 계산된 통계량과 모집단의 진짜 값 차이로, 표본 크기가 클수록 표본오차는 작아진다. 신뢰구간모..

1. 기술 통계와 추론 통계1) 기술 통계데이터를 요약하고 설명하는 통계 방법주로 평균값, 중앙값, 분산, 표준편차 등을 사용ex. 회사의 매출 데이터(평균 매출, 매출의 표준편차 등)※ 분산데이터 값들이 평균으로부터 얼마나 떨어져 있는지 즉, 데이터의 흩어짐 정도값이 크면 데이터가 넓게 퍼져있고, 작으면 평균과 가깝게 그래프가 모여 있다. ※ 표준편차데이터 값들이 평균에서 얼마나 떨어져 있는지, 분산의 제곱근값이 클수록 평균으로부터 넓게 퍼져있다. 분산과 표준편차데이터의 변동성을 측정하는 주요 척도분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환 2) 추론 통계표본 데이터를 통해 모집단의 특..