일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 표본분포
- 신뢰구간
- 재퀴쿼리
- limit
- 프로그래머스
- pivot table
- concat
- DATE_FORMAT
- 표분편차
- truncate
- python
- 날짜함수
- dateofmonth
- 재귀쿼리
- calesce
- Recursive
- split
- join
- rrule
- 데이터 리터러시
- 모집단
- curdate
- 정규분포
- datediff
- floor
- 표준오차
- lambda
- 표본
- merge
- append
- Today
- Total
목록분류 전체보기 (109)
hyezdata 님의 블로그

이번 QCC는 제대로 풀어본게 없어서 끝나고 다시 풀음... 1. SELECT ROUND( (SUM(CASE WHEN category IS NULL or category = 'n/a' THEN 1 ELSE 0 END) / COUNT(1)) * 100, 1) AS uncategorised_call_pctFROM callsWHERE DATE_FORMAT(call_date, '%Y-%m-%d') 튜터님 답select round((sum(if(category = 'n/a' or category is null, 1, 0))/ count(1)) * 100, 1) as uncategorized_call_pctfrom callswhere date_format(call_date, '%Y-..
- 프로젝트 점검 및 정리- 머신러닝 과제 - 태블로 1~2주차 + 3주차 1, 2강
튜터님 피드백- 군집별 특정 지표 보일때 수치를 평균으로만 제공하다보니 특정한 값에 의해서 높아진건지 분포상 진짜로 높은것인지 판단할 수 없음 - 거래변동성이 높은걸 충동성으로 해석했는데 충동성으로만 해석하는게 맞는지, 과해석은 아닐지 - 파생변수 설명 부족 -> 예를 들어 거래변동성은 어떠한 지표로 만들었는지에 대한 설명 부족 - 군집별 해석 후 전략 제시하다보니 수치가 부족함, 데이터를 기반으로 해석과 어떻게 연결되고 있는지 설명 필요

오전까지 군집 분석 할 코드 공유하고 오후에 괜찮은 결과 얻기위해 계속 돌리면서 기록함 드뎌 나도 가나디 있다~~~
1. 신용카드 사용률#1. 신용카드 사용률 (CU): 신용 한도의 과도 사용 여부 → 신용 리스크 구분에 효과적# 사용자 별 총 거래 금액amount_sum = df_transactions.groupby('client_id')['amount'].sum()# 사용자별 총 신용카드 한도limit_sum = cards_df.groupby('client_id')['credit_limit'].sum()cu_df = pd.merge(amount_sum, limit_sum, left_index=True, right_index=True)cu_df['credit_utilization'] = (cu_df['amount']/cu_df['credit_limit']).round(2) 2. 거래 변동성#2 거래 변동성: 소비 일..

01. 회귀(Regression)란?1개 이상의 독립변수(X)와 종속변수(Y)연속형의 결과값 예측분류와의 차이점은 분류는 결과값이 이산형, 회귀는 연속형이라는 것!회귀 모델의 형태는 y = β₀ + β₁x + ε 실제 값에 가까운 예측값을 찾아내서 실제값과 예측값 사이의 오차를 최소화하는 것이 목표즉, 오차를 최소화하는 회귀계수 β₀, β₁를 찾는 것 1. 비용함수(Cost Function)오차에 대한 식을 비용함수라고 하는데, 주로 쓰이는 식이 MSE와 MAE이다. 1) MSE(Mean Squared Error)오차를 제곱한 값의 평균 2) MAE(Mean Absolute Error)오차에 절대값한 값의 평균 회귀분석은 오차를 최소화하는 것이 목표라고 했는데 오차를 최소화한다는 건 오차에 대한 식, 즉..

01. 분류새로운 데이터가 어느 범주(클래스)에 속하는지 예측하는 것 클래스 개수에 따라 이진 분류와 다중 분류로 나뉜다.이진 분류는 두 개의 클래스, 다중 분류는 3개 이상의 클래스로 분류하는 것을 말함 1. 로지스틱 회귀(Logistic Regression)회귀라는 단어가 붙어있지만 회귀 모델 아님!이진 분류 알고리즘0과 1사이의 확률 기반 예측값이때 확률값을 시그모이드 함수를 통해 변환한다.데이터가 적을때 우수하고 복잡한 비선형 패턴 학습은 어렵다.2. KNN(K-최근접 이웃)거리 기반으로 학습이 아닌 저장 중심이다.새로운 데이터와 기준 데이터 간에 거리를 측정하고가장 가까운 K개을 이웃을 선택한 다음클래스를 범위 안에 있는 다수의 데이터로 결정대규모 데이터에서 계산량 큼 K=3은 Class B가 ..
01. 결측치결측치 파트는 다른 강의에서 배워서 생략 02. 이상치 탐지 및 제거이상치도 생략 03. 정규화/표준화(스케일링)만약 어떤 A의 범위가 0~1000이고, B의 범위가 0~1이라고 할 때, 둘 다 똑같이 반영하는 게 아니라 A가 모델에 더 큰 영향을 주게 되므로 단위를 스케일링을 통해서 조정한다. 1. 정규화1) MinMaxScaler모든 값을 0과 1 사이로 맵핑값의 스케일이 달라도 공통 범위로 맞출 수 있다.최소값, 최대값이 극단값(Outlier)에 민감하다. 만약 outlier가 있으면 데이터가 한쪽으로 치우치게 된다.새로운 데이터가 기존 최대값, 최소값 다른 경우, 재학습하거나 다른 처리가 필요하다2. 표준화1) StandardScaler평균을 0, 표준편차를 1로 만든다.분포가 정규분..

'실무에 쓰는 머신러닝 기초' 강의랑 '머신러닝 특강 세션'이랑 합쳐서 정리함01. 머신러닝AI, 머신러닝, 딥러닝AI > 머신러닝 > 딥러닝 순으로 AI가 제일 큰 개념이고 그 다음이 머신러닝, 딥러닝이다.머신러닝은 데이터로부터 특징이나 규칙을 찾아내서 학습하는 것이고,딥러닝은 인공신경망을 여러 겹 쌓아 학습하는 알고리즘이다. 통계분석 VS 머신러닝통계분석은 "왜?"라는 질문에 집중하고, (가설검증, 추론)머신러닝은 "얼마나 잘?"에 집중한다. (정확도, 재현율) 02. 머신러닝의 종류1. 지도학습(Supervised Learning)정답값(레이블)이 있는 데이터를 학습시키는 것 1) 분류(Classification)어느 그룹에 속하는지 2) 회귀(Regression)숫자로 된 결과 예측 2. 비지도학..
코드카타SQL 풀었던 문제 다시 풀어보기 & 알고리즘 통계야 놀자복습 완 머신러닝완