일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- DATE_FORMAT
- 표준오차
- lambda
- 모집단
- curdate
- 정규분포
- 레이더차트
- 신뢰구간
- python
- floor
- calesce
- 표본분포
- join
- Recursive
- 프로그래머스
- 태블로
- concat
- datediff
- 재귀쿼리
- 재퀴쿼리
- merge
- dateofmonth
- pivot table
- split
- limit
- tableau
- rrule
- 표분편차
- 데이터 리터러시
- truncate
- Today
- Total
목록내일배움캠프/파이썬 (13)
hyezdata 님의 블로그

이상치, 결측치란?이상치전체 데이터 범위에서 벗어난 아주 큰 값과 작은 값 결측치데이터 수집 과정에서 측정되지 않거나 누락된 데이터 이상치와 결측치는 EDA 과정에서 필수적이다. ※ EDA 과정 : 이상치 처리 → 결측치 처리 → 데이터 시각화 평균이 가지는 오류100점 만점인 국어 시험이 있다. 국어 점수 평균을 내보면 240으로 100점 만점인 시험에서 나올 수 없는 점수가 나옴그래서 데이터 분포를 정확하게 살펴보기 어려움 이런 부분을 데이터 정제를 해야 함 ※ 데이터 분석 과정 cleaning은 데이터 구멍난 곳이나 이상한 값을 처리, transformation은 내가 원하는 대로 표와 그래프를 그리는 (pivot table), reduction은 분석한 표와 그래프를 필요한 것만 골라내는, co..

복습 merge 만약 내가 inner join을 잘 했는지 확인하고 싶을 때inner join을 했으니까 df3인 '3294'보다 개수가 작거나 같아야 한다.그래서 merge_df를 실행해서 맨 밑에 있는 행과 열 개수를 확인해주면 된다!3294보다 작은 2999이므로 오케이! 지금 여기서 merge는 함수가 아닌 메서드 형태! joinjoin이 가지고 있는 특징 중 하나, 인덱스를 기준으로 join을 한다고 했는데 join과 merge 둘 다 똑같이 수평결합이지만,위에 merge는 똑같은 컬럼, 공통 컬럼을 가지고 조인을 한거고, join은 번호(인덱스)끼리 결합한 것 (그래서 잘 사용 안 함)강제로 붙인다고 생각 split코드를 쪼개서 설명해보면df2["명수{}".format(i)] df2에 명수0..

python 테이블 결합mergeSQL의 JOIN과 비슷 파라미터 (※ 파라미터 : 함수가 지원하는 조건들)# [수평결합]# 컬럼명이 같은 경우의 예시를 보여주기 위해 컬럼명을 임의로 변경해 줌df3['Customer ID']=df3['user id']# 기본 작성구문으로, 디폴트값은 inner join# 공통컬럼값은 합쳐져 하나의 컬럼으로 출력merge_df = pd.merge(df2,df3)# 위 코드와 동일한 기능입니다. on 절을 사용할 수 있어요. merge_df = pd.merge(df2,df3, how='inner', on='Customer ID')# 공통컬럼이 2개 이상일 때merge_df = pd.merge(df2, df3, how='inner', on=['공통컬럼1','공통컬럼2'])#..

1회차 배운거 복습겸 실습1. python 과 라이브러리의 이해1-1. 라이브러리 import 1-2. 라이브러리 지원 함수 사진처럼 pd. 을 치고 기다리거나 dir(pd) 사용 런타임 2. Pandas를 활용한 EDA2-1. Data Frame (테이블) 만들기 2-2. CSV 파일을 통한 테이블 LOAD 코랩에 내 구글 드라이브를 연결시킨 다음,경로를 넣어서 파일을 읽음이 때, 파일 경로는 열고 싶은 파일을 오른쪽 클릭 한 다음 경로 복사 눌러주면 됨 2-3. 테이블 확인하기2-4. 테이블 구조 확인하기 함수를 이용해 테이블의 행 길이를 파악할 수 있고 (몇 줄인지; SQL에서 COUNT와 비슷) 그 외 다양한 방법들이 있음 만약, 테이블 컬럼 (df.colums)를 리스트로 확인하고 싶을 때 t..

SQL, Python은 모두 데이터에 접근하기 위한 쿼리이다.하지만 둘은 크게 언어적 차이와 응용 여부에 차이점이 있다.Library라이브러리란우리가 자주 쓰는 함수들을 모아놓은 묶음 데이터 분석가는 라이브러리를 호출해서 계산을 한다. 외우는 게 아님!라이브러리로 거의 모든 해석과 기능을 대체할 수 있다. 그렇다면 라이브러리 호출하는 방법을 알아보자~ 라이브러리 호출import pandas as pd → pandas라는 라이브러리를 호출(import) 하고 그 이름을 pd라고 하겠다. from 으로 시작하는 구문을 마주칠 수 있는데, 라이브러리 중 특정 함수만 사용하고 싶을 때 사용된다.from matplotlib.pyplot as plt → matplotlib 라이브러리에서 pyplot 함수만 가져오..

glob 사용하기 파일 시스템에서 파일을 찾을 때 사용한다. 파일 이름의 패턴 매칭을 통해 파일을 검색하고, 일치하는 파일들의 리스트를 반환한다. 주로 파일 이름이나 확장자에 따라 파일을 필터링하는 데 사용된다. glob 함수를 사용하면 특정 패턴에 맞는 파일을 간단하게 찾을 수 있다. (파일 시스템에서 파일을 검색하고 처리하는 데 유용)import glob# 현재 경로의 모든 파일을 찾기file_list1 = glob.glob('*')# 단일 파일 패턴으로 파일을 찾기file_list2 = glob.glob('drive')# 디렉토리 안의 모든 파일 찾기file_list3 = glob.glob('sample_data/*')# 특정 확장자를 가진 파일만 찾기file_list4 = glob.glob('s..

파일 불러오기 및 저장하기, 패키지(라이브러리), 포맷팅까지는 필수고 나머지는 그냥 참고~파일 불러오기 및 저장하기파일 확장자다양한 확장자들이 있지만 일반적으로 4개가 많이 사용됨 확장자에 따른 파일 불러오는 함수 pandas에서 제공해주는 함수를 이용하면 쉽게 파일을 불러올 수 있음 구글 코랩에선 내 컴퓨터에서 사용하는 게 아니기 때문에 구글 드라이브에 파일을 따로 업로드하고 드라이브 마운트를 한 뒤 경로를 설정해서 파일을 가져올 수 있다.드라이브 마운트를 통해서 코랩에 내 구글 드라이브를 연동시키는 것 코드로 드라이브 마운트 하는 방법 말고 직접 하는 방법도 있다.코랩 왼쪽에서 파일 아이콘을 누른뒤 생긴 창에서 구글 드라이브 표시가 있는 파일 아이콘을 클릭하면 된다. 파일 저장하기 df를(df.) ..

함수입력을 받아 원하는 처리를 한 후 출력을 내보내는 작업을 수행하는 코드 블록이다.코드를 그룹화하여 재사용 가능한 형태로 정의한다.코드 재사용, 모듈화, 유지보수 용이성, 가독성 향상함수 정의def 함수이름(매개변수1, 매개변수2, ...): # 함수 내부에서 수행할 작업 return 결과값 # (선택적) 함수의 결과를 반환 def 키워드를 사용해 함수를 정의한다. 함수 호출결과 = 함수이름(인수1, 인수2, ...) 함수 예시# 함수 정의def greet(name): message = "Hello, " + name + "!" return message# 함수 호출greeting = greet("Alice")print(greeting) # 출력: Hello, Alice! gre..

특정 조건에 따라 데이터를 가공할 때 반복 수행이 많기 때문에 조건문과 반복문을 함께 쓰는 경우가 많다.대용량의 데이터를 AI 모델에 하나씩 집어 넣을 때, AI 모델을 여러번 반복할습할 때에도 반복문이 사용된다.데이터 분석시 특정 데이터의 조건을 부여할 때머신러닝의 반복되는 학습큰 용량의 데이터를 한번에 메모리에 넣지 않고 여러번 나누어서 넣을 때조건문 (if문)프로그램의 흐름을 제어하는 중요한 요소 중 하나특정 조건이 참(True)인 경우에만 특정 코드 블록을 실행한다.if 조건: # 조건이 참일 때 실행될 코드elif 다른조건: # 다른 조건이 참일 때 실행될 코드else: # 위의 조건이 모두 거짓일 때 실행될 코드x = 10if x > 0: print("양수입니다.")elif..

리스트, 튜플, 딕셔너리를 통해 데이터를 담고, 정리하고 필요할 때 꺼내 쓸 수 있다.주로 맨 처음 데이터를 불러오고 가공할 때, 결과를 저장할 때 많이 사용한다.딥러닝 모델을 반복 학습하며 결과를 리스트에 추가데이터 불러올때, 경로 처리할때 split 사용데이터를 임의의 범위만큼 선택할때 슬라이싱, 인덱싱 사용 데이터를 변경 불가능하게 사용하고 싶을 때리스트 (List)여러 항목들을 담을 수 있는 가변(mutable)한 시퀀스(sequence)이다. 대괄호 [ ]를 사용하여 리스트를 만들 수 있다.# 1. 리스트 생성my_list = [1, 2, 3, 4, 5]# 2. 리스트의 기본 구조print(my_list) # 출력: [1, 2, 3, 4, 5] 인덱싱 (Indexing)리스트에서 특정 위치의 ..