일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- concat
- 모집단
- floor
- 재퀴쿼리
- truncate
- merge
- calesce
- 표본분포
- dateofmonth
- curdate
- 프로그래머스
- lambda
- DATE_FORMAT
- 표준오차
- 데이터 리터러시
- 태블로
- pivot table
- 정규분포
- 재귀쿼리
- datediff
- python
- 레이더차트
- 표분편차
- tableau
- Recursive
- limit
- join
- split
- rrule
- 신뢰구간
- Today
- Total
hyezdata 님의 블로그
[250602] 본문
프로덕트 데이터 사이언스 - A/B 테스트
A/B 테스트는 두 개 이상의 그룹을 비교하여 변화가 목표에 미치는 영향을 측정하는 실험 방법.
이 때, '대조군'은 변화를 주지 않은 그룹, '실험군'은 새로운 조건을 적용한 그룹이다.
A/B 테스트에선 편향과 숨겨진 외부 요인에 대한 영향을 최소화하기 위해 랜덤화를 진행한다.
하지만, A/B 테스트로 나온 차이를 신뢰할 수 있는지 없는지 그냥 알 순 없고 표준편차(SE)를 이용한다.
샘플 크기가 클수록 표준 편차는 작아지고, 신뢰도는 높아진다.
신뢰 구간(CI) 은 같은 실험을 여러 번 반복했을 때, 모집단의 평균이 그 구간 안에 포함될 가능성이 높다는 걸 의미한다.
두 그룹의 신뢰구간이 겹치지 않는다면, 두 그룹 간의 차이는 우연일 가능성이 낮다. (= 유의미하다.)
랜덤화와 통계적 신뢰 지표(SE, CI)를 활용해 신뢰성을 평과하고 인과 관계를 명확히 할 수 있다.
최종 프로젝트 - 데이터 선정 및 주제
프로젝트 제목
피부 타입별 맞춤 신제품 출시 인사이트 및 대시보드 구축
프로젝트 주제
세포라 리뷰 데이터를 활용하여 고객 맞춤 제품을 추천하고, 자사 제품 개발 방향성을 제안하는 프로젝트
프로젝트 목표
세포라 리뷰 데이터 및 제품 정보 데이터를 분석하여 개인 특성에 따라 제품 추천 시스템을 개발하고, 이를 시각화된 대시보드로 구현한다. 대시보드를 통해 고객들에게 원하는 제품을 추천해주는 기능을 제공하고, 회사 입장에서는 자사 브랜드 제품 출시를 위한 인사이트를 함께 제공한다.
데이터 출처
https://www.kaggle.com/datasets/nadyinky/sephora-products-and-skincare-reviews/data
Sephora Products and Skincare Reviews
Info about 8k+ products and about 1 mln user reviews from the Skincare category
www.kaggle.com
'내일배움캠프 > TIL' 카테고리의 다른 글
[250605] EDA (0) | 2025.06.05 |
---|---|
[250604] (0) | 2025.06.04 |
[250527] (0) | 2025.05.27 |
[250520] ppt 만들기 시작 (0) | 2025.05.20 |
[25.05.19] 대시보드 시작 (0) | 2025.05.19 |