일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 재귀쿼리
- limit
- 프로그래머스
- dateofmonth
- 신뢰구간
- DATE_FORMAT
- join
- merge
- 표본분포
- 표분편차
- 레이더차트
- 정규분포
- 데이터 리터러시
- 표준오차
- 모집단
- split
- pivot table
- curdate
- datediff
- truncate
- rrule
- python
- Recursive
- 재퀴쿼리
- floor
- concat
- calesce
- 태블로
- tableau
- lambda
- Today
- Total
목록내일배움캠프 (137)
hyezdata 님의 블로그
대부분 튜터님들의 피드백에서 일단 전체적인 흐름이 너무 좋았고 요즘 트렌드인 LLM을 활용해서 리뷰 데이터를 분석한 점이 좋았다는게 공통적인 피드백인 것 같다. 잘 마무리한 것 같고 이번 프로젝트를 하면서 어떠한 다른 프로젝트보다 많은 걸 배운 것 같다.

1. 데이터 원본Cluster Name : 레이더 차트 유형Mean Tfidf : 레이더차트에서 위치로 활용할 값Keyword : 레이더 차트 축 2. 레이더 차트 배경 만들기엑셀로 만들면 됨 3. 레이더 차트 모양 잡기레이더 차트 모양을 잡기 위한 keyword에 대한 인덱스와 size 함수 생성 먼저, INDEX 함수 생성계산된 필드 - INDEX() 함수 써주기 - 기본 테이블 계산 - 계산 대상 'keyword' 선택 - 확인 SIZE 함수 생성계산된 필드 - SIZE() 함수 써주기 - 기본 테이블 계산 - 계산 대상 'keyword' 선택 - 확인 4. 계산된 필드로 X, Y 좌표 생성x, y 좌표는 삼각함수를 이용해서 계산 삼각함수를 이용한 좌표 구하는 방법을 설명해보자면 세타 값이 R..

우리는 대시보드를 한명이 다 만든게 아니라 따로 따로 만들어서 합치다 보니 원본 파일이 다 달랐음 그래서 필터 초기화 설정하는데 안돼서 계속 시도해보다가 드디어 해결...ㅠ0ㅠ 필터 초기화 버튼 만들기 1. '초기화 버튼' 워크시트 만들기 2. 행을 더블클릭해서 0 넣고 엔터 3. 마크에서 도형 선택해주고 초기화 버튼으로 사용할 이미지 넣기오른쪽 데이터 탭처럼 버튼 추가할 데이터 선택 해줘야 함 4. 대시보드에 가서 초기화버튼 워크시트 넣어주기 5. 대시보드 - 동작 - 동착 추가 - 필터 ★ 6. 필터 동작 편집 부분원본시트 : 초기화 버튼만 선택, 동작 실행 조건 - 선택대상 시트 : 초기화 버튼 빼고 다 선택, 선택을 해제할 경우의 결과 - 모든 값 표시 여기서 중요함!선택할 필드 잘 설정해주기..

오늘부터 태블로 들어가기로~나는 군집 분석한 결과를 태블로에 보여주기였는데첨엔 태블로에 있는 클러스터 기능을 사용해봤지만 태블로에 있는 클러스터를 사용할 경우 수치형 변수를 사용해야 하고 표현이 내가 생각했던 대로 되지 않아 실패그 다음은 tabpy를 시도해보았지만 이것도 실패결국엔 파이썬으로 군집한 결과를 csv 파일로 다시 저장해 태블로에 보여주기로~ secondary 카테고리마다 클러스터한 결과를 tsne의 값과 함께 저장,이때 클러스터의 번호가 겹치므로 '카테고리+클러스터번호'를 새로운 클러스터 이름으로 생성 그리고 각 클러스터에 해당하는 하이라이트 카테고리도 저장해준다. 저장한 csv를 파이썬으로 돌림 tsne처럼 태블로에 나타내주면 된다. 리뷰 상위 10개 브랜드는 레이블로 브랜드 이름을 표시..

중간 발표 이후로 첨 쓰는 til같네...;; 이때까지 진행사항중간 발표 주 어제 오늘 진행 사항군집 분석마케팅 방안 도출두 팀으로 나눠서 나는 군집 분석 팀으로 진행 목표 : 제품의 특징을 나타내는 highlights 컬럼을 이용해 군집 분석으로 브랜드 포지셔닝을 파악한다.처음엔 highlights의 키워드, 총 70여개를 가지고 카테고리별로 군집 분석을 했으나 의미가 중복되는 키워드가 많아 highlights를 의미가 비슷한 것끼리 카테고리를 만듦총 9개 카테고리 secondary 카테고리로 나눠서 카테고리마다 군집 분석을 했을 때 대부분 3개로 했을 때 클러스터마다 특징이 두드러졌고, 보통 피부 타입 & 성분, 친환경/윤리적 가치, 클린 뷰티 로 나뉘어졌다.
키워드 군집화를 이용한 연구 논문 분류에 관한 연구https://www.koreascience.kr/article/JAKO201809863002140.pdf 엘보우 기법을 적용하여 클러스터 개수를 도출하고 실루엣 기법을 이용하 여 클러스터링 성능을 검증TF-IDF 모델과 하둡 맵리듀스 프레임워크 사용TF-IDF 기법을 이용하여 각 논문을 대표하는 키워드의 중요도를 계산하였고, TF-IDF 결과 값을 이용하여 K-평균 클러스터링 알고리즘으로 군집화를 수행과정1. 논문 수집2. 키워드 사전 구축 (빈도수 상위 n개 키워드 사용)3. 각 논문 초록(요약)에서 키워드 횟수 계산4. 키워드 사전에 정의된 단어가 전체 논문 초록에서 얼마나 사용되는지 계산5. 키워드 사전에 있는 단어가 몇 개의 논문의 초록에 사용되..

주말동안 서로 생각해 온 분석 주제와 흐름 텍스트 전처리불용어 제거리뷰 개수 몇개 이상 필터링 할 건지특수문자 제거중복 공백 제거글자 반복 제거대문자 → 소문자gemini를 이용하여 LLM 감성 분석일단 만들어 본 코드로 돌리고 있는데 지금 151845 개 중 18777개 하는데 278m...이 속도론 낼 아침에 끝날지도...?ㅎ