STUDY-LOG

[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 8-10주차 본문

데이터분석 부트캠프/학습일지

[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 8-10주차

dyo_33 2023. 12. 29. 09:49

 

 

 

 

Tableau로 데이터 시각화하기

 

 

 

 

 

 

Tableau

데이터를 탐색 및 관리하고, 인사이트를 더 빠르게 발견할 수 있는 데이터 시각화 BI 

 

 

< Tableau Product>

- 데이터 전처리를 하는 Tabeau Prep

- 데이터 시각화를 하는 Tableau Desktop

- 파일을 읽는 Tableau Reader

- 파일을 업로드하는 Tableau Server, Online, Public

 

 

< Tabluea Desktop에서 데이터 연결하기 >

- 서버에 연결에서 '자세히'를 눌러 원하는 커넥터 찾기

- 파일에 연결에서 파일 찾아 연결하기

- 가장 쉬운 방법은 열기 아래의 빈 창에 파일을 드래그해서 놓으면 됨

 

 

 

< 데이터 관계 >

- 데이터 분석을 위해 여러 테이블에서 데이터를 결합하는 방법

-  분석 중에 사용되는 필드를 기반으로 적절한 JOIN을 자동으로 생성하므로 JOIN 유형을 선택할 필요가 없음

- JOIN과 달리 단일 테이블로 병합되지 않고 각 테이블을 유지하기 때문에 집계 값이 중복되지 않음

 

테이블 결합

 

 


 

 

< 차원과 측정값 >

 

차원

- 우리가 관심을 갖고 있는 측정값을 나눠서 볼 기준 (범주형 데이터)

- 지역별, 연도별, 성별

 

측정값

- 우리의 관심을 받는 대상. 값, 숫자 (수치형 데이터)

- 매출, 수익, 배송비

- 측정값은 집계됨

 

 

 

< 연속형과 불연속형 >

연속형 (green pills) 불연속형 (blue pills)
연속적 순서가 있는 쭉 이어진 데이터 개별적으로 구분되는 데이터
축 (Axis) 머리글 (Header)
정렬 불가능 (연속된 순서가 있어서) 정렬 가능 (unique value)
선형 그래프를 생각하면 됨.
색상 마크카드에 올리면 그라데이션이 나타남
막대 그래프를 생각하면 됨.
색상 마크카드에 올리면 다른 색상으로 나타내짐

 

 

 


 

 

 

< (누적) 막대그래프 >

세로형 막대그래프와 가로형 막대그래프

 

- 세로형 막대그래프를 생성할 때는 행선반에 측정값(Sales), 열선반에 차원(Product by Category)

- 가로형 막대그래프를 생성할 때는 열선반에 측정값(Sales), 행선반에 차원(Product by Category)

또는 다음 버튼을 클릭

- 그래프에 레이블을 추가 시 측정값을 그대로 표현할 수도 있지만 측정값 pills를 우클릭 후 '퀵 테이블 계산 → 구성비율'로 각 카테고리가 차지하는 비율을 나타낼 수도 있음 

구성 비율로 나타내기

 

- 누적 막대그래프에서 중요하게 봐야 할 것은 각 항목에 대한 구성비를 볼 것이냐 혹은 전체 항목에서 구성비를 볼 것이냐를 잘 정하는 것

 

 

- 왼쪽 그래프는 각 항목에 대한 구성비 (테이블 옆으로)

- 오른쪽 그래프는 전체 항목에 대한 구성비 (테이블 아래로)

제품 카테고리별로 매출 확인하는 누적막대그래프

 

 


 

 

< Scatter Plot, 산점도 >

- 산점도는 상관관계를 파악할 때 쓰임

- 매출과 수익을 비교하는 산점도를 생성할 때는 행선반에 Profit, 열선반에 Sales 바꿔도 됨)

- 세부정보에 product name 추가 →각각의 점이 하나의 product name을 나타냄

- 마크카드를 원으로 변경하고 투명도와 테두리를 알맞게 설정

 

매출과 수익, 할인율과 수익률을 나타낸 산점도

 

- 참조선은 '분석' 탭에서 추가 가능하고 혹은 y축 우클릭 후 '참조선 추가'

- 위의 오른쪽 그래프는 Profit Ratio라는 수익률을 나타내는 계산된 필드를 만든 후 그래프 생성

- 왼쪽 그래프는 측정값을 합계로 산점도를 구한 것이고, 오른쪽 그래프는 측정값을 평균과 집계 방식으로 구함

 

추세선 추가와 Profit Ratio라는 계산된 필드 생성

 

 

 

- 아래와 같은 그래프에서 특정 구간의 값을 확인하고 싶을 때 상수선을 추가해서 볼 수 있음

- 분석 탭에서 '상수 라인'

평균 휴대폰 사용률과 평균 인터넷 사용률과의 관계를 나타낸 산점도

 

- 산점도는 또는 밀도로 표시할 수 있음

- 첫 번째 그래프의 마크카드는 '자동'으로 테두리만 있는 빈 원

- 두 번째 그래프는 마크카드 ''으로 꽉 채워진 원

- 세 번째 그래프는 마크카드 '밀도'

키와 몸무게의 산점도

 

 


 

< Box & Whisker Plot >

- 데이터의 분포와 이상치를 확인하기에 용이

- 아래의 학생들의 점수 분포를 확인하는 박스플롯에서 각각의 원은 학생을 나타냄
- y축에서 참조선 추가 → 박스플롯

학생들의 점수 분포 박스플롯

 

< Histogram>

- 연속형 변수의 빈도수를 나타내기 위해 그림 → 데이터 전체의 경향성을 빠르게 파악하기에 용이

- 왼쪽 그래프는 열선반의 Score을 불연속형으로 표현

- 오른쪽 그래프는 열선반의 Score을 연속형으로 표현

학생들의 점수 히스토그램

 

 

- 구간차원: 연속형 필드를 구간으로 잘라서 차원, 즉 하나의 기준처럼 보게 만드는 것

- 구간차원을 만들면 측정값을 집계(합계, 평균 등)하는 게 아니라 측정값을 구간으로 나눠서 (0-10, 10-20, 20-30..) 측정값을 차원인 것처럼기준으로 활용 가능

구간차원을 5크기로 생성

 

- 히스토그램에서 누적 막대시 마크를 누적할지, 아니면 겹치게 할지 여부를 제어할 수 있음

- 아래의 오른쪽 그래프가 마크 누적을 해제한 것

 

남녀의 이완기 혈압비교 (남 초록색, 여 분홍색 막대)

 

 

 

 

 

- 같은 내용을 각 Box plot과 Histogram으로 표현하기

Box Plot Histogram
데이터의 분포와 이상치를 확인하기에 용이 데이터 전체의 경향성을 빠르게 파악하기에 용이

 

 

 


SQL 프로젝트 보러 가기

 

[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 SQL 프로젝트 - 화장품 이커머스 고객행동 데이터

지난 2주간 진행된 두 번째 프로젝트가 드디어 끝이났어요!! 기업으로부터 임무를 받아 문제 상황을 분석하고 이를 해결해줄 방안을 제시해 주는컨셉으로 진행해 봤는데요. 그럼 저희 팀이 진행

oyoi-codinglog.tistory.com