일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- #패스트캠퍼스 #패스트캠퍼스부트캠프 #데이터분석 #데이터분석부트캠프 #BDA11기 #국비지원 #패스트캠퍼스국비지원
- 패스트캠퍼스 #패스트캠퍼스부트캠프 #데이터분석 #데이터분석부트캠프 #BDA11기 #국비지원 #패스트캠퍼스국비지원
- #패스트캠퍼스 #패스트캠퍼스부트캠프 #데이터분석 #데이터분석부트캠프 #패스트캠퍼스데이터분석부트캠프 #BDA11기 #국비지원 #패스트캠퍼스국비지원
- #데이터분석가 #DataAnalyst #SQL #프로젝트 #취준생
- #패스트캠퍼스 #패스트캠퍼스부트캠프 #데이터분석 #데이터분석부트캠프 #패스트캠퍼스데이터분석부트캠프 #BDA11기 #국비지원 #패스트캠퍼스국비지원 '데이터분석 부트
- Today
- Total
STUDY-LOG
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 8-10주차 본문
Tableau로 데이터 시각화하기
Tableau
데이터를 탐색 및 관리하고, 인사이트를 더 빠르게 발견할 수 있는 데이터 시각화 BI
< Tableau Product>
- 데이터 전처리를 하는 Tabeau Prep
- 데이터 시각화를 하는 Tableau Desktop
- 파일을 읽는 Tableau Reader
- 파일을 업로드하는 Tableau Server, Online, Public
< Tabluea Desktop에서 데이터 연결하기 >
- 서버에 연결에서 '자세히'를 눌러 원하는 커넥터 찾기
- 파일에 연결에서 파일 찾아 연결하기
- 가장 쉬운 방법은 열기 아래의 빈 창에 파일을 드래그해서 놓으면 됨
< 데이터 관계 >
- 데이터 분석을 위해 여러 테이블에서 데이터를 결합하는 방법
- 분석 중에 사용되는 필드를 기반으로 적절한 JOIN을 자동으로 생성하므로 JOIN 유형을 선택할 필요가 없음
- JOIN과 달리 단일 테이블로 병합되지 않고 각 테이블을 유지하기 때문에 집계 값이 중복되지 않음
< 차원과 측정값 >
차원
- 우리가 관심을 갖고 있는 측정값을 나눠서 볼 기준 (범주형 데이터)
- 지역별, 연도별, 성별
측정값
- 우리의 관심을 받는 대상. 값, 숫자 (수치형 데이터)
- 매출, 수익, 배송비
- 측정값은 집계됨
< 연속형과 불연속형 >
연속형 (green pills) | 불연속형 (blue pills) |
연속적 순서가 있는 쭉 이어진 데이터 | 개별적으로 구분되는 데이터 |
축 (Axis) | 머리글 (Header) |
정렬 불가능 (연속된 순서가 있어서) | 정렬 가능 (unique value) |
선형 그래프를 생각하면 됨. 색상 마크카드에 올리면 그라데이션이 나타남 |
막대 그래프를 생각하면 됨. 색상 마크카드에 올리면 다른 색상으로 나타내짐 |
< (누적) 막대그래프 >
- 세로형 막대그래프를 생성할 때는 행선반에 측정값(Sales), 열선반에 차원(Product by Category)
- 가로형 막대그래프를 생성할 때는 열선반에 측정값(Sales), 행선반에 차원(Product by Category)
또는 다음 버튼을 클릭
- 그래프에 레이블을 추가 시 측정값을 그대로 표현할 수도 있지만 측정값 pills를 우클릭 후 '퀵 테이블 계산 → 구성비율'로 각 카테고리가 차지하는 비율을 나타낼 수도 있음
- 누적 막대그래프에서 중요하게 봐야 할 것은 각 항목에 대한 구성비를 볼 것이냐 혹은 전체 항목에서 구성비를 볼 것이냐를 잘 정하는 것
- 왼쪽 그래프는 각 항목에 대한 구성비 (테이블 옆으로)
- 오른쪽 그래프는 전체 항목에 대한 구성비 (테이블 아래로)
< Scatter Plot, 산점도 >
- 산점도는 상관관계를 파악할 때 쓰임
- 매출과 수익을 비교하는 산점도를 생성할 때는 행선반에 Profit, 열선반에 Sales 바꿔도 됨)
- 세부정보에 product name 추가 →각각의 점이 하나의 product name을 나타냄
- 마크카드를 원으로 변경하고 투명도와 테두리를 알맞게 설정
- 참조선은 '분석' 탭에서 추가 가능하고 혹은 y축 우클릭 후 '참조선 추가'
- 위의 오른쪽 그래프는 Profit Ratio라는 수익률을 나타내는 계산된 필드를 만든 후 그래프 생성
- 왼쪽 그래프는 측정값을 합계로 산점도를 구한 것이고, 오른쪽 그래프는 측정값을 평균과 집계 방식으로 구함
- 아래와 같은 그래프에서 특정 구간의 값을 확인하고 싶을 때 상수선을 추가해서 볼 수 있음
- 분석 탭에서 '상수 라인'
- 산점도는 원 또는 밀도로 표시할 수 있음
- 첫 번째 그래프의 마크카드는 '자동'으로 테두리만 있는 빈 원
- 두 번째 그래프는 마크카드 '원'으로 꽉 채워진 원
- 세 번째 그래프는 마크카드 '밀도'
< Box & Whisker Plot >
- 데이터의 분포와 이상치를 확인하기에 용이
- 아래의 학생들의 점수 분포를 확인하는 박스플롯에서 각각의 원은 학생을 나타냄
- y축에서 참조선 추가 → 박스플롯
< Histogram>
- 연속형 변수의 빈도수를 나타내기 위해 그림 → 데이터 전체의 경향성을 빠르게 파악하기에 용이
- 왼쪽 그래프는 열선반의 Score을 불연속형으로 표현
- 오른쪽 그래프는 열선반의 Score을 연속형으로 표현
- 구간차원: 연속형 필드를 구간으로 잘라서 차원, 즉 하나의 기준처럼 보게 만드는 것
- 구간차원을 만들면 측정값을 집계(합계, 평균 등)하는 게 아니라 측정값을 구간으로 나눠서 (0-10, 10-20, 20-30..) 측정값을 차원인 것처럼기준으로 활용 가능
- 히스토그램에서 누적 막대시 마크를 누적할지, 아니면 겹치게 할지 여부를 제어할 수 있음
- 아래의 오른쪽 그래프가 마크 누적을 해제한 것
- 같은 내용을 각 Box plot과 Histogram으로 표현하기
Box Plot | Histogram |
데이터의 분포와 이상치를 확인하기에 용이 | 데이터 전체의 경향성을 빠르게 파악하기에 용이 |
'데이터분석 부트캠프 > 학습일지' 카테고리의 다른 글
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 11주차 (0) | 2024.01.05 |
---|---|
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 6-7주차 (0) | 2023.12.07 |
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 4주차 (0) | 2023.11.17 |
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 3주차 (0) | 2023.11.06 |
[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 2주차 (1) | 2023.11.03 |