본문 바로가기

Tableau Desktop/[인프런] 웰컴 투 태블로 월드

[인프런] 웰컴 투 태블로 월드 - 3-2. 태블로의 주요 기능 익히기(분석 패널)

개요

지난 포스팅에서는 Tableau의 이중축(Dual Axis)의 기본 사용법, 이중축을 활용하여 차트를 강조하는 방법 및 디자인 효과와 콘텍스트를 부여하는 방법을 정리했었습니다. 

이번 포스팅은 [인프런] 웰컴 투 태블로 월드 강의 네 번째 '태블로의 주요 기능 익히기' 섹션 중에 분석 패널(Analytics Pane)과 관련된 내용을 아래 순서대로 정리하였습니다.

  • 상수 라인과 평균 라인
  • 총계
  • 추세선
  • 예측 
  • 클러스터링
  • 참조선

 

참고한 링크는 아래와 같습니다.

 

본문

분석 패널데이터 시각화 결과를 한 단계 더 정밀하게 분석할 수 있도록 돕는 기능들을 모아놓은 곳입니다. 분석 패널은 작업창 좌측에 데이터 패널 옆에 존재합니다.

 

1. 상수 라인과 평균 라인

분석 패널의 상수 라인 평균 라인을 테스트하기 위해 Sample - Superstore 데이터셋 Orders 테이블의 각 Category 항목의 Sales 합계를 시각화합니다.

  • Sales 측정값을 행 선반에 올립니다.
  • Cateogory 필드를 열 선반에 올립니다.
  • 레이블을 표시합니다.

 

상수 라인

상수 라인은 설정한 값에 해당하는 라인을 차트에 표시할 수 있는 기능입니다.

  • 분석 패널 -> 상수 라인 -> 차트 안으로 드래그 앤 드롭 -> 상수 라인을 60만 달러로 설정
  • 결과
    • 설정한 60만 달러에 라인이 표현됩니다.

 

평균 라인

평균 라인은 특정 기준(테이블, 패널, 셀)을 토대로 계산한 평균값에 해당하는 라인을 차트에 표시할 수 있는 기능입니다.

  • 분석 패널 -> 평균 라인 -> 차트 안으로 드래그 앤 드롭
    • 테이블: 현재 VLOD(View Level of Detail)에 올라가 있는 모든 항목들의 평균값을 계산합니다.
      • 하단 이미지 기준으로 계산
        • (2009 East + 2009 South + 2009 West + 2010 East + 2010 South + 2010 West) / 6
    • 패널: 첫 번째로 분기한 차원을 기준으로 평균값을 계산합니다.
      • 하단 이미지 기준으로 계산
        • (2009 East + 2009 South + 2009 West) / 3
        • (2010 East + 2010 South + 2010 West) / 3 
    • : 각 1개 항목에 대한 평균값을 계산합니다. -> 결국, 각 1개 항목의 Sales 합계와 동일
      • 2009 East / 1
      • 2009 South / 1
      • ...
      • 2010 West / 1

 

 

출처: https://help.tableau.com/current/pro/desktop/ko-kr/environ_workspace_analytics_pane.htm

 

  • 테이블 평균 라인 결과
    • 현재 VLOD에 올라가 있는 모든 항목인 Furniture, Office Supplies, Technology의 평균 Sales 합계를 계산합니다.
      • (742,000 + 719,047 + 836,154) / 3 = 765,734
    • 추가로, 차트에서 평균 라인임을 좀 더 정확하게 표현합니다
      • 평균 라인 우클릭 -> 편집 -> 레이블 -> 사용자 지정 -> '>' 선택 -> 계산 선택 -> '>' 선택 ->  선택
      • 최종 사용자 지정 레이블 형태를 <계산> = <값>으로 저장합니다.

 

 

상수 라인과 평균 라인의 특징

  • 상수 라인 2개 이상의 라인을 표현할 수 있고, 평균 라인 1개 라인만 표현할 수 있습니다.

 

추가 특징을 알아보기 위해 Category 필드에서 한 단계 더 세분화된 필드인 Sub-Category로 분기합니다.

  • 상수 라인 분기 이전과 동일한 값으로 표현됩니다. 
  • 평균 라인 분기 이전과 다른 값으로 표현니다.
    • 이전에 평균 라인을 '테이블' 옵션으로 설정했으므로, 분기 이후에 모든 Sub-Category 항목들의 평균을 계산하면 값이 변할 수 있습니다.
      • 분기 이전: Category 항목(Furniture, Office Supplies, Technology)의 Sales 합계의 평균값 계산
      • 분기 이후: Sub-Category 항목(Bookcases, Chairs,..., Phones)의 Sales 합계의 평균값 계산

 

라인 차트의 상수 라인과 평균 라인 

라인 차트의 상수 라인과 평균 라인을 테스트하기 위해 월별 Sales 합계 트렌드 라인 차트를 시각화합니다.

  • Sales 측정값 필드를 행 선반에 올립니다.
  • Order Date 필드를 열 선반에 올린 후, 연속형 월로 변경합니다.

 

평균 라인을 추가한 후, 이를 알아보기 쉽도록 레이블을 변경합니다.

  • 분석 패널 -> 평균 라인 -> 차트 안으로 드래그 앤 드롭 -> 평균 라인 우클릭 -> 편집 -> 레이블 -> 사용자 지정 -> '>' 선택 -> 계산 선택 -> '>' 선택 ->  선택
  • 최종 사용자 지정 레이블 형태를 <계산> = <값>으로 저장합니다.
  • 테이블 평균 라인 결과

 

다음으로, 상수 라인을 추가합니다. 이때, Order Date와 Sales 알약이 모두 연속형이므로, 상수 라인은 합계(Sales)와 월(Order Date)에 모두 추가할 수 있습니다.

  • (선택 1) 합계(Sales)에만 상수 라인 추가
  • (선택 2) 월(Order Date)에만 상수 라인 추가
  • (선택 3) 합계(Sales) 및 월(Order Date) 둘 다 상수 라인 추가

 

상수 라인과 평균 라인의 활용성

상수 라인과 평균 라인을 적절히 활용하면, 화면에텍스트 스토리를 더할 수 있습니다.

 

1) 일반적인 라인 차트 해석

  • 라인 차트의 증가세 또는 감소세 정도만 파악할 수 있음
    • 2016년~2020년까지 4년 동안 매출이 증가하는 추세를 보임

 

2) 평균 라인이 추가된 라인 차트 해석

  • 라인 차트의 증가세 또는 감소세 파악
    • 2016년~2020년까지 4년 동안 매출이 증가하는 추세를 보임
  • 평균값을 기준으로 이보다 큰 경우, 작은 경우 파악
    • 매년 3월, 9월, 11월, 12월의 Sales 합계가 평균 Sales 합계($47,858) 보다 높음.
  •  

 

2. 총계

분석 패널의 총계는 테이블의 각 행이나 열 데이터의 합산을 수행합니다. 총계를 테스트하기 위해 각 Category 항목 및 Region 항목 별 Sales 합계 테이블을 생성합니다.

 

분석 패널의 총계를 수행합니다.

  • 분석 패널 -> 총계 -> 차트 안으로 드래그 앤 드롭
    • 소계: 각 열 데이터 및 행 데이터를 합산합니다.
    • 열 총합계: 각 열 데이터를 합산합니다. 
    • 행 총합계: 각 행 데이터를 합산합니다. 
  • 소계 결과

 

이번에는 Category 필드에서 한 단계 더 세분화된 필드인 Sub-Category로 분기하여 결과를 확인합니다. 

  • 각 Category 항목, Sub-Category 항목, Region 항목 별 Sales 합계와 각 행과 열의 총계를 확인할 수 있습니다.

 

이번에는 각 Catogory 항목 별로 Region 항목의 Sales 총계를 따로 표현합니다.

  • 위 상태에서 분석 패널 -> 총계 -> 소계 선택

 

추가로, 위에서 도출한 총계를 테이블 상단에서 확인할 수 있도록 위치를 변경합니다.

  • 최상단 메뉴의 분석 -> 총계 -> 열 총계를 맨 위로

 

3. 추세선

분석 패널의 추세선두 개 필드의 상관관계 분포가 어떤 추세를 따르고 있는지 정보를 제공합니다. 추세선을 테스트하기 위해 각 Product Name의 평균 Discount와 Profit Ratio의 스캐터 플롯을 시각화합니다.

  • Profit Ratio 측정값 필드를 행 선반에 올립니다.
  • Discount 측정값 필드를 열 선반에 올린 후, 평균으로 집계합니다.
  • Product Name 필드를 마크 카드 세부 정보에 올립니다.

 

보다 정확한 Profit Ratio와 평균 Discount의 상관관계를 표현하기 위해 위 이미지에서 평균 Discount가 0인 상품은 제외합니다.

  • 드래그로 제외할 상품 선택 -> 제외 
  • 필터 카드에 Product Name에 대한 필터가 생성됩니다.

 

이제 분석 패널의 추세선 수행합니다.

  • 분석 패널 -> 추세선 -> 차트 안으로 드래그 앤 드롭
    • 선형
    • 로그
    • 지수
    • 다항식
    • 거듭제곱
  • 선형 추세선 결과
    • 할인율이 커질수록 수익성이 감소하는 것을 알 수 있습니다.
    • 할인율과 수익성의 관계가 수식으로 제공됩니다.
      • Profit Ratio = -1.21175 * 평균 Discount + 0.379896
      • 대체로 평균 할인율이 1% 증가할 때마다 수익성이 12% 감소하는 경향을 띄고 있습니다.

 

  • 다항식 추세선 결과
    • 선형 추세선보다 상대적으로 좀 더 데이터를 잘 표현하는(=fitting이 잘 된) 추세선을 표현합니다.
    • 할인율이 커질수록 수익성이 감소하는 것을 알 수 있습니다.
    • 할인율이 35%보다 커지면, 수익성이 급격히 감소하는 경향을 확인할 수 있습니다.

 

4. 예측

분석 패널의 예측지수 평활법 예측 알고리즘을 사용하여 미래 데이터 변화를 예측하는 기능입니다. 예측을 테스트하기 위해 월별 Sales 합계를 시각화합니다. 지수 평활법은 다음 예측치를 현재 값과 이전 예측치의 합산으로 계산합니다. 자세한 내용은 이곳에서 확인할 수 있습니다.

  • Sales 측정값 필드를 행 선반에 올립니다.
  • Order Date 필드를 열 선반에 올린 후, 연속형 월로 변경합니다.

 

이제 분석 패널의 예측 수행합니다.

  • 분석 패널 -> 예측 -> 차트 안으로 드래그 앤 드롭
  • 결과
    • 2020년 12월~2021년 12월 약 1년 동안의 Sales 합계를 예측합니다.

 

Tableau가 사용하는 예측 알고리즘 지수 평활법(Exponential Smoothing)입니다. 예측을 상세하게 확인하기 위해 아래 절차를 수행합니다.

  • 예측 라인 우클릭 -> 예측 -> 예측 옵션
    • 원본 데이터 -> 다음 기간 무시
      • Tableau는 기본적으로 원본 데이터의 마지막 1개월은 실제값에서 제외하고, 해당 기간부터 예측을 수행합니다.
      • 0개월로 변경하면, 원본 데이터 전체를 실제값으로 계산하고, 이후 기간에 대하여 예측을 수행합니다.
    • 예측 모델
      • 자동: 예측 모델을 계절적 변동성을 고려한 지수 평활법으로 자동으로 선택합니다.
      • 사용자 지정: 추세, 계절 특성을 가법 또는 승법으로 적용한 예측 모델을 사용할 수 있습니다.  

 

또한, 불연속형 날짜 필드에 대해서도 예측을 수행할 수 있습니다. 이때, 시간의 흐름을 알려주기 위해 열 선반에는 년(Order Date)을 추가로 올려줘야 합니다. 

 

5. 클러스터링

분석 패널의 클러스터링은 데이터를 K-means 클러스터링 알고리즘을 사용하여 분류하는 기능입니다. 클러스터링을 테스트하기 위해 각 Sub-Category 항목 별 평균 할인율과 수익 합계의 상관관계를 시각화합니다. K-means 클러스터링은 비슷한 값을 가진 데이터를 K개 군집(그룹)으로 분류하는 하는 알고리즘입니다. 자세한 내용은 이곳에서 확인할 수 있습니다.

  • Profit 측정값 필드를 행 선반에 올립니다.
  • Discount 필드를 열 선반에 올린 후, 집계 방식을 평균으로 변경합니다.
  • Sub-Category 필드를 마크 카드 세부 정보에 올립니다.
  • 마크 형식을 으로 변경하고, 크기를 증가시킵니다.

 

이제 분석 패널의 클러스터링 수행합니다.

  • 분석 패널 -> 클러스터링 -> 차트 안으로 드래그 앤 드롭
  • 결과
    • 변수 Discount, Profit로 표현된 Sub-Category를 분류할 클러스터 개수를 설정합니다. (기본적으로 4개 클러스터를 사용합니다.)
    • 각 Sub-Category가 클러스터 1, 2, 3, 4로 분류되었습니다.

 

Tableau가 사용하는 클러스터링 알고리즘 K-means 클러스터링입니다. 또한, 클러스터 개수를 변경하는 방법은 아래와 같습니다.

  • 마크 카드 색상에 올라간 클러스터 우클릭 -> 클러스터 편집

 

6. 참조선

분석 패널의 참조선은 차트에 특정값에 해당하는 라인을 표기하여 값을 식별할 수 있도록 하는 기능입니다. 참조선 테스트하기 위해 각 Sub-Category 항목 별 Sales 합계를 시각화합니다.

 

분석 패널의 참조선으로 각 Sub-Category 항목별 Profit 측정값을 표기한다고 한다면, Profit 측정값 필드를 마크 카드 세부 정보에 올려야 합니다.

  • Profit 필드 -> 마크 카드 세부 정보에 올립니다.
  • 분석 패널 -> 참조선 -> 차트 안으로 드래그 앤 드롭
    • 테이블
    • 패널
  • 참조선 결과
    • 값: 참조선을 표현할 대상인 합계(Profit)로 변경
    • 레이블: Profit = <값> 추가
    • 각 Sub-Category 항목마다 Profit 참조선이 추가됩니다!

 

참조선의 활용

각 상품(열 선반) 별 매출 목표(참조선) 대비 달성한 매출(행 선반)을 시각화할 수 있습니다. 

 

 

마무리

이번 포스팅에서는 Tableau의 분석 패널에 관한 내용을 정리하였습니다. 분석 패널에서 특별히 중요한 상수 라인과 평균 라인, 총계, 추세선, 예측, 클러스터링, 참조선의 특징과 사용하는 방법을 정리하였습니다. 

도움이 필요하신 분들에게 작게나마 도움이 되셨으면 좋겠습니다.
감사합니다.