본문 바로가기

Tableau Desktop/[인프런] 웰컴 투 태블로 월드

[인프런] 웰컴 투 태블로 월드 - 2. 태블로의 핵심 작동원리 이해하기

개요

지난 포스팅에서는 Tableau로 시각화할 수 있는 다양한 차트에 관한 내용을 정리했었습니다.

이번 포스팅은 [인프런] 웰컴 투 태블로 월드 강의 세 번째 '태블로의 핵심 작동원리 이해하기' 섹션 내용을 아래 순서로 정리한 글입니다. 

  • 차원과 측정값
  • 연속형과 불연속형
  • Level of Detail

참고한 링크는 아래와 같습니다.

 

본문

1) 차원과 측정값

Tableau에서 가장 중요한 것은 차원과 측정값을 이해하고 구분하는 것입니다.

  • (참고) 강의에서 사용하는 Tableau 2020.2 이전 버전에서는 데이터 작업창의 좌측 데이터 탭 내부가 차원과 측정값으로 구분됩니다. 현재 사용 중인 2020.4 버전에서 링크 설명을 근거로 한다면, 차원측정값각 테이블 내부에 존재하는 것으로 추측할 수 있습니다.

 

측정값(Measure)

측정값은 우리의 관심을 받는 대상 그 자체입니다. 테스트를 위해 참고 링크와 동일하게 SKT 빅데이터 허브에서 '18년 8월 서울시 배달업종별 이용 통화량' 데이터를 다운 받아 Tableau에 연결합니다.

  • 데이터 준비창에서 연결한 데이터를 확인할 수 있습니다.

 

해당 데이터의 측정값(관심 대상)통화건수 필드임을 알 수 있습니다. 해당 필드를 데이터 작업창으로 이동하여 확인합니다.

  • 통화건수 필드는 측정값이 아닌, 차원에 올라가 있습니다.
  • 이는 통화건수 필드가 문자열(Abc)로 인식되었기 때문입니다.

 

통화건수 필드를 측정값에 올린 후에 추후 선반에 올려서 합계를 계산하기 위해 숫자형으로 변경합니다. 

  • 차원에 올라간 통화건수 필드 우클릭 -> 데이터 유형 변경 -> 숫자(정수)
  • 유형을 변경한 통화건수 필드를 측정값으로 드래그 & 드롭합니다. 

 

또 다른 측정값으로, Tableau에서 기본적으로 제공하는 데이터 레코드 수를 확인을 위한 Sheet(카운트) 필드를 행 선반에 올립니다.

  • '18년 8월 서울시 배달업종별 이용 통화량' 데이터는 총 123,469개가 존재함을 알 수 있습니다.

 

측정값 필드는 주로 연속형(초록색 알약)인 경우가 많으나 반드시 연속형은 아닙니다.

 

 

차원(Dimension)

차원은 우리가 관심을 가지는 측정값을 어떻게 분기해서 볼 것인가의 관점으로 이해하면 됩니다. 위에서 예시로 사용한 '18년 8월 서울시 배달업종별 이용 통화량' 데이터에서의 차원은 아래와 같습니다.

  • 시간대, 시군구, 시도, 업종, 요일, 읍면동, 일자
  • 또한, 한 개 차원으로 측정값을 분기할 수도 있지만, 2개 이상의 차원을 조합하여 측정값을 분기할수도 있습니다.

 

몇 가지 예시를 들어보겠습니다.

 

1) 사람들은 어떤 음식을 가장 많이 시켜먹을까?

  • 업종 필드를 열 선반에 올립니다.
  • 통화건수 필드를 마크 카드 레이블행 선반에 올립니다.
  • 결과
    • 중국 음식(통화 건수: 484,018회), 치킨(통화 건수: 445,188회) 순으로 많이 시켜 먹었음을 알 수 있습니다.

 

2) 사람들은 몇 시에 어떤 배달 음식을 많이 먹는가?

  • 시간대 필드를 열 선반에 올립니다.
  • 통화건수 필드를 행 선반에 올립니다.
  • 업종 필드를 마크 카드 색상에 올립니다.
  • 결과
    • 메뉴에 상관없이 저녁 시간에 배달 통화량이 가장 많습니다. 
    • 저녁 시간에는 치킨 주문이 많습니다.
    • 중국 음식은 점심 시간이 저녁 시간보다 주문이 많습니다. 

 

3) 요일 별 배달 음식은?

  • 요일 필드를 열 선반에 올립니다.
  • 통화건수 필드를 행 선반에 올립니다. 
  • 업종 필드를 마크 카드 색상에 올립니다.
  • 결론
    • 대체로 수요일, 금요일, 일요일에 배달 통화 건수가 많습니다.
    • 금요일에 비해 토요일에 건수가 떨어지는 것은 아마도 주말 외식이나 집에서 요리하는 경우가 많아서 일 것 같습니다.
    • 월요일에 건수가 떨어지는 경향은 보통 주말까지 일하고 월요일에 쉬는 업종이 많아서 일 것 같습니다.  

 

차원 필드는 주로 불연속형(파란색 알약)인 경우가 많으나 반드시 불연속형은 아닙니다.

 

 

2) 연속형과 불연속형

연속형 데이터는 말 그대로 연결성이 존재하는 데이터며, 불연속형 데이터는 연결성이 없고 각 데이터마다 의미를 가진 데이터입니다. 

 

화면에 표현되는 방식

연속형 데이터초록색 알약으로, 불연속형 데이터파란색 알약으로 표현됩니다. 예시로 Tableau에서 기본으로 제공하는 Sample - Superstore 데이터셋 Order 테이블의 Segment 필드 각 범주 데이터 별 Sales 필드의 합계를 바 차트로 시각화합니다.

  • 범주 데이터 Consumer, Corporate, Home Office를 가진 Segment 필드는 불연속형 파란색 알약으로 표현됩니다.
  • 판매 금액을 가진 Sales 필드는 연속형 초록색 알약으로 표현됩니다.
  • Tableau는 연속형, 불연속형 필드를 자동으로 인지하여 여기서는 가장 적절한 바 차트로 시각화합니다. 

 

축 (Axis) vs 레이블 리스트(List with Labels)

  • 연속형 필드를 행 또는 열 선반에 올리면, 축(Axis)이 생성됩니다.

 

  • 불연속형 필드를 행 또는 열 선반에 올리면, 필드의 각 범주 데이터가 표현됩니다. 각 범주 데이터 이름은 별칭 편집을 통해 변경할 수 있습니다.

 

그라데이션(Gradient) vs 다른 계열의 색상(Distinct Colors)

  • 연속형 필드를 마크 카드 색상에 올리면, 기본적으로 한 가지 색상으로 값에 따라 다른 톤으로 표현합니다.

 

  • 불연속형 필드를 마크 카드 색상에 올리면, 각 범주 데이터에 따라 다른 색상으로 표현합니다.

 

범주형 필터(Categorical Filter) vs 범위 설정(Range Scope)

  • 불연속형 필드(Ship Mode)필터 카드에 올리면, 각 범주 데이터(First Class, Same Day, Second Class, Standard Class)를 포함할지 여부를 체크할 수 있습니다. 

 

  • 연속형 필드(Profit)를 필터 카드에 올리면, 두 가지 방식의 필터 방식이 존재합니다.
    • 해당 필드의 Raw 데이터에 필터 적용 -> 필터링 값 범위 지정
    • 해당 필드의 집계값에 필터 적용 -> 필터링 값 범위 지정

 

차원과 측정값의 연속형과 불연속형

차원은 반드시 불연속형, 측정값은 반드시 연속형이 아닙니다. 차원, 측정값 모두 연속형, 불연속형이 존재할 수 있습니다. 

 

1) 연속형 차원

보편적으로 생각할 수 있는 불연속형 차원이 아닌, 연속형 차원을 고민해 볼 수 있는 경우는 필드 데이터가 0, 1, 2, 3, ... 과 같이 연속하는 숫자를 포함한 경우입니다. '서울', '인천', '대전' 등 연속성이 없는 데이터는 불연속형 차원만 가능합니다. 

연속형 차원의 예시로 각 Quantity 범주 데이터에 따른 Sales 합계를 시각화합니다. 

  • 최초 측정값으로 분류된 Quantity 필드를 열 선반에 올리면, 합계(Quantity) 알약이 생성됩니다.
  • 합계(Quantity) 알약 우클릭 -> 차원불연속형 선택
  • Sales 필드를 연속형 차원으로 행 선반에 올립니다. 
  • 결과
    • Tableau가 자동으로 바 차트로 시각화합니다.

 

  • 불연속형 Quantity 알약 우클릭 -> 연속형 선택 
  • 결과
    • 최종 Tableau가 자동으로 라인 차트로 시각화합니다.

 

결론적으로, 불연속형 차원은 Tableau가 자동으로 바 차트로 시각화하고, 연속형 차원은 Tableau가 자동으로 라인 차트로 시각화하는 차이만 존재합니다. 

 

연속형 차원 예시 ==> 이 예시가 좀 더 간편하게 기억하기 쉬운 것 같음!

  • 차원의 항목을 집계(카운트 등)하는 경우에는 연속형이다!

 

 

 

2) 불연속형 측정값

보편적으로 생각할 수 있는 연속형 측정값이 아닌, 불연속형 측정값을 고민해 볼 수 있는 경우는 필드 데이터가 측정값 필드의 집계 계산(SUM 등) 결과와 매칭 된 문자열을 가진 경우입니다.

불연속형 측정값의 예시로 각 Category 및 Sub-Category 필드의 범주 데이터 별 Profit 필드의 합계가 특정값보다 크면 'Profitable', 작으면 'Unprofitable' 문자열을 출력하도록 합니다. 

 

가장 먼저, Profit 필드의 합계가 특정값(10000) 보다 크면 'Profitable', 작으면 'Unprofitable'으로 계산하는 조건을 가진 필드를 새로 생성해야 합니다. 

  • Profit 필드 우클릭 -> 만들기 -> 계산된 필드 -> 생성할 필드명(Profitability) 및 조건문 작성
  • 작성한 조건을 가진 새로운 Profitablity 필드가 측정값으로 생성됩니다.

 

생성한 Profitability 필드 데이터의 'Profitable', 'Unprofitable'는 Profit 필드의 합계(SUM(Profit))에 대한 레이블일 뿐, 본질은 SUM(Profit)이기 때문에 측정값으로 인식합니다. 따라서 분기하는 차원에 따라 Profitable, Unprofitable 값이 변할 수 있습니다.

  • Category 차원으로 분기하면, 모두 Profitable을 가집니다.

 

  • Category 및 Sub-Category 필드로 분기하면, Profitable, Unprofitable 값을 모두 가집니다.

 

 


(참고)

Profit 필드의 합계가 아닌, Profit 필드 Raw 데이터가 특정값보다 크면 'Profitable', 작으면 'Unprofitable'으로 계산하는 조건을 가진 필드를 생성하면, 불연속형 측정값이 아닌, 불연속형 차원 필드로 인식됩니다. 아래 절차에 따라 필드를 생성합니다.

  • Profit 필드 우클릭 -> 만들기 -> 계산된 필드 -> 생성할 필드명(Profitability - Raw Level) 및 조건문 작성
  • 작성한 조건을 가진 새로운 Profitablity - Raw Level 필드가 차원으로 생성됩니다.
  •  

 

생성한 Profitability - Raw Level 필드 데이터의 'Profitable', 'Unprofitable'는 각 Raw 데이터 수치에 따라 매칭 됐기 때문에 차원으로 인식합니다.

Profit 필드의 합계(SUM(Profit))에 대한 레이블일 뿐, 본질은 SUM(Profit)이기 때문에 측정값으로 인식합니다. 따라서 분기하는 차원에 따라 Profitable, Unprofitable 값이 변할 수 있습니다.


불연속형 측정값 예시 ==> 이 예시가 좀 더 간편하게 기억하기 쉬운 것 같음!

  • 측정값을 항목으로 사용하는 경우에는 불연속형이다!

 

 

 

Tableau에서의 날짜

Tableau에서는 날짜 포맷(필드명 옆의 달력 모양)을 별도로 제공하며, 계산된 필드에서도 날짜와 관련된 다양한 함수를 제공합니다. 여기서는 날짜와 관련된 연속형 또는 불연속형과 관련된 내용만 정리합니다.

 

1) 불연속형 날짜

Tableau는 기본적으로 날짜를 불연속형으로 인식합니다. 최초 년(Order Date)을 분기한 분기(Order Date), 월(Order Date), 일(Order Date) 모두 불연속형입니다. 

 

이제 열 선반에 월(Order Date) 이외 필드는 모두 제거합니다.

  • 9월의 $307,650은 연도에 상관없이 9월의 모든 Sales 필드 데이터를 더한 값입니다. -> 따라서 하단 축이 '월'로만 표현됩니다.
  • 즉, 불연속형 날짜 단위(위 예시에서는 '월')는 상위 날짜 단위(위 예시에서는 '년')에 귀속되지 않고, 독립적으로 작동하는 것을 알 수 있습니다.

 

2) 연속형 날짜

불연속형으로 행 또는 열 선반에 올라간 날짜를 연속형으로 변경합니다.

  • 월(Order Date) 알약 우클릭 -> 연속형 월을 선택합니다.

 

  • 위 이미지에서 불연속형 월은 회색 글씨로 5월로 나오는데 반해, 연속형 월2015년 5월로 나오는 것을 확인할 수 있습니다. -> 따라서 하단 축이 '연도-월'로 표현됩니다.
  • 즉, 연속형 날짜 단위(위 예시에서는 '월')는 상위 날짜 단위(위 예시에서는 '년')에 귀속됩니다.

 

3) DATEPART 함수와 DATETRUNC 함수

  • DATEPART
    • 불연속형 날짜의 계층구조 중 특정 부분만 가져와서 사용하는 함수
    • 위 예시에서 열 선반에 올라가 있는 년(Order Date) 파란색 알약을 더블클릭하면 확인할 수 있습니다.
    • DATEPART는 말그대로 날짜의 일부분을 잘라서 가져온다는 의미

 

  • DATETRUNC
    • 연속형 날짜의 계층구조 중 최상단 단위부터 특정 단위까지 잘라서 사용하는 함수
    • 위 예시에서 열 선반에 올라가있는 년(Order Date) 초록색 알약을 더블클릭하면 확인할 수 있습니다.

 

 

3) Level of Detail, Level of Aggregation, Level of Granularity

Level of Detail이란 Tableau가 분기를 통해 데이터셋을 얼마나 세분화 할 수 있는지를 의미합니다. Tableau가 단순히 데이터를 간단한 절차로 빠르고 예쁘게 시각화할 수 있는 Tool의 개념을 넘어 데이터를 올렸을 때, 어떻게 작업하고, 데이터가 의미하는 바를 익힐 수 있습니다. 

  • more aggregated(더 집계된) = less granular(덜 세분화된) = less detailed(덜 상세한)
  • less aggregated = more granular = more detailed

 

(모듈 1) Tableau vs Excel

Tableau와 Excel을 비교합니다.

 

툴의 본질

Tableau Excel
데이터 시각화 도구 데이터 원본 그 자체 or 스프레드시트(숫자, 문자 데이터가 가로, 세로로 표현되어 있어서 데이터를 처리할 수 있는 프로그램)

 

데이터 탐색 목적

Tableau Excel
(Tableau와 Excel 중 어떤 것이 더 좋다기보다)데이터를 탐색하는 목적이 Quick Summary(빠른 요약)라면 Tableau가 큰 장점을 발휘함

 

표현 방식

Tableau Excel
그래프(chart) 중심(표현 방식 메뉴를 보면 표는 단 2개, 나머지는 모두 그래프!) 표(table) 중심

 

편집 방식

Tableau Excel
(어떠한 경우라도) 데이터 원본 편집 불가

다만 Tableau 안에서는 이름을 임의로 변경할 수 있음
필드 우클릭 -> 이름 바꾸기
필드 우클릭 -> 별칭 -> 각 범주 데이터 별칭 작성

데이터 원본 편집 가능


계산 방식

Tableau Excel
(기본적으로) 측정값을 집계 (sum, avg, min, max 등)해서 보여줌
단, Excel처럼 측정값을 있는 그대로 볼 수도 있음!
측정값을 있는 그대로 보여줌(row level에서)

 

 

(모듈 2) Aggregation in Tableau

Tableau는 집계(aggregation / detail)합니다.

  • 세세한 데이터보다는 집계 결과를 먼저 보여준다. -> 빠른 Summary가 가능한 이유
  • Excel은 반대로 작동합니다. 

Tableau는 항상 집계하기 때문에 데이터를 어느 수준의 depth, detail, granularity(세분성)로 분기해서 볼지 결정해야 합니다.

  • 즉, 데이터셋 한 개 row가 무엇을 의미하는지 파악해야 합니다.
  • 한 개 또는 여러 개의 필드를 조합하여 더 이상 분기할 수 없는 한 개 row 데이터를 찾아야 합니다.

참고로, Tableau의 집계는 Excel의 피벗 테이블과 동일하다고 볼 수 있습니다.

 

 

(모듈 3) Data Investigation in Tableau

Tableau에 올린 데이터셋을 시각화하기 앞서서 데이터셋을 탐색해야 합니다. 데이터셋 탐색은 아래 두 가지 절차대로 수행하며, Dental_Magic_HR 데이터셋으로 테스트합니다.

 

1) 데이터셋의 행과 열 사이즈 확인

  • 행 사이즈 확인
    • Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 행 선반에 올립니다.
      • 마크 레이블을 표시하면, 총 310개의 데이터가 존재함을 확인할 수 있습니다. 

 

2) 데이터셋의 각 행(row)의 의미 파악

Tableau는 태생적으로 집계하기 때문에 데이터 한 줄의 의미 파악이 무엇보다 중요합니다. 데이터셋의 각 행이 의미하는 바를 파악하기 위해 하이라이트 테이블을 사용합니다.

 

2-1) 한 개 또는 두 개 이상의 필드의 조합으로 데이터셋의 최종 디테일까지 분기할 수 있는 경우

 

(예시 1) Dental_Magic_HR  데이터셋 

  • Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 마크 카드 색상에 올립니다.
  • 한 개 필드 또는 두 개 이상의 필드의 조합을 행 선반에 올려가면서 하이라이트 테이블 범례가 '1'이 나오는 경우를 찾습니다. 
    • Dental_Magic_HR 데이터셋은 First Name 필드와 Last Name 필드의 조합으로 최종 분기할 수 있으며, 각 행(row)은 직원 한 명에 대한 정보임을 알 수 있습니다.
    • 즉, 데이터 개수 310건은 인원수 310명을 의미합니다.

 

이제 Employment Status 필드 범주 데이터에 따른 Age를 시각화합니다. 

  • Employment Status 필드를 열 선반에 올립니다.
  • Age 필드를 행 선반에 올린 후에 집계 방식을 평균으로 변경합니다.
    • (참고) Tableau는 기본적으로 Age의 합계로 집계하는데, 나이는 합계보다는 평균이 더 의미 있을 것입니다.
  • 결과
    • Voluntarily Terminated(자발적 퇴사)한 직원들의 평균 나이는 40.614세입니다.

 

(예시 2) KCB Credit 데이터셋 탐색

1) 행과 열 사이즈 확인

  • Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 행 선반에 올리고, 마크 레이블을 표시합니다.
    • 총 3,888개의 row 데이터로 구성되어 있습니다. 
    • 화면 좌측을 통해 필드 개수가 26개임을 알 수 있습니다.

 

2) 데이터셋의 각 행(row)의 의미 파악

  • Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 마크 카드 색상에 올립니다.
  • 차원 필드를 행 선반에 올려가면서 하이라이트 테이블 범례가 '1'이 되는 경우를 찾습니다.
  • 결론
    • KCB Credit 데이터셋은 Pop Cd(지역+연령), Year, Month 필드의 조합으로 최종 분기할 수 있으며, 각 행(row)은 각 지역 및 연령대 그룹의 월별 데이터임을 알 수 있습니다.
    • 각 지역 및 연령대 그룹의 월별 데이터가 3,888건임을 알 수 있습니다. 

 

이제 지역 및 연령대 그룹의 월별 카드 사용 금액(Montly Card Spend 필드)을 확인합니다.

  • Pop Cd, Year, Month 필드를 행 선반에 올립니다.
  • Montly Card Spend 측정값 필드를 마크 카드 색상에 올립니다.

 

추가로 지역 및 연령대 그룹의 총인구수를 확인하기 위해 Population 필드를 올립니다.

  • L011(서울 지역 10대 그룹)의 2016년 1월의 총인구수가 특별히 적은 것을 확인할 수 있습니다. -> 이는 최초 데이터 수집 및 가공 시에 오류가 있었다고 합니다. 
  • 이처럼, 데이터의 특이점은 없는지 매번 확인하는 것이 중요합니다.

 

2-2) 한 개 또는 두 개 이상의 필드의 조합으로 데이터셋의 최종 디테일까지 분기할 수 없는 경우

다양한 산업에서 수집하는 데이터는 대부분 깔끔하게 정리되어 있지 않습니다. 즉, 데이터셋의 최종 디테일까지 분기할 수 없는 경우가 훨씬 많습니다. 이러한 경우에 데이터셋을 탐색할 수 있는 방법을 정리합니다.

 

(예시) Google Play Apps

1) 행과 열 사이즈 확인

Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 행 선반에 올리고, 마크 레이블을 표시합니다.

  • 총 10,841개의 row 데이터로 구성되어 있습니다. 
  • 화면 좌측을 통해 필드 개수가 13개임을 알 수 있습니다.

 

2) 데이터셋의 각 행(row)의 의미 파악

  • Tableau에서 기본적으로 제공하는 레코드 카운트 측정값 필드를 마크 카드 색상에 올립니다.
  • 차원 필드를 행 선반에 올려가면서 하이라이트 테이블 범례가 '1'이 되는 경우를 찾습니다.
  • 결론
    • 한 개 또는 여러 개의 필드를 조합해도 데이터셋의 최종 디테일까지 분기할 수 없습니다.

 

  • 테이블 범례가 '1'이 아닌 데이터를 좀 더 자세히 분석하기 위해 필터 카드를 사용합니다.
    • 마크 카드 색상에 올라간 레코드 카운트 측정값 필드를 필터 카드에 Drag & Drop
    • 값 범위를 2~9로 변경합니다.
    • 의문점8 Ball Pool이라는 APP은 왜 7개 row 데이터나 존재할까?

 

  • 위 의문점을 파악하기 위해 8 Ball Pool APP을 포함한 데이터를 확인합니다. 
    • 8 Ball Poll 마크 클릭 -> 데이터 보기 -> 전체 데이터
    • 의문점: 각 8 Ball Poll APP의 리뷰 개수가 다른 것이 가장 눈에 들어옵니다.

 

  • 리뷰 개수에 대하여 좀 더 세밀하게 살펴보기 위해 APP 별 리뷰 개수 합계를 시각화합니다.
    • 언뜻 보면 Instagram App의 리뷰 개수가 많아 보이지만 이는 확실히 분석해봐야 합니다!

 

  • Instagram을 포함한 데이터를 확인합니다.
    • Instagram bar 클릭 -> 데이터 보기 -> 전체 데이터
    • 결과
      • Instagram App은 총 4개 row 데이터가 있으며, 리뷰 개수가 모두 다름을 알 수 있습니다. -> 이는 어떤 지표를 기준으로 삼았는지는 불명확하지만, Google PlayStore를 여러 번 크롤링하여 데이터를 수집했음을 추측할 수 있습니다.
        • Google Play Apps 데이터셋을 만든 것이 아니기 때문에 리뷰 개수가 변할 때마다 데이터를 수집한 것인지 등의 기준 지표는 100% 클리어하게 판단할 수 없습니다!
      • 즉, 위 바 차트의 Instagram 리뷰 개수는 4개 row 데이터의 리뷰 개수를 모두 합친 값임을 알 수 있습니다. -> 이는 정확한 APP의 리뷰 개수라고 볼 수 없습니다. 

 

 

  • 최종 각 APP 당 리뷰 개수를 한 개로 만들어 주기 위한 새로운 계산된 필드를 생성합니다.
    • 새로운 계산된 필드는 각 APP 별 가장 큰 리뷰 개수를 가져오는 계산을 포함하도록 합니다
      • 이유
        • 리뷰 개수는 시간의 흐름에 따라 증가하는 특성이 있기 때문에 각 APP 리뷰 개수를 가장 최근 리뷰 개수로 정의한다고 할 때, 가장 큰 값을 가져오는 것이 합리적인 것 같습니다.
      • 결과
        • 즉, 한 개 리뷰 개수만 가진 APP은 그대로 해당 리뷰 개수를 가져오고, 여러 개의 리뷰 개수를 가진 APP은 가장 큰 리뷰 개수를 가져옵니다.
      • 절차
        • 화면 좌측 데이터 탭 -> 화살표 -> 계산된 필드 만들기 -> Reviews per APP 필드 계산식 정의
          • 계산식은 마치 파이썬 Dictionary의 {key: value}와 비슷한 형태입니다!
  •  

 

 

  • 생성한 Reviews per App 필드를 열 선반에 올리고, 내림차순으로 정렬합니다..
    • 실제로는 Facebook APP의 리뷰 개수가 가장 많은 것을 알 수 있습니다! 

 

  • 즉, Google Play의 총 레코드 개수 10,841건은 총 중복되는 App을 포함한 개수를 의미합니다.

 

 

마무리

이번 포스팅에서는 Tableau에서 정의하는 '차원과 측정값', '연속형과 불연속형'에 대하여 정리하였습니다. 
또한, Tableau가 작동하는 근본 원리를 정리하였습니다. 모듈 1에서는 Excel과 비교했을 때 Tableau의 특징을, 모듈 2에서는 Tableau의 '집계' 특성을, 모듈 3에서는 데이터 시각화에 앞서서 Tableau를 활용한 '데이터 탐색' 절차로 '데이터셋의 행과 열 사이즈 확인' 및 '데이터셋의 각 한 개 row 데이터의 의미 파악'을 정리하였습니다. 

감사합니다 :)