본문 바로가기

카테고리 없음

[패스트캠퍼스] 데이터시각화 강의 3주차 학습일지(2)

> 이제 실전 시각화를 위한 데이터를 준비하는 과정에 들어왔다! 탐색/전처리/결합하는 과정을 실습

 

<데이터 모양>

-long form 데이터를 사용해야 함> 피벗 사용( 데이터 열 모두 선택 후 우클릭>피벗

-데이터 해석기: 제목/ 빈 셀 인식 후 태블로 적합한 것으로 바꿔줌. 

 

<데이터 탐색>

데이터 보기> 필드 설명 보기> 차원과 측정값 분류>기본 속성 조정>레코드 수 확인

- 더했을 때 말이 안되는 건 차원, 된다면 측정값

- 기본 속성 변경이 필요한 데이터는 변경해주기 

- 태블로에서 이탤릭체로 되어 있는 것은 측정값, 측정값이름, 카운트(테이블에서 각 테이블의 레코드 수를 자동으로 생성), 위도, 경도 필드

- 카운트(orders)를 색상에 넣으면 옆에 범례가 생기면서 1~14까지 있는 것을 확인하면서 order ID 필드가 전체 데이터 원본을 쪼개주지는 않는다는 것을 확인 가능 , 거기서 product name으로 쪼개면 웬만한 데이터가 쪼개지는 것(1~2개)을 확인 가능(하나의 주문 번호 안에서 물건을 사면 물건별로 레코드들이 구분된다는 것을 알 수 있음.  2개로 표시된 데이터를 찾아서 해당 셀만 볼 수 있게 하고, 데이터를 살펴보면 다른 것은 동일하지만 quantity에서 차이가 나는 것을 확인할 수 있음. 

 

<데이터 전처리>

- 데이터 분할: custom split해서 스페이스로 구분 first는 스페이스 기준 앞부분, last는 뒷부분

데이터를 지리적 역할/날짜형 등 알맞게 바꾸어줌
데이터 숨기게 되면 워크시트에서도 사라지고, 톱니바퀴에서 숨겨진 필드 표시 가능(이 경우에도 워크시트에서는 회색처리가 되면서 사용할 수 없지만 사용하고 싶다면 우클릭해서 숨기기 취소해서 가능)

-시군구명을 더블클릭하고, 세부정보와 색상에 넣었는데도 unknowns가 뜸(위치 데이터 간 계층이 설정되어 있지 않기 때문) 클릭해서 위치 편집> 1. 주/시도에서 서울특별시로 고정 or 2. 시도명을 시군구명 위에 드래그해서 계층 설정, 시도명을 시군구명 위에

 

 

1. 위치편집
2. 계층 설정/ 하지만 나는 버전이 미국껄로 되어 있어서 그런지 직접 위치 편집을 해줘야 됐었음
결합된 필드를 만들어서 레이블에 넣으면 결합된 것이 생성

 

데이터 소스에서도 해당 열에 우클릭해서 계산된 필드 만들 수 있음, 중간에 공간 삽입하고 싶으면 [시도명]+' '+[시군구명] 입력

 

<데이터 관계와 관계 계산>

 

1.  데이터 관계

 > 두 테이블 간의 관계를 설정하지만, 하나의 테이블이 되지는 않음

 > 자동으로 적절한 조인 생성

 > 모든 행 및 열 데이터 사용 가능

 > 집계 값이 중복되지 않음 

 

- 데이터 소스에서 관계 생성 및 설정(성능 옵션 웬만하면 연결 하지 말자)

- 왼쪽이 people, 오른쪽이 orders 눌렀을 때 나타나는 테이블, orders에 people manamer 정보 없음: 각각의 테이블 고유 유지

 

- 리턴 연결해주면 리턴된 order id만 나타남

- join 아직 가능 : 테이블을 더블클릭하고 그 안에 조인 구성 가능, 태블로 공간 조인은 따로 공부

 

 

2. 데이터 관계 계산

-데이터에서 order ID분할 > 자동 생성된 열들을 모두 클릭해 우클릭, 값복사> 새로운 엑셀 파일에 복사해서 열이름 바꿔주고 저장(relation sample.xlsx)

- 태블로에 불러와서 시트 1을 처음 연결했을 때는 관계설정을 해주지 않아 오류라고 뜸 사실 abbr+year+ID를 다 포함한것이 orders이므로, Sheet1 옵션 마지막에 계산된 필드 만들어주면서 원래 order 모양처럼 관계식 만들어주기

- 일단 데이터 형식 무시하고 확인해준 뒤, 연결된 Sheet1 더블클릭해서 각 자료형 문자형으로 바꿔주기, 근데도 데이터 미리보기가  안된다면 관계선에 들어가서 다시 한번 계산된 필드 클릭 > 그렇게 되면 다른 테이블이더라도 관계가 잘 설정되었기 때문에 데이터 계산이 잘 됨

 3. 데이터 유니온

- 서로 다른 테이블을 세로로 합치는 것, 단, 같은 데이터 연결 타입이어야하고, 모든 테이블에서 필드명과 데이터 타입이 같아야 함

- 새로운 유니온 생성> 캔버스로 드래그>유니온 팝업 창> 유니온 할 드래그 

 

4. Order of Operations

- 태블로 계산과 필터의 작동 순서= 쿼리 파이프라인)

 - 쿼리 파이프라인에 따라 순서대로 실행됨.

- 작동 순서와 사용자가 예상하는 순서가 다를 경우 작업이 실행되는 순서를 변경할 수 있음. 예를 들어 차원 필터를  컨텍스트 필터로 변경

   > 데이터 추출 필터: 전체 데이터 원본이 범위, 다른 모든 필터에 앞서 적용되어 반환되는 레코드 수 줄일 수 있음

   > 데이터 원본 필터: 원본 자체에 제한 둠

   > 컨텍스트 필터: 각 워크시트가 범위. 각 워크시트 내에서 사용자가 정의하는 다른 모든 필터 종속

   > 조건 필터

   > 상위 필터

     

- 아래의 예제를 보면, 행에 있는 customer name를 복사하여 필터에 넣을 때 상위 열명만 보게 설정할 수 있음. 그런데 뉴욕에 있는 상위 열명을 보기 위해 시티도 필터에 넣으면 다섯명만 나오는 것을 확인할 수 있는데, 상위 열명 필터가 시티보다 상위 필터에 있기 때문> 시티 필터 우클릭해서 컨테스트 추가 해주면, 뉴욕에 있는 상위 열명 을 알 수 있게 됨. 

 

 

#국비지원교육 #내일배움카드로 듣고 있는 데이터 시각화 강의