> 이제 실전 시각화를 위한 데이터를 준비하는 과정에 들어왔다! 탐색/전처리/결합하는 과정을 실습
<데이터 모양>
-long form 데이터를 사용해야 함> 피벗 사용( 데이터 열 모두 선택 후 우클릭>피벗
-데이터 해석기: 제목/ 빈 셀 인식 후 태블로 적합한 것으로 바꿔줌.
<데이터 탐색>
데이터 보기> 필드 설명 보기> 차원과 측정값 분류>기본 속성 조정>레코드 수 확인
- 더했을 때 말이 안되는 건 차원, 된다면 측정값
- 기본 속성 변경이 필요한 데이터는 변경해주기
- 태블로에서 이탤릭체로 되어 있는 것은 측정값, 측정값이름, 카운트(테이블에서 각 테이블의 레코드 수를 자동으로 생성), 위도, 경도 필드
- 카운트(orders)를 색상에 넣으면 옆에 범례가 생기면서 1~14까지 있는 것을 확인하면서 order ID 필드가 전체 데이터 원본을 쪼개주지는 않는다는 것을 확인 가능 , 거기서 product name으로 쪼개면 웬만한 데이터가 쪼개지는 것(1~2개)을 확인 가능(하나의 주문 번호 안에서 물건을 사면 물건별로 레코드들이 구분된다는 것을 알 수 있음. 2개로 표시된 데이터를 찾아서 해당 셀만 볼 수 있게 하고, 데이터를 살펴보면 다른 것은 동일하지만 quantity에서 차이가 나는 것을 확인할 수 있음.
<데이터 전처리>
- 데이터 분할: custom split해서 스페이스로 구분 first는 스페이스 기준 앞부분, last는 뒷부분
-시군구명을 더블클릭하고, 세부정보와 색상에 넣었는데도 unknowns가 뜸(위치 데이터 간 계층이 설정되어 있지 않기 때문) 클릭해서 위치 편집> 1. 주/시도에서 서울특별시로 고정 or 2. 시도명을 시군구명 위에 드래그해서 계층 설정, 시도명을 시군구명 위에
<데이터 관계와 관계 계산>
1. 데이터 관계
> 두 테이블 간의 관계를 설정하지만, 하나의 테이블이 되지는 않음
> 자동으로 적절한 조인 생성
> 모든 행 및 열 데이터 사용 가능
> 집계 값이 중복되지 않음
- 데이터 소스에서 관계 생성 및 설정(성능 옵션 웬만하면 연결 하지 말자)
- 왼쪽이 people, 오른쪽이 orders 눌렀을 때 나타나는 테이블, orders에 people manamer 정보 없음: 각각의 테이블 고유 유지
- 리턴 연결해주면 리턴된 order id만 나타남
- join 아직 가능 : 테이블을 더블클릭하고 그 안에 조인 구성 가능, 태블로 공간 조인은 따로 공부
2. 데이터 관계 계산
-데이터에서 order ID분할 > 자동 생성된 열들을 모두 클릭해 우클릭, 값복사> 새로운 엑셀 파일에 복사해서 열이름 바꿔주고 저장(relation sample.xlsx)
- 태블로에 불러와서 시트 1을 처음 연결했을 때는 관계설정을 해주지 않아 오류라고 뜸 사실 abbr+year+ID를 다 포함한것이 orders이므로, Sheet1 옵션 마지막에 계산된 필드 만들어주면서 원래 order 모양처럼 관계식 만들어주기
- 일단 데이터 형식 무시하고 확인해준 뒤, 연결된 Sheet1 더블클릭해서 각 자료형 문자형으로 바꿔주기, 근데도 데이터 미리보기가 안된다면 관계선에 들어가서 다시 한번 계산된 필드 클릭 > 그렇게 되면 다른 테이블이더라도 관계가 잘 설정되었기 때문에 데이터 계산이 잘 됨
3. 데이터 유니온
- 서로 다른 테이블을 세로로 합치는 것, 단, 같은 데이터 연결 타입이어야하고, 모든 테이블에서 필드명과 데이터 타입이 같아야 함
- 새로운 유니온 생성> 캔버스로 드래그>유니온 팝업 창> 유니온 할 드래그
4. Order of Operations
- 태블로 계산과 필터의 작동 순서= 쿼리 파이프라인)
- 쿼리 파이프라인에 따라 순서대로 실행됨.
- 작동 순서와 사용자가 예상하는 순서가 다를 경우 작업이 실행되는 순서를 변경할 수 있음. 예를 들어 차원 필터를 컨텍스트 필터로 변경
> 데이터 추출 필터: 전체 데이터 원본이 범위, 다른 모든 필터에 앞서 적용되어 반환되는 레코드 수 줄일 수 있음
> 데이터 원본 필터: 원본 자체에 제한 둠
> 컨텍스트 필터: 각 워크시트가 범위. 각 워크시트 내에서 사용자가 정의하는 다른 모든 필터 종속
> 조건 필터
> 상위 필터
#국비지원교육 #내일배움카드로 듣고 있는 데이터 시각화 강의