[데이터시각화] 0. 훌륭한 시각화

Author

고경수

Published

January 22, 2024

전북대학교 통계학과 최규빈 교수님 강의 정리내용입니다.

https://guebin.github.io/DV2023/

훌륭한 시각화

Edward Tufte

” 최소한의 잉크로 많은 정보를 전달할 수 있다면 그것이 바로 좋은 그래프이다. 작은 지면 내에서 잉크를 최대한 적게 써서 짧은 시간 안에 많은 영감을 주어야 한다. ”

  • 어려운 점:
  1. 센스부족: 센스가 없어서 hue/style을 이용하여 그룹을 구분할 생각을 못함
  2. 개념부족: tidydata (=tidy dataframe, long form dataframe) 형태로 데이터를 정리할 생각을 못함
  3. 코딩못함: tidydata로 데이터를 변형하는 코드를 모름
  • 해결하는 방법:
  1. 센스부족: 훌륭한 시각화를 많이 보면 해결할 수 있음.
  2. 개념부족: tidydata에 대한 개념을 배우면 해결할 수 있음.
  3. 코딩못함: 코딩공부 열심히 (시각화 코드가 중요한게 아니고, pandas를 엄청 잘해야함)

시각화 예시

남미국가들의 국방력

  • 쓸모없는 그래픽

- 아래가 더 우수한 그림이다. 더 정확한 비교가 가능

- 그리고 위의 그림보다 아래의 그림이 더 우수한 시각화이다.

  • 브라질의 국방력은 모든 지표에서 1등이다. 1.군인수도 많고(왼쪽그림) 2.예산도 많이 투자하는 것 같다(가운데그림).
  • 그런데 인구로 인한 결과인 것 같다(오른쪽그림).

  • 사실 지표들을 인구수로 나누고 보니까 1.인구당 군인수도 많지 않고(왼쪽그림) 2.인구당 국방비 지출도 3등 수준이고(가운데 그림) 3.군인당 교육투자비도 높지 않다(오른쪽그림).
  • 즉 내실이 없다는 의미

스페인의 실업률

  • 명암으로 왜 크기비교를 하는 것인가?

- 비교를 위해서는 bar plot이 더 우수하다.

은행들의 시가 총액

- 회색이 before, 검은색이 after

  • 크기 비교는 버블로 하는 것이 아니다.

- 우리 눈은 작은원이 큰원의 절반정도 차지한다고 느껴진다.

- 그렇지만 실제로는 아래와 같음

- 버블차트는 크기를 왜곡시킨다.

분열된 유권자들

- 하지만 아래의 버블차트는 우수하다. (왜? 크기비교 자체가 목적이 아니므로)

  • 선거지도는 수치비교에 별로 관심이 없다.
  • 대신에 민주당표와 공화당표가 어떤 지역에 몰렸는지 파악하는 것이 중요.
  • 따라서 aes중 가장 중요한 \(x, y\)를 모두 지역정보를 표현하기 위해 투자함

좋은 aes 속성들

  • 위로 갈수록 좋다.

스티븐 잡스의 시각화

  • 크기비교에서 3D plot은 좋지 않음

  • 그런데 스티븐 잡스는 아래와 같이 시각화를 했음.

  • 잘 몰라서 한 것일까? 고의로 한 것 일까?
  • ref: https://paragraft.wordpress.com/2008/06/03/the-chart-junk-of-steve-jobs/

시각화의 정석

- 시간경과에 따른 변화를 보여주고 싶으면 라인플랏, 비교를 하고 싶다면 바플랏, 관계를 알고 싶다면 산점도.