QCQA_1기

TIL_3W3D_데이터 전처리 & 시각화 (+데일리 루틴)

story3395 2025. 1. 2. 19:56

[데이터 시각화] - 목적

  • 패턴 발견 및 이해
  • 의사 결정 지원
  • 효과적인 커뮤니케이션

[Maplotlib]

: 파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공

import matplotlib.pyplot as plt

 

[데이터 셋 불러오기]

 

강의에서는 Seaborn이라는 라이브러리에서 불러올 수 있는 내장 데이터 셋을 가지고 실습을 진행

  • iris 데이터셋: 붓꽃의 꽃잎과 꽃받침의 길이와 너비를 포함한 데이터셋
  • tips 데이터셋: 음식점에서의 팁과 관련된 정보를 담고 있는 데이터셋
  • titanic 데이터셋: 타이타닉 호 승객들의 정보를 포함한 데이터셋
  • flights 데이터셋: 연도별 항공편 정보를 담고 있는 데이터셋
  • planets 데이터셋: 외계 행성 발견에 대한 정보를 담고 있는 데이터셋
import seaborn as sns

# iris 데이터셋 불러오기
iris = sns.load_dataset('iris')
# tips 데이터셋 불러오기
tips = sns.load_dataset('tips')
# titanic 데이터셋 불러오기
titanic = sns.load_dataset('titanic')
# flights 데이터셋 불러오기
flights = sns.load_dataset('flights')
# planets 데이터셋 불러오기
planets = sns.load_dataset('planets')
데이터셋에 들어있는 정보

iris 주요 컬럼: sepal_length, sepal_width, petal_length, petal_width, species
tips 주요 컬럼: total_bill, tip, sex, smoker, day, time, size
titanic 주요 컬럼: survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, alone, deck, embark_town, alive, alone
flights 주요 컬럼: year, month, passengers
planets 주요 컬럼: planet, method, orbital_period, mass, year

[Matplotlib] - plot()

 

pandas의 plot() 메서드는 DataFrame 객체에서 데이터를 시각화하는데 사용
plot()에서드를 호출하고 x,y인수에 각각 x축과 y축에 해당하는 열을 지정

 

예시)

 

[Matplotlib] - 스타일 설정

plot() 메서드를 호출할 때 다양한 스타일 옵션을 사용하여 그래프의 스타일을 설정
  • color : 색상은 문자열로 지정할 수 있으며, 'blue', 'green', 'red', 'cyan', 'magenta', 'yellow', 'black', 'white'와 같은 기본 색상 이름 또는 RGB 값을 직접 지정
  • linestyle: 선의 스타일은 '-' (실선), '--' (대시선), ':'(점선),'-.' (점-대시선) 등으로 지정
  • marker: 마커는 데이터 포인트를 나타내는 기호로, 'o' (원), '^' (삼각형), 's' (사각형), '+' (플러스), 'x' (엑스) 등 다양한 기호로 지정
  • legend() 메서드 : 그래프의 범례를 추가
  • set_xlabel(), set_ylabel(), set_title() 메서드: x축과 y축의 레이블 및 그래프 제목을 추가
  • text() 메서드: 그래프의 특정 위치에 텍스트를 추가

예시)

 

[Matplotlib] - 그래프 사이즈 설정 2가지 방법

 

1. Figure 객체 생성 및 사이즈 설정 

 

-> 그래프 사이즈 변화가 크게 없을 수 있음 -> 2번 방법 사용

 

2. Subplots() , ax=ax 이용


[그래프 종류]

  1. 선 그래프 (Line plot)
  2. 막대 그래프 (Bar plot)
  3. 히스토그램 (Histogram)
  4. 파이 차트 (Pie chart)
  5. 박스 그래프 (Box plot)
  6. 산점도 (Scatter plot)
Line Plot 연속형 데이터 데이터의 변화 및 추이를 시각화
Bar Plot 범주형 데이터 카테고리 별 값의 크기를 시각적으로 비교
Histogram 연속형 데이터 데이터 분포, 빈도, 패턴 등을 이해
Pie Chart 범주형 데이터의 비율 범주별 상대적 비율을 부채꼴 모양으로 시각화
Box Plot 연속형 데이터의 분포 중앙값, 사분위수, 최소값, 최대값, 이상치 확인
Scatter Plot 두 변수 간 관계 변수 간의 관계, 군집, 이상치 등 확인

 

예시)

선 그래프
막대 그래프
히스토그램
파이 차트
박스 그래프
산점도

 


데이터 전처리&시각화 라이브세션(1월2일)

튜터님 강의 자료: 

https://colab.research.google.com/drive/1mELjMkjM1osnrGszozMuz-m0EB-tSp0R

 

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com


[데일리루틴]

 

알고리즘, SQL 3문제씩 풀었다-!!