[데이터 시각화] - 목적
- 패턴 발견 및 이해
- 의사 결정 지원
- 효과적인 커뮤니케이션
[Maplotlib]
: 파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공
import matplotlib.pyplot as plt
[데이터 셋 불러오기]
강의에서는 Seaborn이라는 라이브러리에서 불러올 수 있는 내장 데이터 셋을 가지고 실습을 진행
- iris 데이터셋: 붓꽃의 꽃잎과 꽃받침의 길이와 너비를 포함한 데이터셋
- tips 데이터셋: 음식점에서의 팁과 관련된 정보를 담고 있는 데이터셋
- titanic 데이터셋: 타이타닉 호 승객들의 정보를 포함한 데이터셋
- flights 데이터셋: 연도별 항공편 정보를 담고 있는 데이터셋
- planets 데이터셋: 외계 행성 발견에 대한 정보를 담고 있는 데이터셋
import seaborn as sns
# iris 데이터셋 불러오기
iris = sns.load_dataset('iris')
# tips 데이터셋 불러오기
tips = sns.load_dataset('tips')
# titanic 데이터셋 불러오기
titanic = sns.load_dataset('titanic')
# flights 데이터셋 불러오기
flights = sns.load_dataset('flights')
# planets 데이터셋 불러오기
planets = sns.load_dataset('planets')
데이터셋에 들어있는 정보
iris 주요 컬럼: sepal_length, sepal_width, petal_length, petal_width, species
tips 주요 컬럼: total_bill, tip, sex, smoker, day, time, size
titanic 주요 컬럼: survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, alone, deck, embark_town, alive, alone
flights 주요 컬럼: year, month, passengers
planets 주요 컬럼: planet, method, orbital_period, mass, year
[Matplotlib] - plot()
pandas의 plot() 메서드는 DataFrame 객체에서 데이터를 시각화하는데 사용
plot()에서드를 호출하고 x,y인수에 각각 x축과 y축에 해당하는 열을 지정
예시)
[Matplotlib] - 스타일 설정
plot() 메서드를 호출할 때 다양한 스타일 옵션을 사용하여 그래프의 스타일을 설정
- color : 색상은 문자열로 지정할 수 있으며, 'blue', 'green', 'red', 'cyan', 'magenta', 'yellow', 'black', 'white'와 같은 기본 색상 이름 또는 RGB 값을 직접 지정
- linestyle: 선의 스타일은 '-' (실선), '--' (대시선), ':'(점선),'-.' (점-대시선) 등으로 지정
- marker: 마커는 데이터 포인트를 나타내는 기호로, 'o' (원), '^' (삼각형), 's' (사각형), '+' (플러스), 'x' (엑스) 등 다양한 기호로 지정
- legend() 메서드 : 그래프의 범례를 추가
- set_xlabel(), set_ylabel(), set_title() 메서드: x축과 y축의 레이블 및 그래프 제목을 추가
- text() 메서드: 그래프의 특정 위치에 텍스트를 추가
예시)
[Matplotlib] - 그래프 사이즈 설정 2가지 방법
1. Figure 객체 생성 및 사이즈 설정
-> 그래프 사이즈 변화가 크게 없을 수 있음 -> 2번 방법 사용
2. Subplots() , ax=ax 이용
[그래프 종류]
- 선 그래프 (Line plot)
- 막대 그래프 (Bar plot)
- 히스토그램 (Histogram)
- 파이 차트 (Pie chart)
- 박스 그래프 (Box plot)
- 산점도 (Scatter plot)
Line Plot | 연속형 데이터 | 데이터의 변화 및 추이를 시각화 |
Bar Plot | 범주형 데이터 | 카테고리 별 값의 크기를 시각적으로 비교 |
Histogram | 연속형 데이터 | 데이터 분포, 빈도, 패턴 등을 이해 |
Pie Chart | 범주형 데이터의 비율 | 범주별 상대적 비율을 부채꼴 모양으로 시각화 |
Box Plot | 연속형 데이터의 분포 | 중앙값, 사분위수, 최소값, 최대값, 이상치 확인 |
Scatter Plot | 두 변수 간 관계 | 변수 간의 관계, 군집, 이상치 등 확인 |
예시)
데이터 전처리&시각화 라이브세션(1월2일)
튜터님 강의 자료:
https://colab.research.google.com/drive/1mELjMkjM1osnrGszozMuz-m0EB-tSp0R
[데일리루틴]
알고리즘, SQL 3문제씩 풀었다-!!
'QCQA_1기' 카테고리의 다른 글
TIL_4W1D_데이터 전처리&시각화 개인과제 (0) | 2025.01.06 |
---|---|
TIL_3W4D_라이브 세션 & 아티클 스터디 (0) | 2025.01.03 |
TIL_3W2D_데이터 전처리 & 시각화 (+세션) (0) | 2024.12.31 |
TIL_3W1D_데이터 리터러시 (0) | 2024.12.30 |
TIL_2W4D_데이터 분석 파이썬 종합반 5주차(알면 유용한 파이썬 문법들!) (0) | 2024.12.27 |