본 게시물은 아래의 글을 참조하여 작성하였습니다.
https://data-gongbu.tistory.com/44
Seaborn이란 파이썬의 시각화 도구인 matplotilib를 더 편하게 사용할 수 있도록 만든 라이브러리이다.
seaborn은 matplotlib 대비 손쉽게 그래프를 그리고 그래프 스타일 설정을 할 수 있다는 장점이 있다.
#라이브러리 임포트
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#seaborn에서 제공하는 flights 데이터 셋을 사용
flights = sns.load_dataset('flights')
#그래프 사이즈 설정
plt.figure(figsize=(12, 3))
이 게시물에서는 seabron에 내장된 penguins dataset을 사용하여 실습을 진행해 볼 것이다.
panguins dataset의 변수들을 아래와 같다.
- species : 펭귄 종
- island : 서식지
- bill_length_mm : 부리 길이
- bill_depth_mm : 부리 위아래 두께
- flipper_length_mm : 팔 길이
- body_mass_g : 몸무게
- sex : 성별
import seaborn as sns
data = sns.load_dataset('penguins') # (344 rows x 7 columns)
: 결측값을 제거하는 메소드
데이터를 반환해줄 뿐 처음 형태를 바꾸진 않음
종에 따른 몸무게 분포는 다음과 같이 나타낸다.
sns.barplot(data = data, x = 'species', y = 'body_mass_g')
종에 따른 부리 뚜께에 대한 박스 플랏은 다음과 같이 나타낸다.
sns.boxplot(data = data, x = 'species', y = 'bill_depth_mm' )
종에 따른 부리크기 분포를 성별에 따라 보여주는 violineplot은 다음과 같다
sns.violinplot(data = data, x = 'species', y = 'bill_depth_mm', hue= 'sex')
서식지에 따른 팔 길이를 표현하면 다음과 같다.( 이건 x축에 명시적인 숫자가 있으면 더 좋을거 같은데 펭귄데이터로는 좀 보여주기 무리)
sns.swarmplot(data=data, x="island", y="flipper_length_mm")
lineplot 상에 옅게 칠해진 백그라운드는 해당 범위에 있는 수치값의 에러에 대한 허용 범위를 의미함
이 에러 범위 조정하고 싶으면 ci를 설정해주면 됨!
sns.lineplot(data = data, x = 'body_mass_g', y = 'flipper_length_mm',ci=None)
성별에 따른 팔길이와 몸무게 산점도는 다음과 같음
sns.scatterplot(data = data, x ='flipper_length_mm', y = 'body_mass_g', hue = 'sex')
우선 heatmap을 그리기 위해 상관 계수를 구해보자
corr = data.corr()
구해진 상관계수를 heapmap에 그려보면 다음과 같다.
annot옵션은 상관계수 값 표시
sns.heatmap(data = corr, square= True, cmap = 'Blues',annot=True)
[혼자 공부하는 머신러닝+딮러닝]데이터 다루기 - 데이터 전처리 (1) | 2023.10.06 |
---|---|
[혼자 공부하는 머신러닝+딮러닝]데이터 다루기 - 훈련 세트와 테스트 세트 (0) | 2023.10.05 |
[Pandas] 판다스 데이터프레임(DataFrame) (0) | 2023.09.20 |
[Pandas] 판다스 시리즈(Series) (0) | 2023.09.20 |
[Pandas] Numpy 기초 (0) | 2023.09.19 |