[Matplotlib 강좌 – 3] Matplotlib 그래프 종류 마스터하기: 라인, 스캐터, 히스토그램, 바, 파이, 박스, 에러바, 컨투어, 3D

1. 다양한 그래프 유형에 대한 이해

1.1 Line Plot

 

Line Plot은 데이터 간의 연속성을 표현할 때 사용합니다. 시간에 따른 변화를 표현하거나, 데이터의 추세를 보여주기에 적합합니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

# Line plot 그리기
plt.plot(x, y)
plt.title('Line Plot - Sin function')
plt.show()

 

plot 함수는 매우 다양한 매개 변수를 가지고 있습니다. 주요 매개 변수다음과 같습니다.

 

  • x, y : 실제로 플롯에 표시되는 데이터입니다. x는 x축 값에 대한 목록이고, y는 y축 값에 대한 목록입니다.
  • fmt : 이는 색상, 마커 및 선 스타일을 결정하는 옵션입니다. 형식은 '[color][marker][line]'이며, 각 요소는 생략할 수 있습니다.
  • color : 선의 색상을 결정합니다.
  • linestyle, ls : 선의 스타일을 결정합니다. 예를 들어, 'dashed', 'dotted', 'solid', 'dashdot' 등이 있습니다.
  • linewidth, lw : 선의 너비를 설정합니다.
  • marker : 데이터 포인트에 대한 마커 스타일을 설정합니다. 예를 들어, 'o', '^', '*', 's' 등이 있습니다.
  • markersize, ms : 마커의 크기를 설정합니다.
  • markerfacecolor, mfc : 마커의 색상을 설정합니다.
  • markeredgecolor, mec : 마커 테두리의 색상을 설정합니다.
  • markeredgewidth, mew : 마커 테두리의 너비를 설정합니다.
  • label : 플롯에 대한 레이블을 설정하며, 이는 범례에서 사용됩니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

# 플롯 설정
plt.plot(x, y, 
         color='purple',          # 선의 색상을 보라색으로 설정
         linestyle='dashdot',      # 선의 스타일을 대시-점(dashdot)으로 설정
         linewidth=2,              # 선의 너비를 2로 설정
         marker='o',               # 마커 스타일을 원형('o')으로 설정
         markersize=5,             # 마커의 크기를 5로 설정
         markerfacecolor='yellow', # 마커의 색상을 노란색으로 설정
         markeredgecolor='red',    # 마커 테두리의 색상을 빨간색으로 설정
         markeredgewidth=1.5,      # 마커 테두리의 너비를 1.5로 설정
         label='sin(x)'            # 범례에서 표시될 라벨 설정
)

# 범례 표시
plt.legend()

# 그래프 출력
plt.show()

 


1.2 Scatter Plot

 

Scatter Plot은 두 변수 간의 관계를 표현할 때 사용합니다. 각 데이터 포인트는 x, y 좌표를 가지며, 이를 이용해 변수 간의 상관관계를 파악할 수 있습니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.random.rand(100)
y = np.random.rand(100)

# Scatter plot 그리기
plt.scatter(x, y)
plt.title('Scatter Plot')
plt.show()

 

scatter 함수는 2차원의 점들을 그림으로 표현하는데 사용됩니다. scatter 함수의 주요 매개 변수는 다음과 같습니다.

 

  • x, y : 플롯에 표시될 데이터입니다. x와 y는 각각 x축과 y축의 데이터를 나타냅니다.
  • s : 마커의 크기입니다. 스칼라 또는 스칼라의 배열이 될 수 있습니다. 디폴트는 None이며, 이 경우 마커의 크기는 rcParams에서 설정된 디폴트 크기로 설정됩니다.
  • c : 마커의 색상입니다. 색상의 이름, RGB 튜플, 또는 해당 점의 값을 나타내는 스칼라 값 또는 스칼라 값의 배열 등 다양한 형태로 설정할 수 있습니다.
  • marker : 마커의 스타일입니다. 다양한 마커 스타일이 가능합니다.
  • cmap : colormap입니다. 이는 c 매개변수가 float 형태일 때 사용됩니다.
  • norm : Normalize 인스턴스입니다. 이는 c 매개변수가 float 형태일 때 사용됩니다.
  • vmin, vmax : norm이 적용되기 전에 데이터에 적용되는 최소 및 최대 값입니다. c 매개변수가 float 형태일 때 사용됩니다.
  • alpha : 마커의 투명도입니다. 0(완전 투명)에서 1(완전 불투명) 사이의 값입니다.
  • linewidths : 마커 테두리의 너비입니다.
  • edgecolors : 마커 테두리 색입니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.random.rand(50)
y = np.random.rand(50)
colors = np.random.rand(50)
sizes = 1000 * np.random.rand(50)

# scatter 플롯 설정
plt.scatter(x, y, c=colors, s=sizes, alpha=0.3, cmap='viridis', edgecolors='red', linewidths=2)

# 그래프 출력
plt.show()

 


1.3 Histogram

 

Histogram은 변수의 분포를 표현할 때 사용합니다. 데이터를 구간별로 나누어 각 구간에 해당하는 데이터의 빈도를 표현합니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
data = np.random.randn(1000)

# Histogram 그리기
plt.hist(data, bins=30)
plt.title('Histogram')
plt.show()

 

hist 함수는 데이터의 히스토그램을 만드는데 사용됩니다. hist 함수의 주요 매개 변수는 다음과 같습니다.

 

  • x : 히스토그램을 만들 데이터입니다.
  • bins : 히스토그램의 바구니(bin)의 수입니다. 이는 각 데이터가 속하는 구간을 나타냅니다.
  • range : 바구니에 포함될 수 있는 최소, 최대 값의 튜플입니다. 이 매개 변수가 제공되지 않으면 x의 최소, 최대 값이 사용됩니다.
  • density : True로 설정하면, 히스토그램의 합계가 1이 되도록 정규화합니다. 이는 확률 밀도 함수를 추정할 때 유용합니다.
  • weights : 각 x의 가중치입니다. 이는 히스토그램이 빈도수가 아니라 다른 값에 따라 가중치를 적용할 때 유용합니다.
  • cumulative : True로 설정하면, 각 바구니에 이전 바구니의 합계를 추가하여 누적 히스토그램을 만듭니다.
  • histtype : 히스토그램의 타입을 결정합니다. 가능한 값은 'bar', 'barstacked', 'step', 'stepfilled'입니다.
  • align : 바구니와 가로축 간의 정렬 방법을 결정합니다. 'left', 'mid', 'right'가 가능합니다.
  • orientation : 히스토그램의 방향을 결정합니다. 'horizontal', 'vertical'이 가능합니다.
  • color : 히스토그램의 색상을 결정합니다.
  • label : 히스토그램에 대한 레이블을 설정합니다. 이는 범례에서 사용됩니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 무작위 데이터 생성
data = np.random.randn(1000)

# 히스토그램 그리기
plt.hist(data, bins=30, range=(-3, 3), density=True, alpha=0.7, color='g', edgecolor='black', label='Data')

# 표준 정규 분포 그리기
from scipy.stats import norm
x = np.linspace(-3, 3, 1000)
y = norm.pdf(x, 0, 1)
plt.plot(x, y, 'r--', label='Normal distribution')

plt.legend()
plt.show()

 


1.4 Bar Plot

 

Bar Plot은 범주형 데이터의 값을 비교할 때 사용합니다. 각 범주에 해당하는 막대를 그리고, 막대의 높이로 값을 표현합니다.

 

 

import matplotlib.pyplot as plt

# 데이터 생성
categories = ['A', 'B', 'C', 'D', 'E']
values = [7, 3, 6, 2, 5]

# Bar plot 그리기
plt.bar(categories, values)
plt.title('Bar Plot')
plt.show()

 

bar 함수는 막대 그래프를 만드는데 사용되며, 주요 매개변수는 다음과 같습니다.

 

  • x : x 축에 위치할 데이터의 일련의 값입니다.
  • height : 각 막대의 높이를 나타내는 데이터의 일련의 값입니다.
  • width : (선택) 각 막대의 너비를 설정합니다. 스칼라 값이나 같은 길이의 배열이 될 수 있습니다. 디폴트 값은 0.8입니다.
  • bottom : (선택) 각 막대의 y 축에서의 위치를 설정합니다. 디폴트 값은 None으로, 막대는 그래프의 기본 위치인 y=0부터 시작됩니다.
  • align : 막대의 x 좌표를 막대의 가운데로 할 것인지, 막대의 왼쪽 끝으로 할 것인지를 결정합니다. 디폴트 값은 'center'입니다.
  • color : 막대의 색을 설정합니다.
  • edgecolor : 막대의 테두리 색을 설정합니다.
  • linewidth : 막대의 테두리 너비를 설정합니다.
  • tick_label : 각 막대에 대한 레이블을 설정합니다.
  • label : 범례에 사용될 레이블을 설정합니다.

 

 

import matplotlib.pyplot as plt

labels = ['A', 'B', 'C', 'D', 'E']
values = [3, 7, 2, 5, 8]

plt.bar(labels, values, width=0.4, bottom=2, align='center', color='lightblue', edgecolor='blue', linewidth=1.2, tick_label=labels, label='Category')
plt.legend()

plt.show()

 


1.5 Pie Chart

 

Pie Chart는 전체에 대한 각 부분의 비율을 표현할 때 사용합니다.

 

 

import matplotlib.pyplot as plt

# 데이터 생성
labels = ['A', 'B', 'C', 'D']
sizes = [15, 30, 45, 10]

# Pie chart 그리기
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.title('Pie Chart')
plt.show()

 

pie 함수는 원형 차트를 만드는 데 사용되며, 주요 매개변수는 다음과 같습니다.

 

  • x : 각 섹션의 크기를 나타내는 배열.
  • explode : 원형 차트에서 특정 섹션을 '분리'하기 위해 사용하는 배열. 각 섹션의 '분리' 정도를 설정합니다.
  • labels : 각 섹션의 레이블을 설정하는 리스트.
  • colors : 각 섹션의 색상을 설정하는 리스트.
  • autopct : 각 섹션의 퍼센트 값을 자동으로 표시할 방법을 설정합니다. 이는 문자열 형태로 주어지며, 이 문자열 내에는 퍼센트 값을 삽입할 위치를 나타내는 '%1.1f%%' 등의 형식을 사용합니다.
  • pctdistance : 각 섹션의 중심과 퍼센트 레이블 사이의 거리를 설정합니다. 이 값은 반지름에 대한 상대적인 거리입니다.
  • shadow : 그림자를 그릴지 여부를 결정하는 불린 값.
  • labeldistance : 각 섹션의 중심과 레이블 사이의 거리를 설정합니다. 이 값은 반지름에 대한 상대적인 거리입니다.
  • startangle : 원형 차트가 시작하는 각도를 설정합니다. 이 값은 도(degree) 단위로 설정됩니다.
  • radius : 원형 차트의 반지름을 설정합니다.
  • counterclock : 섹션이 시계 반대 방향으로 그려질지, 시계 방향으로 그려질지를 설정합니다.

 

 

import matplotlib.pyplot as plt

# Pie chart, where the slices will be ordered and plotted counter-clockwise:
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice (i.e. 'Hogs')

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

 


1.6 Box Plot

 

Box Plot은 변수의 분포를 요약하여 표현할 때 사용합니다. 중앙값, 사분위수, 이상치 등을 한눈에 볼 수 있습니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
data = np.random.randn(1000)

# Box plot 그리기
plt.boxplot(data)
plt.title('Box Plot')
plt.show()

 

boxplot 함수는 박스 플롯을 만드는 데 사용되며, 주요 매개변수는 다음과 같습니다.

 

  • x : 플롯에 표시될 데이터입니다. 배열이나 유사한 객체가 될 수 있습니다.
  • notch : 노치형 박스 플롯을 만들지 여부를 결정하는 불린 값.
  • sym : 이상치를 어떻게 표시할지를 결정하는 문자열.
  • vert : 박스 플롯이 수직으로 그려질지, 수평으로 그려질지를 결정하는 불린 값.
  • whis : whisker(수염)의 범위를 결정하는 값.
  • positions : 각 박스의 위치를 결정하는 배열.
  • widths : 각 박스의 너비를 결정하는 스칼라 값이나 배열.
  • patch_artist : 박스 플롯을 Patch 인스턴스로 그릴지를 결정하는 불린 값.
  • labels : 각 박스에 대한 레이블을 설정하는 리스트.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 랜덤 데이터 생성
np.random.seed(10)
data = [np.random.normal(0, std, 100) for std in range(1, 5)]

fig = plt.figure(figsize =(10, 7))
ax = fig.add_subplot(111)

# Boxplot 생성
bp = ax.boxplot(data, patch_artist = True, notch = True, vert = 0)

# 플롯 제목
plt.title("Customized box plot")

# 플롯 보여주기
plt.show()

 


1.7 Error Bar

 

Error Bar는 데이터의 불확실성을 표현할 때 사용합니다. 데이터 포인트 주변에 오차를 나타내는 선을 그립니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.linspace(0, 10, 10)
y = x ** 2
errors = np.random.rand(10) * 5

# Error bar 그리기
plt.errorbar(x, y, yerr=errors, fmt='o')
plt.title('Error Bar')
plt.show()

 

errorbar는 오차 막대가 있는 데이터 플롯을 생성하는 데 사용되며, 주요 매개변수는 다음과 같습니다.

 

  • x, y : 플롯에 표시될 데이터의 x와 y 좌표입니다.
  • yerr, xerr : 수직 및 수평 오차 범위입니다. 스칼라 값, 동일한 길이의 리스트나 배열, 두 개의 동일한 길이의 리스트나 배열(하한 및 상한)이 될 수 있습니다.
  • fmt : 플롯의 포맷 스타일입니다. 선 종류와 색상을 결정합니다. 예를 들어, 'ro'는 빨간색 원을 의미합니다.
  • ecolor : 오차 막대의 색상입니다.
  • elinewidth : 오차 막대의 선 너비입니다.
  • capsize : 오차 막대의 끝에 있는 "캡"의 크기입니다.
  • capthick : 오차 막대 캡의 두께입니다.

 

 

import numpy as np
import matplotlib.pyplot as plt

# 데이터 생성
x = np.linspace(0, 10, 50)
dy = 0.8
y = np.sin(x) + dy * np.random.randn(50)

# 오차 막대 그래프 생성
plt.errorbar(x, y, yerr=dy, fmt='.k', ecolor='lightgray', elinewidth=3, capsize=0)

plt.show()

 


1.8 Contour Plot

 

Contour Plot은 3차원 데이터를 2차원으로 표현할 때 사용합니다. 색상이나 높이선으로 z 값을 표현합니다.

 

 

import matplotlib.pyplot as plt
import numpy as np

# 데이터 생성
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))

# Contour plot 그리기
plt.contourf(X, Y, Z, cmap='viridis')
plt.title('Contour Plot')
plt.show()

 

errorbar는 오차 막대가 있는 데이터 플롯을 생성하는데 사용되며, 주요 매개변수는 다음과 같습니다.

  • x, y : 플롯에 표시될 데이터의 x와 y 좌표입니다.
  • yerr, xerr : 수직 및 수평 오차 범위입니다. 스칼라 값, 동일한 길이의 리스트나 배열, 두 개의 동일한 길이의 리스트나 배열(하한 및 상한)이 될 수 있습니다.
  • fmt : 플롯의 포맷 스타일입니다. 선 종류와 색상을 결정합니다. 예를 들어, 'ro'는 빨간색 원을 의미합니다.
  • ecolor : 오차 막대의 색상입니다.
  • elinewidth : 오차 막대의 선 너비입니다.
  • capsize : 오차 막대의 끝에 있는 "캡"의 크기입니다.
  • capthick : 오차 막대 캡의 두께입니다.

 

 

import numpy as np
import matplotlib.pyplot as plt

# 좌표 생성
x = np.linspace(-3.0, 3.0, 100)
y = np.linspace(-3.0, 3.0, 100)
X, Y = np.meshgrid(x, y)
Z = np.sqrt(X**2 + Y**2)

# 등고선 플롯 생성
plt.contourf(X, Y, Z, levels=20, cmap='RdGy')
plt.title('Contour Plot')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

 

 


1.9 3D Plot

 

3D Plot은 3차원 데이터를 표현할 때 사용합니다. X, Y, Z 값을 가지는 3차원 공간에 데이터를 표현합니다.

 

 

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np

# 데이터 생성
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))

# 3D plot 그리기
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(X, Y, Z, cmap='viridis')
plt.title('3D Plot')
plt.show()

 

plot_surface 함수는 3차원 플롯에서 서피스 플롯을 만드는 데 사용됩니다. 이 함수는 Axes3D 객체의 메소드로 존재하며, matplotlib의 plot_surface의 주요 매개 변수는 다음과 같습니다.

 

  • X, Y, Z : X와 Y는 그리드 좌표를 나타내며, Z는 해당 그리드에서의 높이(또는 값)를 나타냅니다.
  • rstride, cstride : 이것들은 서피스 플롯에서의 행 및 열 단계 크기를 설정합니다. 큰 값은 그리드를 더 거칠게 만들며, 작은 값은 그리드를 더 세밀하게 만듭니다.
  • color : 서피스의 색상을 설정합니다.
  • cmap : colormap을 설정합니다.
  • facecolors : 각 서피스 패치의 색상을 설정합니다.
  • norm : Normalize 인스턴스로, 색상 맵의 스케일링을 제어합니다.
  • vmi, vmax : 색상 맵의 범위를 설정합니다.
  • shade : bool 값으로, 서피스를 그림자 처리할지를 결정합니다.

 

 

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 좌표 생성
x = np.linspace(-6, 6, 100)
y = np.linspace(-6, 6, 100)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))

# 3D 서피스 플롯 생성
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='viridis', edgecolor='none')
ax.set_title('Surface Plot')
plt.show()