1. 데이터 타입 최적화 Pandas에서는 각 데이터 유형에 따라 메모리를 다르게 사용합니다. 따라서 데이터 타입을 최적화하면 메모리 사용량을 줄일 수 있습니다. 예를 들어, 'category' 데이터 타입은 범주형 데이터(즉, 값의 범위가 제한적인 데이터)를 표현할 때 효율적인 메모리 사용이 가능합니다. 범주형 데이터는 특정한 범위 또는 범주 내에서만 값이 변하는 데이터를 의미합니다. 예를 들어, '성별' 열에는 '남성', '여성' 두 가지 값만 있을 수 있으며, '계절' 열에는 '봄', '여름', '가을', '겨울' 네 가지 값만 있을 수 있습니다. 이처럼 고유한 값의 종류가 제한적인 열을 'category' 데이터 타입으로 표현하면 메모리를 효율적으로 사용할 수 있습니다. import pandas ..
1. DateTimeIndex 활용 Pandas의 DateTimeIndex는 날짜와 시간 정보를 기반으로 하는 인덱스입니다. DateTimeIndex를 활용하면, 시간 정보에 따른 데이터 선택, 부분 데이터 집합 추출 등이 용이해집니다. 아래의 예제 코드는 일련의 날짜를 기반으로 DataFrame을 생성하고 이를 활용하는 방법을 보여줍니다. 코드에서 date_range 함수는 주어진 시작 날짜로부터 특정 기간 동안의 날짜를 생성합니다. 이 날짜들은 DataFrame의 인덱스로 사용되며, 이를 통해 각 행이 어떤 날짜에 해당하는 데이터인지를 쉽게 파악할 수 있습니다. import pandas as pd import numpy as np # 날짜 범위 생성 dates = pd.date_range('20230..
1. Groupby 함수 이해 Pandas의 groupby 함수는 데이터를 원하는 기준에 따라 그룹으로 분류하고, 이렇게 분류된 그룹에 대해 다양한 연산을 수행할 수 있습니다. 이러한 방식은 SQL의 GROUP BY 구문과 유사합니다. 아래 코드에서 groupby 함수는 "Animal" 열을 기준으로 데이터를 그룹화하고, 각 그룹의 내용을 출력합니다. import pandas as pd # DataFrame 생성 df = pd.DataFrame({ 'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380., 370., 24., 26.], 'Weight': [1.5, 1.7, 0.3, 0.2] }) # 그룹화 grouped = df.gro..
1. pandas.concat() 함수 사용법 pandas.concat()은 각기 다른 데이터프레임들을 하나로 합치는 함수입니다. 이 때, 기본적으로는 행 방향으로 합치며 (axis=0), 열 방향으로 합치려면 axis=1을 설정해주면 됩니다. 아래 코드에서 pd.concat([df1, df2])을 통해 df1과 df2를 행 방향으로 합칩니다. import pandas as pd # 예제 데이터프레임 생성 df1 = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3'] }, index=[0, 1, 2, 3]) df..
데이터 분석을 위해 데이터를 조작하고 변형하는 작업은 필수적입니다. Pandas는 이러한 데이터 전처리 작업을 쉽게 할 수 있는 다양한 기능을 제공합니다. 1. 결측치 처리(NaN) Pandas에서는 isnull이나 notnull 메소드를 사용하여 결측치를 확인할 수 있습니다. 또한 dropna나 fillna 메소드를 사용하여 결측치를 제거하거나 다른 값으로 채울 수 있습니다. 아래 코드에서는 isnull(), dropna(), fillna() 함수를 통해 결측치를 처리합니다. isnull()은 DataFrame내의 결측치를 확인하는데 사용됩니다. 각 값이 결측치인지 아닌지를 나타내는 Boolean값(True 또는 False)를 반환합니다. 여기서 True는 결측치를 의미합니다. dropna()는 결측치..
Pandas의 DataFrame과 Series 객체를 정렬하는 방법에는 주로 두 가지가 있습니다. 값에 따른 정렬방법과 인덱스에 따라 정렬하는 방법입니다. 이들은 각각 sort_values() 메서드와 sort_index() 메서드를 사용하여 수행됩니다. 먼저 DataFrame을 생성하고 이에 대해 설명하도록 하겠습니다. import pandas as pd # 예시 DataFrame 생성 data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 24, 35, 32], 'City': ['New York', 'Paris', 'Berlin', 'London']} df = pd.DataFrame(data) #출력 # Name Age City #0 John..
Pandas의 DataFrame과 Series는 다양한 조회 및 선택 메소드를 제공합니다. 이 포스트에서는 loc, iloc, 조건을 이용한 선택, 그리고 Column, Row 선택에 대해 자세히 설명하겠습니다. 1. loc, iloc 함수 사용법 판다스(Pandas)의 DataFrame과 Series는 판다스의 주요 객체이며, 여기에는 loc와 iloc이라는 데이터 선택 메소드가 포함되어 있습니다. loc는 레이블 기반의 데이터 선택 메소드입니다. 이는 레이블(열/행 이름)을 통해 값을 선택합니다. iloc는 위치 기반의 데이터 선택 메소드입니다. 이는 위치(정수 인덱스)를 통해 값을 선택합니다. 먼저 loc와 iloc의 사용 방법을 살펴보기 위해 아래 코드를 통해 DataFrame을 만듭니다. imp..
Pandas에서 CSV, Excel, SQL 사용하기 Pandas는 다양한 데이터 형식을 지원하며, 이를 활용하여 데이터를 불러오거나 저장할 수 있습니다. 이 포스트에서는 CSV, Excel, SQL 데이터베이스에서 데이터를 불러오고 저장하는 방법에 대해 자세히 설명하겠습니다. 1. Pandas에서 CSV 파일 사용하기 CSV(Comma Separated Values) 파일은 간단한 텍스트 기반 형식으로 데이터를 저장하는데 사용됩니다. CSV 파일의 각 행은 데이터 레코드를 나타내며, 각 레코드의 필드는 쉼표로 구분됩니다. CSV 파일은 표 형식의 데이터를 표현하는데 주로 사용됩니다. 아래는 5명의 학생들의 이름, 나이, 성별 데이터를 포함하는 CSV 파일의 간단한 예 입니다. name,age,gende..
1. Pandas 소개 Pandas는 Python에서 사용하는 데이터 분석 라이브러리입니다. 이름은 "PANel DAta"의 약자로 금융 경제학 용어에서 유래되었습니다. Pandas는 데이터 조작 및 분석을 위해 설계되었으며, 빠르고 유연한 데이터 구조를 제공하여 대규모 데이터 세트를 효율적으로 처리할 수 있습니다. Pandas는 다음과 같은 주요 특징을 가지고 있습니다. 다양한 데이터 타입 처리 : Pandas는 다양한 타입의 데이터를 처리할 수 있습니다. 예를 들어, 정수, 실수, 문자열, Python 객체 등을 처리할 수 있습니다. 누락된 데이터 처리 : Pandas는 누락된 데이터를 쉽게 처리할 수 있습니다. 예를 들어, 누락된 데이터를 특정 값으로 채우거나 누락된 데이터를 포함하는 행이나 열을 ..