Python Pandas 개념 정리

1️⃣ Pandas 기초

Pandas는 데이터 분석과 조작을 위한 파이썬의 핵심 라이브러리로, 효율적인 데이터 구조와 기능을 제공한다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
    'C': [1.1, 2.2, 3.3, 4.4, 5.5],
    'D': [True, False, True, True, False]
})
print("DataFrame 예시:")
print(df)

# Series 생성
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print("\nSeries 예시:")
print(s)

# 다양한 데이터에서 DataFrame 생성
# 1. 딕셔너리 리스트에서 생성
dict_list = [
    {'name': 'John', 'age': 30, 'city': 'New York'},
    {'name': 'Mike', 'age': 25, 'city': 'London'},
    {'name': 'Sarah', 'age': 35, 'city': 'Tokyo'}
]
df_dict = pd.DataFrame(dict_list)
print("\n딕셔너리 리스트로 생성한 DataFrame:")
print(df_dict)

# 2. NumPy 배열에서 생성
array = np.random.rand(3, 4)
df_array = pd.DataFrame(array, columns=['W', 'X', 'Y', 'Z'])
print("\nNumPy 배열로 생성한 DataFrame:")
print(df_array)

# 3. 날짜 범위 생성
date_range = pd.date_range(start='2023-01-01', periods=5, freq='D')
df_dates = pd.DataFrame({'Date': date_range, 'Value': range(5)})
print("\n날짜 범위가 있는 DataFrame:")
print(df_dates)

# DataFrame/Series 정보 확인
print("\nDataFrame 기본 정보:")
print(f"Shape: {df.shape}")
print(f"Columns: {df.columns.tolist()}")
print(f"Index: {df.index.tolist()}")
print(f"Data Types:\n{df.dtypes}")
print(f"Memory Usage: {df.memory_usage(deep=True).sum()} bytes")

# 기본적인 메서드
print("\nDataFrame의 처음 2행:")
print(df.head(2))
print("\nDataFrame의 마지막 2행:")
print(df.tail(2))
print("\nDataFrame의 기술 통계:")
print(df.describe())

# CSV 파일 읽기/쓰기
df.to_csv('data.csv', index=False)
df_read = pd.read_csv('data.csv')
print("\nCSV에서 읽은 DataFrame:")
print(df_read)

# Excel 파일 읽기/쓰기
df.to_excel('data.xlsx', sheet_name='Sheet1', index=False)
df_excel = pd.read_excel('data.xlsx')
print("\nExcel에서 읽은 DataFrame:")
print(df_excel)

# JSON 형식 변환
json_str = df.to_json(orient='records')
print("\nJSON 문자열:")
print(json_str)
df_json = pd.read_json(json_str, orient='records')
print("\nJSON에서 읽은 DataFrame:")
print(df_json)

✅ 특징:

DataFrame 생성
Series 생성
파일 입출력
다양한 데이터 소스 지원
효율적인 데이터 구조
간편한 데이터 조작
빠른 데이터 분석

DataFrame vs Series 비교

Pandas의 두 가지 핵심 데이터 구조 비교이다.

특성	DataFrame	Series
차원	2차원 (표/행렬)	1차원 (벡터)
데이터 타입	각 열마다 다른 타입 가능	단일 타입
인덱싱	행/열 인덱스	단일 인덱스
사용 사례	복잡한 데이터 분석	단일 변수 데이터
생성 방법	딕셔너리, 리스트, 배열 등	리스트, 딕셔너리, 스칼라 등
유사성	엑셀 시트, SQL 테이블	엑셀 열, 딕셔너리
공통점	인덱싱, 메서드, 속성 많이 공유	DataFrame의 열은 Series

2️⃣ 데이터 조작

Pandas는 데이터 조작을 위한 다양한 메서드와 함수를 제공하여 효율적인 데이터 가공을 가능하게 한다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
    'C': [1.1, 2.2, np.nan, 4.4, 5.5],
    'D': [True, False, True, True, False],
    'E': pd.date_range(start='2023-01-01', periods=5)
})
print("원본 DataFrame:")
print(df)

# 데이터 선택 (열 기준)
print("\n단일 열 선택:")
print(df['A'])                     # 단일 열 선택 (Series 반환)
print("\n복수 열 선택:")
print(df[['A', 'B']])             # 복수 열 선택 (DataFrame 반환)

# 데이터 선택 (행 기준)
print("\nloc를 사용한 행 선택 (레이블 기반):")
print(df.loc[0])                  # 단일 행 선택
print("\nloc를 사용한 행과 열 선택:")
print(df.loc[0:2, ['A', 'C']])    # 특정 행과 열 선택

print("\niloc를 사용한 행 선택 (위치 기반):")
print(df.iloc[0:2])               # 처음 2개 행 선택
print("\niloc를 사용한 행과 열 선택:")
print(df.iloc[0:2, [0, 2]])       # 처음 2개 행의 첫 번째, 세 번째 열

# 불리언 인덱싱을 통한 데이터 필터링
print("\n조건에 따른 필터링:")
filtered = df[df['A'] > 3]         # A 열 값이 3보다 큰 행
print(filtered)

print("\n복합 조건 필터링:")
complex_filter = df[(df['A'] > 2) & (df['C'] < 5.0)]
print(complex_filter)

# 데이터 정렬
print("\n'A' 열 기준 오름차순 정렬:")
print(df.sort_values(by='A'))

print("\n'A' 열 기준 내림차순 정렬:")
print(df.sort_values(by='A', ascending=False))

print("\n여러 열 기준 정렬:")
print(df.sort_values(by=['D', 'A'], ascending=[False, True]))

# 새로운 열 추가
df['F'] = df['A'] * 2
print("\n새 열 'F' 추가 (A*2):")
print(df)

# apply 메서드를 사용한 함수 적용
df['G'] = df['A'].apply(lambda x: x**2)
print("\napply로 새 열 'G' 추가 (A^2):")
print(df)

# 조건부 열 생성
df['H'] = np.where(df['A'] > 3, 'High', 'Low')
print("\n조건부 열 'H' 추가:")
print(df)

# 결측치 처리
print("\n결측치 확인:")
print(df.isna().sum())

print("\n결측치를 0으로 채우기:")
print(df.fillna(0))

print("\n결측치 앞의 값으로 채우기:")
print(df.fillna(method='ffill'))

print("\n결측치 뒤의 값으로 채우기:")
print(df.fillna(method='bfill'))

print("\n결측치가 있는 행 제거:")
print(df.dropna())

print("\n특정 열의 결측치만 처리:")
df_copy = df.copy()
df_copy['C'] = df_copy['C'].fillna(df_copy['C'].mean())
print(df_copy)

# 데이터 변환
print("\n열 A의 표준화:")
df['A_scaled'] = (df['A'] - df['A'].mean()) / df['A'].std()
print(df[['A', 'A_scaled']])

print("\n'A' 열의 순위:")
df['A_rank'] = df['A'].rank()
print(df[['A', 'A_rank']])

# 행/열 삭제
df_drop = df.copy()
print("\n행 삭제:")
print(df_drop.drop([0, 1], axis=0))

print("\n열 삭제:")
print(df_drop.drop(['F', 'G'], axis=1))

✅ 특징:

데이터 선택
조건부 필터링
열 조작
결측치 처리
데이터 정렬
함수 적용
데이터 변환
행/열 관리

결측치 처리 방법 비교

데이터 분석 시 자주 마주치는 결측치 처리 방법이다.

처리 방법	장점	단점	적합한 상황
제거 (dropna)	간단하고 빠름	데이터 손실	결측치가 적을 때
채우기 (fillna)	데이터 손실 없음	데이터 왜곡 가능성	적절한 대체값 존재 시
통계값 대체	분포 보존	변동성 감소	수치형 데이터
보간 (interpolate)	패턴 유지	계산 복잡성	시계열 데이터
예측 모델 사용	정확도 높음	구현 복잡	충분한 데이터 존재 시
다중대체	불확실성 반영	계산 비용	정밀한 분석 필요 시

3️⃣ 데이터 분석

Pandas는 강력한 데이터 분석 기능을 제공하여 복잡한 데이터에서도 통찰력을 얻을 수 있다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 샘플 데이터 생성
np.random.seed(42)
data = {
    'group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'],
    'value1': np.random.randint(0, 100, 10),
    'value2': np.random.normal(50, 15, 10),
    'category': np.random.choice(['X', 'Y', 'Z'], 10),
    'date': pd.date_range(start='2023-01-01', periods=10)
}
df = pd.DataFrame(data)
print("샘플 데이터:")
print(df)

# 기본 통계 분석
print("\n기본 통계 요약:")
print(df.describe())

print("\n수치형 열의 평균:")
print(df[['value1', 'value2']].mean())

print("\n수치형 열의 중앙값:")
print(df[['value1', 'value2']].median())

print("\n수치형 열의 표준편차:")
print(df[['value1', 'value2']].std())

print("\n상관관계 분석:")
print(df[['value1', 'value2']].corr())

# 그룹화 연산
print("\n그룹별 통계:")
grouped = df.groupby('group')
print(grouped[['value1', 'value2']].mean())

print("\n그룹별 크기:")
print(grouped.size())

print("\n그룹별 다양한 통계:")
print(grouped.agg({
    'value1': ['mean', 'median', 'std'],
    'value2': ['min', 'max', 'count']
}))

# 복합 그룹화
print("\n복합 그룹화 (group + category):")
complex_group = df.groupby(['group', 'category'])
print(complex_group['value1'].mean())

# 변환 함수 적용
print("\n그룹별 Z-점수 계산:")
def zscore(x):
    return (x - x.mean()) / x.std()

transformed = grouped.transform(zscore)
print(transformed.head())

# 피벗 테이블
print("\n피벗 테이블 (group vs category, value1 평균):")
pivot = df.pivot_table(
    values='value1',
    index='group',
    columns='category',
    aggfunc='mean',
    fill_value=0
)
print(pivot)

print("\n다중 값 피벗 테이블:")
multi_pivot = df.pivot_table(
    values=['value1', 'value2'],
    index='group',
    columns='category',
    aggfunc=['mean', 'std']
)
print(multi_pivot)

# 시계열 분석
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['dayofweek'] = df['date'].dt.dayofweek

print("\n날짜 컴포넌트 추출:")
print(df[['date', 'month', 'day', 'dayofweek']].head())

# 누적 통계
print("\n누적 합계:")
print(df.groupby('group')['value1'].cumsum())

print("\n누적 최대값:")
print(df.groupby('group')['value1'].cummax())

# 시각화 (기본)
plt.figure(figsize=(10, 6))
df.groupby('group')['value1'].mean().plot(kind='bar')
plt.title('Group Means')
plt.ylabel('Mean Value')
plt.tight_layout()
plt.savefig('group_means.png')
print("\n'group_means.png' 파일에 차트가 저장되었습니다.")

# 범주형 변수 분석
print("\n범주형 변수 분포:")
print(df['category'].value_counts())

print("\n교차표 (그룹 vs 카테고리):")
cross_tab = pd.crosstab(df['group'], df['category'])
print(cross_tab)

print("\n정규화된 교차표 (행 비율):")
print(pd.crosstab(df['group'], df['category'], normalize='index'))

# 이상치 탐지
Q1 = df['value1'].quantile(0.25)
Q3 = df['value1'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['value1'] < (Q1 - 1.5 * IQR)) | (df['value1'] > (Q3 + 1.5 * IQR))]

print("\n이상치 감지 (IQR 방법):")
print(f"Q1: {Q1}, Q3: {Q3}, IQR: {IQR}")
print(f"하한 경계: {Q1 - 1.5 * IQR}, 상한 경계: {Q3 + 1.5 * IQR}")
print(outliers)

✅ 특징:

기술 통계
그룹 연산
피벗 테이블
시계열 분석
누적 통계
범주형 변수 분석
이상치 탐지
시각화 기초

그룹화 연산 방법 비교

Pandas에서 제공하는 다양한 그룹화 연산 메서드이다.

메서드	반환 타입	기능	사용 예시
groupby.mean()	DataFrame/Series	그룹별 평균 계산	`df.groupby('group')['value'].mean()`
groupby.agg()	DataFrame	다양한 집계 함수 적용	`df.groupby('group').agg({'value': ['mean', 'std']})`
groupby.transform()	DataFrame	원본과 같은 크기로 변환	`df.groupby('group').transform(lambda x: x - x.mean())`
groupby.filter()	DataFrame	조건에 맞는 그룹만 필터링	`df.groupby('group').filter(lambda x: x['value'].mean() > 50)`
groupby.apply()	DataFrame/Series	임의 함수 적용	`df.groupby('group').apply(lambda x: x.iloc[0])`
pivot_table()	DataFrame	다차원 그룹화 및 집계	`df.pivot_table(values='value', index='group', columns='category')`
crosstab()	DataFrame	범주형 변수 교차표	`pd.crosstab(df['group'], df['category'])`

KR_Pandas - somaz94/python-study GitHub Wiki

Python Pandas 개념 정리

1️⃣ Pandas 기초

DataFrame vs Series 비교

2️⃣ 데이터 조작

결측치 처리 방법 비교

3️⃣ 데이터 분석

그룹화 연산 방법 비교

⚠️ GitHub.com Fallback ⚠️

KR_Pandas - somaz94/python-study GitHub Wiki

Python Pandas 개념 정리

1️⃣ Pandas 기초

DataFrame vs Series 비교

2️⃣ 데이터 조작

결측치 처리 방법 비교

3️⃣ 데이터 분석

그룹화 연산 방법 비교

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️