Python CSV 처리 개념 정리

1️⃣ CSV 기초

CSV(Comma-Separated Values)는 쉼표로 구분된 데이터를 저장하는 텍스트 파일 형식이다.

import csv

# CSV 파일 읽기
with open('data.csv', 'r', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

# CSV 파일 쓰기
data = [
    ['이름', '나이', '도시'],
    ['John', '30', 'New York'],
    ['Alice', '25', 'London']
]

with open('output.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(data)

✅ 특징:

간단한 데이터 구조
텍스트 기반 형식
범용적 호환성

2️⃣ DictReader와 DictWriter

딕셔너리 기반으로 CSV 데이터를 처리하는 방법이다.

# 딕셔너리 형태로 읽기
with open('data.csv', 'r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        print(f"이름: {row['이름']}, 나이: {row['나이']}")

# 딕셔너리 형태로 쓰기
data = [
    {'이름': 'John', '나이': '30', '도시': 'New York'},
    {'이름': 'Alice', '나이': '25', '도시': 'London'}
]

with open('output.csv', 'w', newline='', encoding='utf-8') as file:
    fieldnames = ['이름', '나이', '도시']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data)

✅ 특징:

헤더 기반 접근
딕셔너리 형태 처리
직관적인 데이터 처리

3️⃣ CSV 파일 포맷 설정

CSV 형식을 사용자 정의하여 다양한 텍스트 파일 형식을 처리할 수 있다.

# 커스텀 구분자 사용
with open('data.tsv', 'r', encoding='utf-8') as file:
    reader = csv.reader(file, delimiter='\t')
    for row in reader:
        print(row)

# 커스텀 따옴표 처리
csv.register_dialect('custom', 
    delimiter=';',
    quotechar='"',
    quoting=csv.QUOTE_MINIMAL,
    escapechar='\\'
)

with open('output.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file, dialect='custom')
    writer.writerows(data)

✅ 특징:

구분자 설정
인용 부호 처리
사용자 정의 형식

4️⃣ 데이터 검증과 변환

CSV 데이터를 읽고 쓰는 과정에서 데이터 검증과 변환을 수행할 수 있다.

def validate_row(row):
    try:
        # 나이 필드 검증
        age = int(row['나이'])
        if age < 0 or age > 150:
            raise ValueError("유효하지 않은 나이")
        
        # 이메일 필드 검증
        if '@' not in row['이메일']:
            raise ValueError("유효하지 않은 이메일")
        
        return True
    except Exception as e:
        print(f"검증 실패: {e}")
        return False

def process_csv(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as infile:
        reader = csv.DictReader(infile)
        valid_rows = [row for row in reader if validate_row(row)]
        
    with open(output_file, 'w', newline='', encoding='utf-8') as outfile:
        writer = csv.DictWriter(outfile, fieldnames=reader.fieldnames)
        writer.writeheader()
        writer.writerows(valid_rows)

✅ 특징:

데이터 유효성 검사
자동 형변환
에러 처리

5️⃣ 대용량 CSV 처리

메모리 사용을 최적화하여 대용량 CSV 파일을 효율적으로 처리하는 방법이다.

def process_large_csv(file_path, chunk_size=1000):
    with open(file_path, 'r', encoding='utf-8') as file:
        reader = csv.reader(file)
        header = next(reader)  # 헤더 읽기
        
        chunk = []
        for row in reader:
            chunk.append(row)
            
            if len(chunk) >= chunk_size:
                process_chunk(chunk)
                chunk = []
        
        # 남은 데이터 처리
        if chunk:
            process_chunk(chunk)

✅ 특징:

메모리 효율적 처리
청크 단위 처리
대용량 파일 지원

6️⃣ CSV 파일 병합 및 분할

여러 CSV 파일을 하나로 합치거나 하나의 파일을 여러 개로 분할하는 방법이다.

# 여러 CSV 파일 병합
def merge_csv_files(input_files, output_file):
    with open(output_file, 'w', newline='', encoding='utf-8') as outfile:
        for i, file_path in enumerate(input_files):
            with open(file_path, 'r', encoding='utf-8') as infile:
                reader = csv.reader(infile)
                
                # 첫 번째 파일의 헤더만 사용
                if i == 0:
                    header = next(reader)
                    writer = csv.writer(outfile)
                    writer.writerow(header)
                else:
                    next(reader)  # 헤더 건너뛰기
                
                # 데이터 복사
                for row in reader:
                    writer.writerow(row)

# CSV 파일 분할
def split_csv_file(input_file, output_prefix, rows_per_file=1000):
    with open(input_file, 'r', encoding='utf-8') as infile:
        reader = csv.reader(infile)
        header = next(reader)
        
        file_number = 1
        row_count = 0
        
        current_out_file = open(f"{output_prefix}_{file_number}.csv", 'w', newline='', encoding='utf-8')
        current_writer = csv.writer(current_out_file)
        current_writer.writerow(header)
        
        for row in reader:
            current_writer.writerow(row)
            row_count += 1
            
            if row_count >= rows_per_file:
                current_out_file.close()
                file_number += 1
                row_count = 0
                
                current_out_file = open(f"{output_prefix}_{file_number}.csv", 'w', newline='', encoding='utf-8')
                current_writer = csv.writer(current_out_file)
                current_writer.writerow(header)
        
        current_out_file.close()

✅ 특징:

다중 파일 처리
헤더 관리
분산 처리 가능
대용량 데이터 관리

7️⃣ Pandas와 함께 사용

Pandas 라이브러리를 활용하여 고급 CSV 데이터 처리를 수행할 수 있다.

import pandas as pd

# CSV 파일을 DataFrame으로 읽기
df = pd.read_csv('data.csv', encoding='utf-8')

# 데이터 탐색
print(df.head())  # 처음 5행 보기
print(df.describe())  # 기본 통계
print(df.columns)  # 열 이름

# 데이터 필터링 및 변환
filtered_df = df[df['나이'] > 25]
df['전체이름'] = df['성'] + ' ' + df['이름']

# 데이터 그룹화 및 집계
grouped = df.groupby('도시').agg({
    '나이': ['mean', 'min', 'max', 'count'],
    '급여': 'sum'
})

# CSV 파일로 저장
filtered_df.to_csv('filtered_data.csv', index=False, encoding='utf-8')

✅ 특징:

다양한 데이터 분석 기능
강력한 데이터 변환
간결한 구문
통계 및 시각화 지원
대용량 데이터 처리 최적화

주요 팁

✅ 모범 사례:

인코딩 지정 (UTF-8)
newline='' 설정 (윈도우 환경에서 줄바꿈 문제 방지)
큰 파일은 청크 단위로 처리
데이터 검증 구현
에러 처리 추가
메모리 사용량 고려
pandas 활용 고려
BOM(Byte Order Mark) 처리 주의
날짜와 시간 데이터는 표준 형식 사용
예외적인 구분자와 인용 문자 처리 방법 숙지
CSV 파일 작성 전 헤더 일관성 확인
민감 정보는 내보내기 전 마스킹 처리
큰 파일은 압축 형식(gzip, zip) 고려
스키마 변경 시 기존 데이터 호환성 고려

KR_CSV - somaz94/python-study GitHub Wiki

Python CSV 처리 개념 정리

1️⃣ CSV 기초

2️⃣ DictReader와 DictWriter

3️⃣ CSV 파일 포맷 설정

4️⃣ 데이터 검증과 변환

5️⃣ 대용량 CSV 처리

6️⃣ CSV 파일 병합 및 분할

7️⃣ Pandas와 함께 사용

주요 팁

⚠️ GitHub.com Fallback ⚠️

KR_CSV - somaz94/python-study GitHub Wiki

Python CSV 처리 개념 정리

1️⃣ CSV 기초

2️⃣ DictReader와 DictWriter

3️⃣ CSV 파일 포맷 설정

4️⃣ 데이터 검증과 변환

5️⃣ 대용량 CSV 처리

6️⃣ CSV 파일 병합 및 분할

7️⃣ Pandas와 함께 사용

주요 팁

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️