Python NumPy 개념 정리

1️⃣ NumPy 기초

NumPy는 파이썬에서 수치 계산을 위한 핵심 라이브러리로, 효율적인 배열 처리와 수학 함수를 제공한다.

import numpy as np

# 배열 생성
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.zeros((3, 3))  # 3x3 영행렬
arr3 = np.ones((2, 4))   # 2x4 1행렬
arr4 = np.arange(0, 10, 2)  # 0부터 10까지 2간격
arr5 = np.linspace(0, 1, 5)  # 0부터 1까지 5개 균등 분할

# 배열 정보 확인
print(f"배열 형태: {arr1.shape}")
print(f"배열 차원: {arr1.ndim}")
print(f"배열 타입: {arr1.dtype}")
print(f"배열 크기: {arr1.size}")

# 특수 행렬
identity = np.eye(3)  # 3x3 단위행렬
random_arr = np.random.rand(2, 3)  # 0~1 사이 난수 행렬

✅ 특징:

다차원 배열 생성
특수 행렬 생성
수열 생성
메모리 효율성
벡터화 연산
다양한 데이터 타입

2️⃣ 행렬 연산

NumPy는 다양한 행렬 연산과 선형대수 기능을 효율적으로 제공한다.

# 행렬 생성
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# 기본 행렬 연산
print(A + B)          # 행렬 덧셈
print(A - B)          # 행렬 뺄셈
print(A.dot(B))       # 행렬 곱셈 (내적)
print(np.multiply(A, B))  # 요소별 곱셈 (아다마르 곱)

# 행렬 변환
print(A.T)            # 전치행렬
print(np.linalg.matrix_power(A, 2))  # 행렬 제곱

# 선형대수 연산
print(np.linalg.inv(A))    # 역행렬
print(np.linalg.det(A))    # 행렬식
eigenvals, eigenvecs = np.linalg.eig(A)  # 고유값과 고유벡터
print(f"고유값: {eigenvals}")
print(f"고유벡터: {eigenvecs}")

# 행렬 분해
U, s, Vh = np.linalg.svd(A)  # 특이값 분해
print(f"U: {U}, s: {s}, Vh: {Vh}")

✅ 특징:

기본 행렬 연산
선형대수 연산
행렬 분해
효율적인 계산
수학적 함수
고급 선형대수 기능

3️⃣ 인덱싱과 슬라이싱

NumPy 배열은 강력한 인덱싱과 슬라이싱 기능을 제공하여 데이터 접근을 유연하게 한다.

# 다차원 배열 생성
arr = np.array([[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]])

# 기본 인덱싱
print(arr[0, 0])     # 첫 번째 원소
print(arr[1, 2])     # 2행 3열 원소
print(arr[-1, -1])   # 마지막 행, 마지막 열

# 기본 슬라이싱
print(arr[:2])       # 처음 두 행
print(arr[:, 1:3])   # 모든 행의 2~3열
print(arr[1:, :2])   # 2행부터의 처음 두 열

# 고급 인덱싱
indices = np.array([0, 2])
print(arr[indices])  # 1행과 3행 선택

# 불리언 인덱싱
mask = arr > 5
print(arr[mask])     # 5보다 큰 원소들

# 팬시 인덱싱
rows = np.array([0, 2])
cols = np.array([1, 3])
print(arr[rows[:, np.newaxis], cols])  # 교차 선택

✅ 특징:

다차원 인덱싱
고급 슬라이싱
조건부 선택
불리언 마스킹
팬시 인덱싱
뷰와 복사 구분

4️⃣ 통계와 집계

NumPy는 데이터 분석에 필요한 다양한 통계 함수를 제공한다.

arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# 기본 통계
print(np.mean(arr))        # 평균
print(np.median(arr))      # 중앙값
print(np.std(arr))         # 표준편차
print(np.var(arr))         # 분산
print(np.percentile(arr, 75))  # 75% 백분위

# 축별 연산
print(np.sum(arr, axis=0))  # 열별 합
print(np.mean(arr, axis=1)) # 행별 평균
print(np.std(arr, axis=None))  # 전체 표준편차

# 최대/최소 및 위치
print(np.max(arr))         # 최대값
print(np.min(arr))         # 최소값
print(np.argmax(arr))      # 최대값 인덱스 (평탄화된 배열에서)
print(np.argmin(arr, axis=0))  # 열별 최소값 인덱스

# 상관관계와 공분산
data = np.random.randn(3, 4)  # 표준 정규 분포 난수
print(np.corrcoef(data))      # 상관계수 행렬
print(np.cov(data))           # 공분산 행렬

✅ 특징:

기술 통계량
축별 연산
최대/최소 분석
백분위수 계산
상관관계 분석
집계 함수 지원

5️⃣ 브로드캐스팅

브로드캐스팅은 NumPy의 강력한 기능으로, 크기가 다른 배열 간 연산을 자동으로 처리한다.

# 브로드캐스팅 예제
arr = np.array([[1, 2, 3],
                [4, 5, 6]])
                
# 스칼라 연산 (모든 원소에 적용)
print(arr + 2)        # 모든 원소에 2 더하기
print(arr * 3)        # 모든 원소에 3 곱하기

# 벡터와 행렬 연산
vec = np.array([1, 0, 1])  # 길이 3 벡터
print(arr + vec)      # 각 행에 벡터 더하기

row_vec = np.array([[10, 20]])  # 1x2 행 벡터
col_mat = np.array([[1], [2], [3]])  # 3x1 열 벡터
print(row_vec + col_mat)  # 3x2 행렬로 브로드캐스팅

# 차원 다른 배열 연산
a = np.array([[1], [2], [3]])  # 3x1 배열
b = np.array([4, 5, 6])        # 1x3 배열
print(a + b)          # 브로드캐스팅으로 3x3 배열로 확장

# 브로드캐스팅 규칙 시각화
x = np.arange(4)
y = np.arange(5).reshape(5, 1)
print(x + y)  # 브로드캐스팅으로 4x5 그리드 생성

✅ 특징:

자동 크기 조정
효율적인 연산
차원 호환성
메모리 최적화
벡터화 코드
직관적인 구문

6️⃣ 고급 기능과 활용

NumPy의 다양한 고급 기능을 활용한 실전 예제이다.

# 난수 및 샘플링
np.random.seed(42)  # 재현성을 위한 시드 설정
uniform_samples = np.random.uniform(0, 1, 1000)  # 균등 분포
normal_samples = np.random.normal(0, 1, 1000)    # 정규 분포
choice = np.random.choice(['A', 'B', 'C'], 10, p=[0.5, 0.3, 0.2])  # 가중치 있는 선택

# 배열 형태 변환
arr = np.arange(12)
print(arr.reshape(3, 4))      # 3x4 행렬로 변형
print(arr.reshape(3, -1))     # 자동 열 계산
print(np.reshape(arr, (2, 2, 3)))  # 3차원 텐서로 변형

# 축 변환 및 전치
tensor = np.random.rand(2, 3, 4)
print(np.transpose(tensor, (2, 0, 1)))  # 축 순서 변경

# 배열 연결 및 분할
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(np.concatenate([a, b]))        # 1차원 연결
print(np.vstack([a, b]))             # 수직 쌓기
print(np.hstack([a.reshape(-1, 1), b.reshape(-1, 1)]))  # 수평 쌓기
print(np.split(np.arange(10), 5))    # 균등 분할
print(np.array_split(np.arange(10), 3))  # 불균등 분할

# 유니버설 함수 (ufunc)
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)        # 사인 함수
z = np.exp(x)        # 지수 함수
print(np.allclose(np.sin(x)**2 + np.cos(x)**2, 1))  # 삼각 항등식 검증

✅ 특징:

난수 생성
배열 재구조화
축 변환
배열 결합/분할
수학적 함수
성능 최적화 연산

주요 팁

✅ 모범 사례:

벡터화 연산 활용
메모리 효율성 고려
브로드캐스팅 이해
축(axis) 개념 숙지
데이터 타입 최적화
뷰와 복사 구분
인덱싱 최적화
선형대수 활용
난수 생성 제어
성능 모니터링

KR_Numpy - somaz94/python-study GitHub Wiki

Python NumPy 개념 정리

1️⃣ NumPy 기초

2️⃣ 행렬 연산

3️⃣ 인덱싱과 슬라이싱

4️⃣ 통계와 집계

5️⃣ 브로드캐스팅

6️⃣ 고급 기능과 활용

주요 팁

⚠️ GitHub.com Fallback ⚠️

KR_Numpy - somaz94/python-study GitHub Wiki

Python NumPy 개념 정리

1️⃣ NumPy 기초

2️⃣ 행렬 연산

3️⃣ 인덱싱과 슬라이싱

4️⃣ 통계와 집계

5️⃣ 브로드캐스팅

6️⃣ 고급 기능과 활용

주요 팁

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️