데이터 분석 - Heeyoung-Ahn/MariaDB-with-Excel-VBA GitHub Wiki

데이터 리터러시(Data Literacy)

데이터 리터러시 역량은 누가 어떤 비지니스에 종사하든 관계없이, 앞으로 10년간 가장 중요한 비지니스 능력 데이터를 활용하는 조직뿐만 아니라 조직 내 개인 모두에게 필수적으로 요구되는 역량
- 구글 수석 이코노미스트 할 베리안

  • 데이터 리터러시란?
    데이터를 읽고 그 안에 숨겨진 의미를 파악하는 데이터 해독능력
    상황에 맞추어 데이터를 읽고 쓰며 소통할 수 있는 능력

    • 데이터 기획: 전반적인 데이터 간의 관계를 이해하고 데이터 활용을 위한 계획을 세우는 능력
    • 데이터 수집: 데이터를 빠른 시간 내에 검색, 선별해 확보할 수 있는 능력
    • 데이터 관리: 수집된 데이터를 분석이 가능한 형태로 구조화 및 정제하는 능력
    • 가공 및 분석: 목적에 맞는 분석 기법을 활용하여 데이터의 의미 파악하는 능력
    • 데이터 시각화: 데이터를 한 눈에 알아보기 쉽도록 표, 그래프 등을 활용하여 표현하는 능력

    data literacy


데이터를 잘 관리하려면?

데이터 그 자체가 아니라 업무와 연관하여 생각
데이터가 목적이 아니라 이를 통해 구성될 리포트에 대해 고민

  • 업무의 핵심 가치(KPI)를 도출하라
    → 의사결정에 필요한 측정값 도출
  • 업무 프로세스를 분석하고 업무의 프로세스별로 생성되는 데이터를 파악하라
    → 데이터 생성 과정에 대한 이해
  • 업무 특성에 대해 파악하라
    → 데이터 구조에 대한 이해(데이터간의 관계, 계절성, 현황데이터/기간데이터)
  • 데이터를 다양한 관점에서 조망하라
    → 데이터를 분석할 차원 도출
  • 데이터를 분석하여 의미를 부여하라
    → 비교, 구성, 분포, 관계

엑셀 데이터베이스에서 사용되는 기초용어

  • 참조: 자신의 셀에서 다른 셀 또는 범위의 값(Value) 등을 가져올 때 다른 셀 또는 범위를 참조라 함
  • 반환: 자신의 셀에 참조의 값을 표시하는 것을 반환이라 함
  • 배열(Array): 데이터의 집합을 배열(셀 범위)이라 부르며 1차원 배열은 Vector라 부르고, 2차원 이상의 배열은 Matrix라 표현하기도 함
  • 레코드: 한 행 한 행의 데이터를 레코드라 함
  • 필드(컬럼): 각 레코드의 구성요소
  • 필드명(열 머리글): 각 필드의 제목
  • 키필드: 각각의 레코드를 구별하기 위한 기본키가 입력되는 필드

엑셀에서 데이터베이스를 만들 때 주의할 점

제 1정규화까지만 충족하면 됨

  • 시트의 첫 행에는 필드명을 입력하고, 필드명은 중복되어서는 안된다.
    → 데이터베이스의 제목은 시트명에 작성
  • 첫 열(필드)에는 기본키(PK)를 입력해야 하며 기본키는 중복되면 안된다.
  • 하나의 필드에 두 개 이상의 값이 입력되어서는 안된다.
  • 셀을 병합하거나 셀 내에서 줄바꿈(Alt + Enter)하여 데이터를 기록하면 안된다.
    • 줄 바꿈 시 눈에 보이지 않는 코드가 기록되어 있음
    • 눈에 보이지 않는 데이터를 정제하는 방법?
      : trim함수, clean함수, 문자열 수가 '0'개인 셀을 ClearContents하는 매크로
  • 입력되는 정보는 추후 분석을 위해 정형화된 내용으로 입력되어야 한다.
    • 주관식으로 작성받은 데이터도 통계처리를 위해서는 계량화시키는 작업 필요
      ※ 주관식 데이터 수집은 꼭 필요한 경우에만 진행해야 사후 업무 부담이 줄어든다.
    • 레코드는 단절되면 안된다.

참조자료