데이터 과학 특강 - accidentlywoo/legacyVue GitHub Wiki

데이터 과학 특강


V4

Big Data Challenges

  • 어떻게 데이터를 효율적으로 구성할 것인가.
  • *데이터 분석 - 인사이트 + 부가가치 창출

과학의 발전

  • 현상 설명 -> 이론적(수식적) 설명 -> 컴퓨터 시뮬레이션 -> 데이터 탐색(ToDay) -> Data Driven Science(Future)

데싸란 무엇인가

  • Computer Science - Statistics - Domain Science(어떤 분야를 지칭 - 금융, 의료 등..)

A Data Scientist is..

Data Scientist = statistician + programmer + coarch + storyteller + artist

  • Shlomo Aragmon

data understand process extract value visualize communicate ubquitous data

Typical Data Science Pipeline

  1. Ask an interesting question.
  2. Get the data.
  3. Explore the data. + visualize + outlier 제거
  4. Model the data. -> 머신러닝 모델링
  5. Communicate and visualize the results. -> 모델링을 통해 얻은 인사이트를 활용.

Data Cleaning

80% of the effort

  • 프로그래밍 스킬이 필요하다.
  • AI, ML, Big Data, DL

Big data -> AI : 가치 발굴, 인사이트

  • Industries to be transformed by ML, BD
    1. Healthcare
    2. Finance
    3. Insurance

Introduction / Data Muning

  • Scientists
    • Data driven
    • Try to understand messy natural world
    • Focus on results(findings)
    • Discover things
    • Data is 1st class citizen -> Care what it means -> Nothing is completely

Data Munging (Data Wrangling)

  • prepairing

Data Munging steps

  1. Acquiring Data Common Data Formats : CSV, XML, JSON, Getting data from Relational DB Getting data using API : Rest API Web Scraping( HTML DOM ): API가 있는지 먼저 확인을 하고, 스크래퍼가 있는지 확인하고 없으면 만들어써라. Proprietary Data sources Government Data Source : FOI Crowdsourcing : wikipedia / Freebase, Amazon Turk에 요청해서 원하는 데이터 소스를 얻을 수 있다.

  2. Cleaning Data : Garbage In, Garbase Out Error vs Artifacts Character Representations Name Unification Dealing with missing data : Setting such values to zero is generally wrong Imputation Methods : Heuristic-based imputation, Mean value imputation, Random value imputation Outlier Detection : fix don't just delete

  • Normalization and Z-scored
    • Zi = (Xi(observed i)-X flat(mean))/ 감꼭지