데이터 과학 특강 - accidentlywoo/legacyVue GitHub Wiki

데이터 과학 특강

Big Data Challenges

과학의 발전

현상 설명 -> 이론적(수식적) 설명 -> 컴퓨터 시뮬레이션 -> 데이터 탐색(ToDay) -> Data Driven Science(Future)

데싸란 무엇인가

A Data Scientist is..

Data Scientist = statistician + programmer + coarch + storyteller + artist

Shlomo Aragmon

data understand process extract value visualize communicate ubquitous data

80% of the effort

Big data -> AI : 가치 발굴, 인사이트

Data Munging (Data Wrangling)

Data Munging steps

Acquiring Data Common Data Formats : CSV, XML, JSON, Getting data from Relational DB Getting data using API : Rest API Web Scraping( HTML DOM ): API가 있는지 먼저 확인을 하고, 스크래퍼가 있는지 확인하고 없으면 만들어써라. Proprietary Data sources Government Data Source : FOI Crowdsourcing : wikipedia / Freebase, Amazon Turk에 요청해서 원하는 데이터 소스를 얻을 수 있다.
Cleaning Data : Garbage In, Garbase Out Error vs Artifacts Character Representations Name Unification Dealing with missing data : Setting such values to zero is generally wrong Imputation Methods : Heuristic-based imputation, Mean value imputation, Random value imputation Outlier Detection : fix don't just delete