데이터 과학 특강 - accidentlywoo/legacyVue GitHub Wiki
데이터 과학 특강
V4
Big Data Challenges
- 어떻게 데이터를 효율적으로 구성할 것인가.
- *데이터 분석 - 인사이트 + 부가가치 창출
과학의 발전
- 현상 설명 -> 이론적(수식적) 설명 -> 컴퓨터 시뮬레이션 -> 데이터 탐색(ToDay) -> Data Driven Science(Future)
데싸란 무엇인가
- Computer Science - Statistics - Domain Science(어떤 분야를 지칭 - 금융, 의료 등..)
A Data Scientist is..
Data Scientist = statistician + programmer + coarch + storyteller + artist
- Shlomo Aragmon
data understand process extract value visualize communicate ubquitous data
Typical Data Science Pipeline
- Ask an interesting question.
- Get the data.
- Explore the data. + visualize + outlier 제거
- Model the data. -> 머신러닝 모델링
- Communicate and visualize the results. -> 모델링을 통해 얻은 인사이트를 활용.
Data Cleaning
80% of the effort
- 프로그래밍 스킬이 필요하다.
- AI, ML, Big Data, DL
Big data -> AI : 가치 발굴, 인사이트
- Industries to be transformed by ML, BD
- Healthcare
- Finance
- Insurance
Introduction / Data Muning
- Scientists
- Data driven
- Try to understand messy natural world
- Focus on results(findings)
- Discover things
- Data is 1st class citizen -> Care what it means -> Nothing is completely
Data Munging (Data Wrangling)
- prepairing
Data Munging steps
-
Acquiring Data Common Data Formats : CSV, XML, JSON, Getting data from Relational DB Getting data using API : Rest API Web Scraping( HTML DOM ): API가 있는지 먼저 확인을 하고, 스크래퍼가 있는지 확인하고 없으면 만들어써라. Proprietary Data sources Government Data Source : FOI Crowdsourcing : wikipedia / Freebase, Amazon Turk에 요청해서 원하는 데이터 소스를 얻을 수 있다.
-
Cleaning Data : Garbage In, Garbase Out Error vs Artifacts Character Representations Name Unification Dealing with missing data : Setting such values to zero is generally wrong Imputation Methods : Heuristic-based imputation, Mean value imputation, Random value imputation Outlier Detection : fix don't just delete
- Normalization and Z-scored
- Zi = (Xi(observed i)-X flat(mean))/ 감꼭지