데이터 과학 특강2 - accidentlywoo/legacyVue GitHub Wiki
데이터 과학 특강2
explore the data / visualize
Binomial Distribution
-
Z - Score P{X = x} = (관측 횟수(Trial), input)1x2 p^x (1-p)^(n-x)
-
Power Law Distrubution they define 80-20 rules : 20 % of the X get 80% of the Y.
When is an Observation Meaningful?
- Comparing Population Means
-
Permutation Tests and P-values 얼마만큼 이 value가 중요한가/ 레어한가를 관측.
-
Central Limit Theorem 그 분포가 어떻던간에 다수의 랜덤 variables는 노말분포를 따른다.
-
CLT(central limit theorem) Statisticla Hypothesis Testing
Visualizing Data
- ab test -> 다른버전들을 제공해서 통계적으로 분석
- exploratory Data Analysis
- Quantitative : 양과 순서를 결정할 수 있는 자료
- Ordinal : 양을 표현하기 부적합하지만, 순서는 정할 수 있음
- Nominal : 양과 순서를 정할 수 없는 데이터.
-> 데이터 시각화는 불필요한 효과를 줄이고, 명확하게 표현한다.
- bar chart : 길이 비교, 독립적인 / 카테고리컬하는 데이터
- line char : position , 시계열 -> Banking to 45degree
2개이상의 variables를 굳이 한곳에 표현하고 싶다. -> bubble charts : 가장 중요한 2가지x,y, 크기, 색깔
-
Pie vs Bar Charts 합해서 표현할 때는 Pie차트가 좋고, 개별적인 비교는 바차트가 좋다.
-
pie vs donut -> pie win (donut missing angle)
-
subset끼리의 비교는 컴포지션을 사용할 수 있다.
-
frequency vs density -> density win