데이터 과학 특강2 - accidentlywoo/legacyVue GitHub Wiki

데이터 과학 특강2


explore the data / visualize

Binomial Distribution

  • Z - Score P{X = x} = (관측 횟수(Trial), input)1x2 p^x (1-p)^(n-x)

  • Power Law Distrubution they define 80-20 rules : 20 % of the X get 80% of the Y.

When is an Observation Meaningful?

  • Comparing Population Means
  • Permutation Tests and P-values 얼마만큼 이 value가 중요한가/ 레어한가를 관측.

  • Central Limit Theorem 그 분포가 어떻던간에 다수의 랜덤 variables는 노말분포를 따른다.

  • CLT(central limit theorem) Statisticla Hypothesis Testing

Visualizing Data

  • ab test -> 다른버전들을 제공해서 통계적으로 분석
  • exploratory Data Analysis
    • Quantitative : 양과 순서를 결정할 수 있는 자료
    • Ordinal : 양을 표현하기 부적합하지만, 순서는 정할 수 있음
    • Nominal : 양과 순서를 정할 수 없는 데이터.

-> 데이터 시각화는 불필요한 효과를 줄이고, 명확하게 표현한다.

  • bar chart : 길이 비교, 독립적인 / 카테고리컬하는 데이터
  • line char : position , 시계열 -> Banking to 45degree

2개이상의 variables를 굳이 한곳에 표현하고 싶다. -> bubble charts : 가장 중요한 2가지x,y, 크기, 색깔

  • Pie vs Bar Charts 합해서 표현할 때는 Pie차트가 좋고, 개별적인 비교는 바차트가 좋다.

  • pie vs donut -> pie win (donut missing angle)

  • subset끼리의 비교는 컴포지션을 사용할 수 있다.

  • frequency vs density -> density win