20171002 - TNUI-UB/grupA-sessions GitHub Wiki

Sessió del 2 d'octubre 2017

Pràctica 0

  • comprehensions, intro a paquets data science:
    • NumPy i la seva estrucutura de dades: el ndararay: els ndarray són uns (objectes) array multidimensional de dades optimitzat per a ser processat amb llibreries de baix nivell sense fer cap còpia de les dades emmagatzemandes en un programa Python.
    • pandas: mòdul que afegeix unes estructura de dades noves que ens permet manipular dades.
  • Docker, Anaconda o Python 3.6 amb virtualenv.
  • GitHub Classroom.
  • Dubtes? Revisem un exercici de comprehensions.

Exercici 6. Obteniu el crític que ha donat la puntuació més elevada a la pel·lícula “Superman Returns”. Solució:

L = ((critics[x]['Superman Returns'], x) for x in critics if 'Superman Returns' in critics[x])
print(max(L)[1])
  • Recordem el que comentàvem a la pràctica 0: El codi cal anar pujant-l'ho de forma progressiva, és a dir cada commit hauria de fer referència a un conjunt de canvis determinats.

Pràctica 1: Apriori

  • Items freqüents (apunts assignatura)

  • a partir d'aquesta pràctica, ja avaluable, totes es faran en parelles.

  • es lliurarà la setmana del 23 d'octubre.

En aquesta pràctica resoldrem un problema utilitzant dos algorismes:

  • Naive Bayes
  • Apriorisme

Probabilitat condicionada

Si A i B independents:

P(A i B) = P(A) * P(B)

---> P(dau senar i dilluns) = 1/2 * 1/7

Si A i B condicionats:

P(A|B) = P(A i B) / P(B)  # prob que passi A si ha passat B

---> P(dau senar i 3) = 1/6 / 1/2 = 1/3

Teorema Bayes

P(An|B) = P(An i B) / P(B) = P(An) * P(B|An) / P(B)

(sabent que ha passat B, com de probable és que hagi passat a través d'An?)

  • confiança: probabilitat condicional de j donats i1, i2, i3, . . . , ik.
  • interès: diferència entre la seva confiança i la fracció de bosses (sobre el total) que contenen j.