Convenciones grupo 172 python - alkemyTech/OT172-python GitHub Wiki

Proyecto 1

Proyecto 2

Version Apache Hadoop (SIN DECIDIR AUN)

  • Apache Hadoop 3.3 and upper supports Java 8 and Java 11 (runtime only)
    • Please compile Hadoop with Java 8. Compiling Hadoop with Java 11 is not supported: HADOOP-16795 - Java 11 compile support Open
  • Apache Hadoop from 3.0.x to 3.2.x now supports only Java 8
  • Apache Hadoop from 2.7.x to 2.10.x support both Java 7 and 8

Estructura

/Bigdata
|--/dataGroupA
| | .py
| | .py
| | .py
|
|--/dataGroupB
| | .py
| | .py
| | .py
| |
|--/dataGroupC
| ...
|
|--/lib
| | init.py
| | la_funcion_chunk.py
|
|--/dataset
| | .xml
| | .xml
| | ...
|
|--/files
| | to10tagA.txt
| | cantidadPalabrasC.txt
| | puntajePromedioH.txt
| | ...

Archivo .env

  • "files_path" = "/bigdata/files"

    • Ruta donde guardar los datos procesados en formato texto plano. Ejemplo:
      • to10tagA.txt
      • cantidadPalabrasC.txt
      • puntajePromedioH.txt
    • Poner el nombre que se quiera pero al final en mayuscula la letra correspondiente al grupo de datos
  • "dataset_path" = "/bigdata/dataset/"

    • Ruta donde estaran todos los xml que usaremos, obviamente no los pusheen por que si no el volumen del repositorio aumentara bastante

Rutas de archivos

  • /bigdata/dataset/ -> todos los .xml que se usaran

Ademas

  • un .py para cada funcionalidad

  • modularizar funcion chunk -> usar la misma para cada .py