Convenciones grupo 172 python - alkemyTech/OT172-python GitHub Wiki

Proyecto 1

Proyecto 2

Version Apache Hadoop (SIN DECIDIR AUN)

Apache Hadoop 3.3 and upper supports Java 8 and Java 11 (runtime only)
- Please compile Hadoop with Java 8. Compiling Hadoop with Java 11 is not supported: HADOOP-16795 - Java 11 compile support Open
Apache Hadoop from 3.0.x to 3.2.x now supports only Java 8
Apache Hadoop from 2.7.x to 2.10.x support both Java 7 and 8

Estructura

/Bigdata
|--/dataGroupA
| | .py
| | .py
| | .py
|
|--/dataGroupB
| | .py
| | .py
| | .py
| |
|--/dataGroupC
| ...
|
|--/lib
| | init.py
| | la_funcion_chunk.py
|
|--/dataset
| | .xml
| | .xml
| | ...
|
|--/files
| | to10tagA.txt
| | cantidadPalabrasC.txt
| | puntajePromedioH.txt
| | ...

Archivo .env

"files_path" = "/bigdata/files"
- Ruta donde guardar los datos procesados en formato texto plano. Ejemplo:
  - to10tagA.txt
  - cantidadPalabrasC.txt
  - puntajePromedioH.txt
- Poner el nombre que se quiera pero al final en mayuscula la letra correspondiente al grupo de datos
"dataset_path" = "/bigdata/dataset/"
- Ruta donde estaran todos los xml que usaremos, obviamente no los pusheen por que si no el volumen del repositorio aumentara bastante

Rutas de archivos

/bigdata/dataset/ -> todos los .xml que se usaran

Ademas

un .py para cada funcionalidad
modularizar funcion chunk -> usar la misma para cada .py