Convenciones grupo 172 python - alkemyTech/OT172-python GitHub Wiki
Proyecto 1
Proyecto 2
Version Apache Hadoop (SIN DECIDIR AUN)
- Apache Hadoop 3.3 and upper supports Java 8 and Java 11 (runtime only)
- Please compile Hadoop with Java 8. Compiling Hadoop with Java 11 is not supported: HADOOP-16795 - Java 11 compile support Open
- Apache Hadoop from 3.0.x to 3.2.x now supports only Java 8
- Apache Hadoop from 2.7.x to 2.10.x support both Java 7 and 8
Estructura
/Bigdata
|--/dataGroupA
| | .py
| | .py
| | .py
|
|--/dataGroupB
| | .py
| | .py
| | .py
| |
|--/dataGroupC
| ...
|
|--/lib
| | init.py
| | la_funcion_chunk.py
|
|--/dataset
| | .xml
| | .xml
| | ...
|
|--/files
| | to10tagA.txt
| | cantidadPalabrasC.txt
| | puntajePromedioH.txt
| | ...
Archivo .env
-
"files_path" = "/bigdata/files"
- Ruta donde guardar los datos procesados en formato texto plano. Ejemplo:
- to10tagA.txt
- cantidadPalabrasC.txt
- puntajePromedioH.txt
- Poner el nombre que se quiera pero al final en mayuscula la letra correspondiente al grupo de datos
- Ruta donde guardar los datos procesados en formato texto plano. Ejemplo:
-
"dataset_path" = "/bigdata/dataset/"
- Ruta donde estaran todos los xml que usaremos, obviamente no los pusheen por que si no el volumen del repositorio aumentara bastante
Rutas de archivos
- /bigdata/dataset/ -> todos los .xml que se usaran
Ademas
-
un .py para cada funcionalidad
-
modularizar funcion chunk -> usar la misma para cada .py