Convenciones - alkemyTech/OT234-python GitHub Wiki
Índice
Estructura de Archivos
Se utilizará la estructura de archivos recomendada por el sitio ASTRONOMER, siendo la estructura como se muestra a continuación:
OT234-PYTHON/airflow/
├── dags/
│ ├── example-dag1.py
│ └── example-dag2.py
├── plugins/
├── include/
│ ├── query1.sql
│ └── query1.sql
├── dataset/
│ ├── processed1.csv
│ └── processed1.csv
├── files/
│ ├── unprocessed1.csv
│ ├── unprocessed2.csv
├── packages.txt
└── requirements.txt
Nomenclatura de Archivos
Archivos .sql
Se propone el uso de la siguiente estructura para los nombres de los archivos .sql de consultas:
UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.sql
-
UNIV = Universidad consultada. Se utilizaria código de 4 caracteres según la siguiente tabla.
UFlo = Universidad De Flores UNVM = Universidad Nacional De Villa María UNCo = Univ. Nacional Del Comahue USal = Universidad Del Salvador UNJu = Universidad Nacional De Jujuy UPal = Universidad De Palermo UTNa = Universidad Tecnológica Nacional UNTF = Universidad Nacional De Tres De Febrero UNLP = Universidad Nacional De La Pampa UAIn = Universidad Abierta Interamericana UMor = Universidad De Morón UNRC = Universidad Nacional De Río Cuarto FLCS = Facultad Latinoamericana De Ciencias Sociales UJFK = Universidad J. F. Kennedy UCin = Universidad Del Cine UBAi = Universidad De Buenos Aires
-
Fecha_Inicio = Fecha 'desde' referida al período de consulta en formato 'AAAA-MM-DD'.
-
Fecha_Fin = Fecha 'hasta' referida al período de consulta en formato 'AAAA-MM-DD'.
-
ISSUE = Número de ISSUE de Jira con formato 'OT234-nn'. (Quizás podriamos no considerar el OT234 ya que se repite en todas las issues)
Ejemplo
Para el caso de la Issue OT234-12 con la siguiente descripción:
COMO: Analista de datos QUIERO: Escribir el código de dos consultas SQL, una para cada universidad. PARA: Obtener los datos de las pesonas anotadas en entre las fechas 01/9/2020 al 01/02/2021 para las siguientes facultades: * Universidad De Flores * Universidad Nacional De Villa María Criterios de aceptación: Deben presentar la consulta en un archivo .sql. La consulta debe disponibilizar únicamente la información necesaria para que en un futuro sea procesada y genere los siguientes datos para las fechas indicadas.
Los nombres de los archivo quedarían conformados de la siguiente manera:
UFlo_2020-09-01_2021-02-01_OT234-12.sql
UNVM_2020-09-01_2021-02-01_OT234-12.sql
Archivos .csv
Los datos de la consulta de las bases de datos deberán ser guardados en forma local en formato .csv en la carpeta /OT234-PYTHON/airflow/files/
para su posterior procesado por Pandas. Los nombres de archivos serán similares a los especificados en la consulta sql.
El dataset resultante del procesamiento de Pandas deberá ser guardado en formato .csv en la carpeta /OT234-PYTHON/airflow/dataset/
, previo a ser subido a S3. El formato del archivo debe seguir la convención establecida para los archivos .sql, antecediendo con el prefijo 'dataset_' e incluyendo el issue correspondiente a la operación. La estructura quedará con el siguiente formato:
dataset_UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.csv