Convenciones - alkemyTech/OT234-python GitHub Wiki

Índice

Estructura de Archivos
Nomenclatura de Archivos

Estructura de Archivos

Se utilizará la estructura de archivos recomendada por el sitio ASTRONOMER, siendo la estructura como se muestra a continuación:

OT234-PYTHON/airflow/
├── dags/
│   ├── example-dag1.py
│   └── example-dag2.py
├── plugins/
├── include/
│   ├── query1.sql
│   └── query1.sql
├── dataset/
│   ├── processed1.csv
│   └── processed1.csv
├── files/
│   ├── unprocessed1.csv
│   ├── unprocessed2.csv
├── packages.txt
└── requirements.txt

Nomenclatura de Archivos

Archivos .sql

Se propone el uso de la siguiente estructura para los nombres de los archivos .sql de consultas:

UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.sql

UNIV = Universidad consultada. Se utilizaria código de 4 caracteres según la siguiente tabla.

  UFlo = Universidad De Flores
  UNVM = Universidad Nacional De Villa María
  UNCo = Univ. Nacional Del Comahue 
  USal = Universidad Del Salvador
  UNJu = Universidad Nacional De Jujuy 
  UPal = Universidad De Palermo
  UTNa = Universidad Tecnológica Nacional
  UNTF = Universidad Nacional De Tres De Febrero
  UNLP = Universidad Nacional De La Pampa
  UAIn = Universidad Abierta Interamericana
  UMor = Universidad De Morón
  UNRC = Universidad Nacional De Río Cuarto
  FLCS = Facultad Latinoamericana De Ciencias Sociales
  UJFK = Universidad J. F. Kennedy
  UCin = Universidad Del Cine
  UBAi = Universidad De Buenos Aires

Fecha_Inicio = Fecha 'desde' referida al período de consulta en formato 'AAAA-MM-DD'.
Fecha_Fin = Fecha 'hasta' referida al período de consulta en formato 'AAAA-MM-DD'.
ISSUE = Número de ISSUE de Jira con formato 'OT234-nn'. (Quizás podriamos no considerar el OT234 ya que se repite en todas las issues)

Ejemplo

Para el caso de la Issue OT234-12 con la siguiente descripción:

   COMO: Analista de datos
   QUIERO: Escribir el código de dos consultas SQL, una para cada universidad.
   PARA: Obtener los datos de las pesonas anotadas en entre las fechas 01/9/2020 al 01/02/2021 para las siguientes facultades: 
   * Universidad De Flores
   * Universidad Nacional De Villa María
   Criterios de aceptación:
  Deben presentar la consulta en un archivo .sql. 
   La consulta debe disponibilizar únicamente la información necesaria para que en un futuro sea procesada y genere los siguientes datos para las fechas indicadas.

Los nombres de los archivo quedarían conformados de la siguiente manera:

UFlo_2020-09-01_2021-02-01_OT234-12.sql

UNVM_2020-09-01_2021-02-01_OT234-12.sql

Archivos .csv

Los datos de la consulta de las bases de datos deberán ser guardados en forma local en formato .csv en la carpeta /OT234-PYTHON/airflow/files/ para su posterior procesado por Pandas. Los nombres de archivos serán similares a los especificados en la consulta sql.

El dataset resultante del procesamiento de Pandas deberá ser guardado en formato .csv en la carpeta /OT234-PYTHON/airflow/dataset/ , previo a ser subido a S3. El formato del archivo debe seguir la convención establecida para los archivos .sql, antecediendo con el prefijo 'dataset_' e incluyendo el issue correspondiente a la operación. La estructura quedará con el siguiente formato:

dataset_UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.csv