Convenciones - alkemyTech/OT234-python GitHub Wiki

Índice

  1. Estructura de Archivos

  2. Nomenclatura de Archivos

    1. Archivos SQL
    2. Codificación de Universidades
      1. Ejemplo
    3. Archivos CSV

Estructura de Archivos

Se utilizará la estructura de archivos recomendada por el sitio ASTRONOMER, siendo la estructura como se muestra a continuación:

OT234-PYTHON/airflow/
├── dags/
│   ├── example-dag1.py
│   └── example-dag2.py
├── plugins/
├── include/
│   ├── query1.sql
│   └── query1.sql
├── dataset/
│   ├── processed1.csv
│   └── processed1.csv
├── files/
│   ├── unprocessed1.csv
│   ├── unprocessed2.csv
├── packages.txt
└── requirements.txt

Nomenclatura de Archivos

Archivos .sql

Se propone el uso de la siguiente estructura para los nombres de los archivos .sql de consultas:

UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.sql
  • UNIV = Universidad consultada. Se utilizaria código de 4 caracteres según la siguiente tabla.

      UFlo = Universidad De Flores
      UNVM = Universidad Nacional De Villa María
      UNCo = Univ. Nacional Del Comahue 
      USal = Universidad Del Salvador
      UNJu = Universidad Nacional De Jujuy 
      UPal = Universidad De Palermo
      UTNa = Universidad Tecnológica Nacional
      UNTF = Universidad Nacional De Tres De Febrero
      UNLP = Universidad Nacional De La Pampa
      UAIn = Universidad Abierta Interamericana
      UMor = Universidad De Morón
      UNRC = Universidad Nacional De Río Cuarto
      FLCS = Facultad Latinoamericana De Ciencias Sociales
      UJFK = Universidad J. F. Kennedy
      UCin = Universidad Del Cine
      UBAi = Universidad De Buenos Aires
    
  • Fecha_Inicio = Fecha 'desde' referida al período de consulta en formato 'AAAA-MM-DD'.

  • Fecha_Fin = Fecha 'hasta' referida al período de consulta en formato 'AAAA-MM-DD'.

  • ISSUE = Número de ISSUE de Jira con formato 'OT234-nn'. (Quizás podriamos no considerar el OT234 ya que se repite en todas las issues)

Ejemplo

Para el caso de la Issue OT234-12 con la siguiente descripción:

   COMO: Analista de datos
   QUIERO: Escribir el código de dos consultas SQL, una para cada universidad.
   PARA: Obtener los datos de las pesonas anotadas en entre las fechas 01/9/2020 al 01/02/2021 para las siguientes facultades: 
   * Universidad De Flores
   * Universidad Nacional De Villa María
   Criterios de aceptación:
  Deben presentar la consulta en un archivo .sql. 
   La consulta debe disponibilizar únicamente la información necesaria para que en un futuro sea procesada y genere los siguientes datos para las fechas indicadas.

Los nombres de los archivo quedarían conformados de la siguiente manera:

UFlo_2020-09-01_2021-02-01_OT234-12.sql

UNVM_2020-09-01_2021-02-01_OT234-12.sql

Archivos .csv

Los datos de la consulta de las bases de datos deberán ser guardados en forma local en formato .csv en la carpeta /OT234-PYTHON/airflow/files/ para su posterior procesado por Pandas. Los nombres de archivos serán similares a los especificados en la consulta sql.

El dataset resultante del procesamiento de Pandas deberá ser guardado en formato .csv en la carpeta /OT234-PYTHON/airflow/dataset/ , previo a ser subido a S3. El formato del archivo debe seguir la convención establecida para los archivos .sql, antecediendo con el prefijo 'dataset_' e incluyendo el issue correspondiente a la operación. La estructura quedará con el siguiente formato:

dataset_UNIV_Fecha-Inicio_Fecha-Fin_ISSUE.csv