Sesión 1 ‐ Exploración inicial del dataset - AnthonyJ7/Documentaci-n-Reto-1---Practicum GitHub Wiki

Fecha: 01 de junio de 2025
Duración: 5 horas
Reto: Reto 01 – Homologación de Carreras con Power BI
Herramienta utilizada:

Videos informativos:


🎯 Objetivo general de la sesión

Revisar el archivo de datos de oferta académica nacional proporcionado por Datos Abiertos Ecuador, identificar las columnas clave necesarias para el análisis, y aplicar un filtro para separar las carreras pertenecientes a la Universidad Técnica Particular de Loja (UTPL), como preparación para el procesamiento posterior en Python.


📁 Descripción del archivo analizado

Nombre del archivo: base-datos-abiertos_oferta-academica_05022025.xlsx
Fuente oficial: https://acortar.link/HQ5AJg
Contenido: Registro de la oferta académica 2025 de instituciones de educación superior en Ecuador.
Formato: Excel (.xlsx)


🔍 Columnas encontradas en el archivo

Columna Descripción
NOMBRE_IES Nombre de la institución de educación superior
TIPO_IES Tipo de institución (universitaria, técnica, tecnológica, etc.)
TIPO_FINANCIAMIENTO Financiamiento (público o privado)
NOMBRE_CARRERA Nombre completo de la carrera/programa ofrecido
CAMPO_AMPLIO Clasificación general del área del conocimiento
NIVEL_FORACIÓN Nivel académico (tercer nivel, cuarto nivel, técnico, etc.)
MODALIDAD Modalidad de estudio (presencial, en línea, híbrida)
PROVINCIA Provincia donde se oferta la carrera
CANTÓN Cantón correspondiente
ESTADO Estado de la carrera (activa, cerrada, etc.)

Las columnas están bien definidas y estructuradas para su uso en análisis exploratorios, limpieza y emparejamiento posterior.

Dataset representativo (3 primeros valores):

NOMBRE_IES TIPO_IES TIPO_FINANCIAMIENTO NOMBRE_CARRERA CAMPO_AMPLIO NIVEL_FORMACIÓN MODALIDAD PROVINCIA CANTÓN ESTADO
UNIVERSIDAD TECNICA PARTICULAR DE LOJA UNIVERSIDAD PARTICULAR COFINANCIADA CIENCIAS DE LA EDUCACION MENCION QUIMICA Y BIOLOGIA EDUCACION TERCER NIVEL O PREGRADO DISTANCIA LOJA LOJA NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS
UNIVERSIDAD TECNICA PARTICULAR DE LOJA UNIVERSIDAD PARTICULAR COFINANCIADA CIENCIAS DE LA EDUCACION MENCION FISICA Y MATEMATICA EDUCACION TERCER NIVEL O PREGRADO DISTANCIA LOJA LOJA NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS
UNIVERSIDAD TECNICA PARTICULAR DE LOJA UNIVERSIDAD PARTICULAR COFINANCIADA ECONOMIA CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO TERCER NIVEL O PREGRADO PRESENCIAL LOJA LOJA NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS

📌 Columnas seleccionadas para el análisis

Se identificaron las siguientes columnas como esenciales para el proceso de homologación de carreras y visualización en Power BI:

  • NOMBRE_IES – Para distinguir entre instituciones (clave para separar UTPL de las demás).
  • NOMBRE_CARRERA – Elemento principal para realizar comparación semántica.
  • CAMPO_AMPLIO – Para análisis por áreas del conocimiento.
  • NIVEL_FORMACIÓN – Determina el nivel académico ofrecido.
  • MODALIDAD – Para filtrar resultados según el tipo de estudio.
  • PROVINCIA – Para realizar segmentación geográfica.

Otras columnas como TIPO_IES, TIPO_FINANCIAMIENTO, CANTÓN o ESTADO se consideraron secundarias y fueron descartadas para esta etapa.

Columnas Filtradas para análisis (Excel):

NOMBRE_IES NOMBRE_CARRERA CAMPO_AMPLIO NIVEL_FORMACIÓN MODALIDAD PROVINCIA
ESCUELA POLITECNICA NACIONAL INGENIERIA AGROINDUSTRIAL AGRICULTURA TERCER NIVEL O PREGRADO PRESENCIAL PICHINCHA
ESCUELA POLITECNICA NACIONAL INGENIERIA EN CIENCIAS ECONOMICAS Y FINANCIERAS CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO TERCER NIVEL O PREGRADO PRESENCIAL PICHINCHA
ESCUELA POLITECNICA NACIONAL INGENIERIA EN ELECTRONICA Y REDES DE INFORMACION INGENIERIA, INDUSTRIA Y CONSTRUCCION TERCER NIVEL O PREGRADO PRESENCIAL PICHINCHA

Filtro de la columna NOMBRE_IES por UNIVERSIDAD TECNICA PARTICULAR DE LOJA:

NOMBRE_IES NOMBRE_CARRERA CAMPO_AMPLIO NIVEL_FORMACIÓN MODALIDAD PROVINCIA
UNIVERSIDAD TECNICA PARTICULAR DE LOJA CIENCIAS DE LA EDUCACION MENCION QUIMICA Y BIOLOGIA EDUCACION TERCER NIVEL O PREGRADO DISTANCIA LOJA
UNIVERSIDAD TECNICA PARTICULAR DE LOJA CIENCIAS DE LA EDUCACION MENCION FISICA Y MATEMATICA EDUCACION TERCER NIVEL O PREGRADO DISTANCIA LOJA
UNIVERSIDAD TECNICA PARTICULAR DE LOJA ECONOMIA CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO TERCER NIVEL O PREGRADO PRESENCIAL LOJA

🧮 Actividades realizadas

  1. Exploración general del archivo Excel, verificación de estructura y revisión manual de las primeras filas.
  2. Verificación de los nombres de columnas exactos, asegurando coincidencia para su futura manipulación en Python.
  3. Identificación del nombre de la UTPL dentro del dataset bajo la columna NOMBRE_IES. Se concluye que:
    • La institución aparece como: "UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA".
  4. Definición del criterio de filtrado para separar las carreras de la UTPL del resto del país:
    • Coincidencia exacta en NOMBRE_IES.
  5. Planificación del tratamiento de datos para la próxima sesión: limpieza y normalización de campos clave.

📦 Resultado de esta sesión

  • Se identificaron y documentaron las columnas más relevantes.
  • Se definieron los criterios de filtrado de carreras UTPL.
  • Se sentaron las bases para continuar en Python el tratamiento de datos, usando como claves NOMBRE_CARRERA y NOMBRE_IES.

📌 Próximos pasos (Sesión 2)

  • Leer el archivo en Python (Google Colab o Jupyter).
  • Aplicar técnicas de limpieza:
    • Convertir texto a minúsculas.
    • Eliminar tildes y espacios extra.
    • Homogeneizar nombres de carreras e instituciones.
  • Crear dos datasets: uno para UTPL, otro para el resto de universidades.

⚠️ **GitHub.com Fallback** ⚠️