Sesión 1 ‐ Exploración inicial del dataset - AnthonyJ7/Documentaci-n-Reto-1---Practicum GitHub Wiki
Fecha: 01 de junio de 2025
Duración: 5 horas
Reto: Reto 01 – Homologación de Carreras con Power BI
Herramienta utilizada:
- Microsoft Excel (exploración inicial del dataset)
- Pagina Excel para filtros: https://support.microsoft.com/en-us/office/filter-function-f4f7cb66-82eb-4767-8f7c-4877ad80c759
Videos informativos:
- Power BI: https://www.youtube.com/watch?v=vufMFnWpINo
- Excel: https://www.youtube.com/watch?v=mats7wAKvG8
Revisar el archivo de datos de oferta académica nacional proporcionado por Datos Abiertos Ecuador, identificar las columnas clave necesarias para el análisis, y aplicar un filtro para separar las carreras pertenecientes a la Universidad Técnica Particular de Loja (UTPL), como preparación para el procesamiento posterior en Python.
Nombre del archivo: base-datos-abiertos_oferta-academica_05022025.xlsx
Fuente oficial: https://acortar.link/HQ5AJg
Contenido: Registro de la oferta académica 2025 de instituciones de educación superior en Ecuador.
Formato: Excel (.xlsx)
Columna | Descripción |
---|---|
NOMBRE_IES | Nombre de la institución de educación superior |
TIPO_IES | Tipo de institución (universitaria, técnica, tecnológica, etc.) |
TIPO_FINANCIAMIENTO | Financiamiento (público o privado) |
NOMBRE_CARRERA | Nombre completo de la carrera/programa ofrecido |
CAMPO_AMPLIO | Clasificación general del área del conocimiento |
NIVEL_FORACIÓN | Nivel académico (tercer nivel, cuarto nivel, técnico, etc.) |
MODALIDAD | Modalidad de estudio (presencial, en línea, híbrida) |
PROVINCIA | Provincia donde se oferta la carrera |
CANTÓN | Cantón correspondiente |
ESTADO | Estado de la carrera (activa, cerrada, etc.) |
Las columnas están bien definidas y estructuradas para su uso en análisis exploratorios, limpieza y emparejamiento posterior.
Dataset representativo (3 primeros valores):
NOMBRE_IES | TIPO_IES | TIPO_FINANCIAMIENTO | NOMBRE_CARRERA | CAMPO_AMPLIO | NIVEL_FORMACIÓN | MODALIDAD | PROVINCIA | CANTÓN | ESTADO |
---|---|---|---|---|---|---|---|---|---|
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | UNIVERSIDAD | PARTICULAR COFINANCIADA | CIENCIAS DE LA EDUCACION MENCION QUIMICA Y BIOLOGIA | EDUCACION | TERCER NIVEL O PREGRADO | DISTANCIA | LOJA | LOJA | NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS |
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | UNIVERSIDAD | PARTICULAR COFINANCIADA | CIENCIAS DE LA EDUCACION MENCION FISICA Y MATEMATICA | EDUCACION | TERCER NIVEL O PREGRADO | DISTANCIA | LOJA | LOJA | NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS |
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | UNIVERSIDAD | PARTICULAR COFINANCIADA | ECONOMIA | CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO | TERCER NIVEL O PREGRADO | PRESENCIAL | LOJA | LOJA | NO VIGENTE HABILITADO PARA REGISTRO DE TÍTULOS |
Se identificaron las siguientes columnas como esenciales para el proceso de homologación de carreras y visualización en Power BI:
-
NOMBRE_IES
– Para distinguir entre instituciones (clave para separar UTPL de las demás). -
NOMBRE_CARRERA
– Elemento principal para realizar comparación semántica. -
CAMPO_AMPLIO
– Para análisis por áreas del conocimiento. -
NIVEL_FORMACIÓN
– Determina el nivel académico ofrecido. -
MODALIDAD
– Para filtrar resultados según el tipo de estudio. -
PROVINCIA
– Para realizar segmentación geográfica.
Otras columnas como
TIPO_IES
,TIPO_FINANCIAMIENTO
,CANTÓN
oESTADO
se consideraron secundarias y fueron descartadas para esta etapa.
Columnas Filtradas para análisis (Excel):
NOMBRE_IES | NOMBRE_CARRERA | CAMPO_AMPLIO | NIVEL_FORMACIÓN | MODALIDAD | PROVINCIA |
---|---|---|---|---|---|
ESCUELA POLITECNICA NACIONAL | INGENIERIA AGROINDUSTRIAL | AGRICULTURA | TERCER NIVEL O PREGRADO | PRESENCIAL | PICHINCHA |
ESCUELA POLITECNICA NACIONAL | INGENIERIA EN CIENCIAS ECONOMICAS Y FINANCIERAS | CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO | TERCER NIVEL O PREGRADO | PRESENCIAL | PICHINCHA |
ESCUELA POLITECNICA NACIONAL | INGENIERIA EN ELECTRONICA Y REDES DE INFORMACION | INGENIERIA, INDUSTRIA Y CONSTRUCCION | TERCER NIVEL O PREGRADO | PRESENCIAL | PICHINCHA |
Filtro de la columna NOMBRE_IES
por UNIVERSIDAD TECNICA PARTICULAR DE LOJA
:
NOMBRE_IES | NOMBRE_CARRERA | CAMPO_AMPLIO | NIVEL_FORMACIÓN | MODALIDAD | PROVINCIA |
---|---|---|---|---|---|
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | CIENCIAS DE LA EDUCACION MENCION QUIMICA Y BIOLOGIA | EDUCACION | TERCER NIVEL O PREGRADO | DISTANCIA | LOJA |
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | CIENCIAS DE LA EDUCACION MENCION FISICA Y MATEMATICA | EDUCACION | TERCER NIVEL O PREGRADO | DISTANCIA | LOJA |
UNIVERSIDAD TECNICA PARTICULAR DE LOJA | ECONOMIA | CIENCIAS SOCIALES, EDUCACION COMERCIAL Y DERECHO | TERCER NIVEL O PREGRADO | PRESENCIAL | LOJA |
- Exploración general del archivo Excel, verificación de estructura y revisión manual de las primeras filas.
- Verificación de los nombres de columnas exactos, asegurando coincidencia para su futura manipulación en Python.
-
Identificación del nombre de la UTPL dentro del dataset bajo la columna
NOMBRE_IES
. Se concluye que:- La institución aparece como:
"UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA"
.
- La institución aparece como:
-
Definición del criterio de filtrado para separar las carreras de la UTPL del resto del país:
- Coincidencia exacta en
NOMBRE_IES
.
- Coincidencia exacta en
- Planificación del tratamiento de datos para la próxima sesión: limpieza y normalización de campos clave.
- Se identificaron y documentaron las columnas más relevantes.
- Se definieron los criterios de filtrado de carreras UTPL.
- Se sentaron las bases para continuar en Python el tratamiento de datos, usando como claves
NOMBRE_CARRERA
yNOMBRE_IES
.
- Leer el archivo en Python (Google Colab o Jupyter).
- Aplicar técnicas de limpieza:
- Convertir texto a minúsculas.
- Eliminar tildes y espacios extra.
- Homogeneizar nombres de carreras e instituciones.
- Crear dos datasets: uno para UTPL, otro para el resto de universidades.