Home - Chavic12/ProyectoData GitHub Wiki

Extracción de Datos mediante Scrapy

Universidad técnica particular de Loja UTPL

Introducción

En el marco del presente proyecto, se llevó a cabo la extracción de datos informativos de cada carrera ofrecida por la Universidad Técnica Particular de Loja.

Utilizando la poderosa herramienta de Beautiful Soup, con la cual se exploró la URL https://www.utpl.edu.ec con el propósito de recopilar información relevante para un análisis posterior.

La información contiene una variedad de campos, incluidos nombres de la carrera, número de ciclos, título, modalidad,detalles de la carrera, materias, ciclo, campo ocupacional entre otros.

El desafío enfrentado en el proceso de scrapear los datos se pudo observar la irregularidad en algunos campos de distintas carreras es decir en la variabilidad de la estructura de las páginas HTML. Por ende se realizó una documentación para tener constancia de los errores o datos faltantes en algunos campos.