Dataset - SergiP/TCVD_Practica1 GitHub Wiki
La información que contiene el dataset es la siguiente:
- Referencia - Valor a partir del cual se puede acceder a la página original. Sería equivalente con una clave primaria si cargamos los datos en una base de datos.
- Departamento - Valor del departamento que ha publicado la información en el BOE.
- Sección - Valor de la sección a la que va dirigida la información.
- Título - Resumen de la información extraída del artículo del BOE
- Texto - Información extraída del artículo del BOE en el que aparece detallada la información.
Los datos son del día de ejecución. Está preparado para ejecutarlo cada día y así almacenar la información relevante del BOE de manera diaria.
Para recoger esta información se ha utilizado una técnica de scraping a través de la librería BeautifulSoup de Python. La página web no dispone de API pública de extracción de información.