Dataset - SergiP/TCVD_Practica1 GitHub Wiki

La información que contiene el dataset es la siguiente:

  • Referencia - Valor a partir del cual se puede acceder a la página original. Sería equivalente con una clave primaria si cargamos los datos en una base de datos.
  • Departamento - Valor del departamento que ha publicado la información en el BOE.
  • Sección - Valor de la sección a la que va dirigida la información.
  • Título - Resumen de la información extraída del artículo del BOE
  • Texto - Información extraída del artículo del BOE en el que aparece detallada la información.

Los datos son del día de ejecución. Está preparado para ejecutarlo cada día y así almacenar la información relevante del BOE de manera diaria.

Para recoger esta información se ha utilizado una técnica de scraping a través de la librería BeautifulSoup de Python. La página web no dispone de API pública de extracción de información.