Almacenamiento BBDD - Mohamed11302/MineriaDeDatosYSistemasMultiagentes GitHub Wiki
La base de datos para nuestro proyecto está almacenada en el VPS contratado. Se ha utilizado MySQL 8.0 como base de datos, almacenando una imagen de esta versión de MySQL en un contenedor de Docker.
Para facilitar la organización y el proceso de mejora de los datos, se ha hecho uso de la arquitectura Medallion. Esta arquitectura establece que debe haber tres capas que contengan datos con diferentes propiedades y garantías. En la práctica, las capas se implementan como bases de datos independientes o como esquemas dentro de un mismo sistema de gestión de bases de datos.
La primera con la que se interactúa recibe el nombre de raw o bronze. En esta, se vuelcan los datos tal cual han sido obtenidos de las fuentes originales. El objetivo es mantener almacenados los datos de partida. Como siempre hay que limpiar y adaptar los datos para usos posteriores más complejos, la siguiente capa, denominada silver almacena los datos un vez han sido sometidos al proceso de limpieza. También es donde los registros de diferentes fuentes que están relacionados son agregados para así ir formando las bases de un modelo de datos. Por último, en gold, se extraen los datos concretos de la capa silver con los que se pretende extraer información. Las tablas que se almacenan en esta capa suelen tener un propósito muy específico y su estructura es tal que no se requieren de más transformaciones para que puedan ser utilizados por algoritmos de machine learning o, en nuestro caso concreto, en los procedimientos existentes para el contraste de hipótesis.