Creación Tarjetas de Datos - Mohamed11302/MineriaDeDatosYSistemasMultiagentes GitHub Wiki

Tarjeta Hipótesis 1: Se venden más vehículos por el aumento del rendimiento de los coches eléctricos

Para la comprobación de nuestra hipótesis número 1, hemos creado esta tarjeta de datos que contiene todos los datos extraídos de los datasets anteriores que hemos considerado de más relevancia para comprobar esta hipótesis. Estos son los datos relativos a la venta de coches eléctricos exclusivamente y sus características.

Para crear esta tarjeta hemos tenido que unir información que estaba en concreto en dos datasets anteriores. Los dos datasets hablaban de vehículos, uno de todas las ventas de vehículos en países y otro de las características exclusivamente de coches eléctricos. En el primer datasets agrupamos todos los datos en función del modelo, quedando solo el modelo y las ventas que tuve en sus respectivos años; mientras que en el segundo datasets tan solo eliminamos la marca y nos quedamos con el modelo y los datos que más nos interesaban del mismo.

Para juntarlos ha habido problemas ya que en que en cada dataset, las versiones de los propios modelos se escribían de formas distintas, es por ello que para cada modelo de coche que tuviera más de una versión, se han hecho la media de sus características y se ha añadido únicamente el modelo como tal, como es en el caso del tesla model 3.

De esta manera nos quedamos con el siguiente diccionario de datos:

Nombre del campo Tipo de dato Descripción
Model String Indica el modelo de coche del que hablan las características.
Year Int Es el número de ventas que el modelo tuvo ese año mundialmente.
AccelSec Float El tiempo en segundos que el coche tarda en acelerar desde 0kmh hasta 100kmh.
TopSpeed_Kmh Int La velocidad máxima alcanzable con el coche en kmh.
Range_Km Int Autonomía de la batería en Km bao el ciclo WLTP.
Efficiency_Kwh Float Indica la carga del vehículo (con ello el tiempo de recarga) en kwh.
Seats Int Número de asientos en el vehículo.
PriceEuro Int Precio de venta al público en euros.
FastCharge_KwH Float Indica, si tiene, los watios a los que el coche puede cargar con un fast charger.
RapidCharge Boolean Indica si tiene carga rápida.
PowerTrain String Indica las ruedas del coche que traccionan, delanteras, traseras o 4x4.
PlugType String Indica el tipo de enchufe que tiene para cargar.
BodyStyle String Indica la carrocería del coche.
Segment String Indica el segmento en el que está el coche.

Tarjeta Hipótesis 2: Se venden más vehículos por el aumento de los precios del carburante

Se ha creado una tarjeta de datos con la finalidad de agrupar la información relevante para aceptar o refutar esta hipótesis. Para ello, hemos seleccionado los datasets correspondientes a los precios de la gasolina y diésel y a las ventas de coches eléctricos y sus modelos en diferentes países del mundo, ambos del esquema SILVER.

El proceso consistió en unir las dos tablas mencionadas, por medio de la columna que contiene los países. Además, solo hemos conservado el periodo de años común en ambas tablas (2017-2022).

Finalmente, obtenemos el siguiente diccionario de datos correspondiente a la tarjeta creada para la hipótesis 2:

Nombre del Campo Tipo de Dato Descripción
Country String Contiene los nombres de los países manejados y se utilizará para identificarlos.
CochesVendidos_[year] Double Contiene la cantidad de vehículos oficialmente vendidos para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country”.
Gasolina_[year] Double Almacena el valor del precio de la gasolina para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country”
Diesel _[year] Double Funciona como las columnas Gasolina_[year], pero en este caso almacenando el coste de Diesel.

Tarjeta Hipótesis 3: Se mantendrá la tendencia de crecimiento del número de puntos de carga para vehículos eléctricos en los próximos años

Esta hipótesis ha variado ligeramente, para introducir distintos tipos de hipótesis, queremos tratar de crear un modelo que prediga el número de puntos de carga que se instalarán en un país dependiendo de las ventas de vehículos eléctricos el año anterior.

Se han unido las tablas que contienen las ventas de coches y de los puntos de carga. Primero, se han agrupado las ventas creando una nueva tabla con 2 tipos: Hybrid y Electric que sustituye a la columna PowerTrain en el dataset de ventas de coches. Además, se ha tenido que pivotar ambas tablas: en la tabla de ventas de coches los años aparecían como columnas, ahora se han cambiado creando una nueva columna llamada year donde aparece el año estudiado y se ha creado otra columna llamada Sells donde aparece el número de ventas.

Finalmente, se han agrupado los dos datasets utilizando como nexo las columnas Country y year (país y año). La tarjeta de datos pertenece al intervalo de años entre 2017 y 2022. El diccionario de la tarjeta de datos para la hipótesis 3 es la siguiente:

Nombre del Campo Tipo de Dato Descripción
Country String Almacenará el nombre de todos los países manejados y que servirá para identificarlos
Year Int Contiene el año de estudio en la fila
Type_Vehicle String Contiene el tipo de vehículo que se ha vendido, puede ser Hybrid o Electric
Fast Charging Point Int Es el número de puntos de carga rápidos distribuidos en el país
Slow Charging Point Int Es el número de puntos de carga lenta distribuidos en el país
Price Electricity Int El precio de la electricidad en el país
Sells_last_year Int Es el número de ventas de coches del año anterior
Sells Int Es el número de ventas de coches

Tarjeta Hipótesis 4: Se venden más vehículos en países con más PIB per cápita

Con el objetivo de contar únicamente con los datos necesarios para contrastar la hipótesis de manera cómoda, clara y rápida se decidió unir la tabla que contiene datos referentes a ventas de coches eléctricos y sus modelos en diferentes países del mundo junto con aquella destinada a reflejar la evolución del producto interior bruto de dichas zonas.

La columna que sirvió de nexo entre ambas fue en la que se detallaban los países a los que los datos de una determinada fila pertenecían. Además, se recortó finalmente el intervalo de años entre los que se puso el foco, desde 2017 hasta 2022. La estructura de la tarjeta de datos desarrollada para el contraste de la hipótesis 4 es la siguiente:

Nombre del Campo Tipo de Dato Descripción
Country String Almacenará el nombre de todos los países manejados y que servirá para identificarlos
CochesVendidos_[year] Double Contiene la cantidad de vehículos oficialmente vendidos para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country”
PIB_[year] Double Contiene el valor del producto interior bruto oficial para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country”
  • [year] representa a cualquier año comprendido entre 2017 y 2022

En adición se requirió un tratamiento adicional que afectó al contenido de la nueva tarjeta de datos, pero no a su estructura. Fue detectada la ausencia en ella de ciertos países que eran comunes a las dos tablas que sirvieron de fuente de información, por lo que acabó comprobándose que tenían ciertos detalles diferentes en su redacción dentro de la columna “Country” de dichas tablas. Esto se resolvió usando un diccionario que aplicara reemplazos una de ellas en la columna referida a países (por ejemplo, desde "China, People's Republic of" a “China”).

Finalmente, se rellenaron ciertas celdas de filas de la tarjeta de datos final en las que aparecía un 0 representando los coches vendidos de algunos años concretos (únicamente ocurría para Puerto Rico y Uzbekistán). Como valor para completar la cada respectiva sustitución se empleó la media de coches vendidos no nulos (en este caso marcados con 0) de esa misma fila.