Creación Tarjetas de Datos - Mohamed11302/MineriaDeDatosYSistemasMultiagentes GitHub Wiki
Tarjeta Hipótesis 1: Se venden más vehículos por el aumento del rendimiento de los coches eléctricos
Para la comprobación de nuestra hipótesis número 1, hemos creado esta tarjeta de datos que contiene todos los datos extraídos de los datasets anteriores que hemos considerado de más relevancia para comprobar esta hipótesis. Estos son los datos relativos a la venta de coches eléctricos exclusivamente y sus características.
Para crear esta tarjeta hemos tenido que unir información que estaba en concreto en dos datasets anteriores. Los dos datasets hablaban de vehículos, uno de todas las ventas de vehículos en países y otro de las características exclusivamente de coches eléctricos. En el primer datasets agrupamos todos los datos en función del modelo, quedando solo el modelo y las ventas que tuve en sus respectivos años; mientras que en el segundo datasets tan solo eliminamos la marca y nos quedamos con el modelo y los datos que más nos interesaban del mismo.
Para juntarlos ha habido problemas ya que en que en cada dataset, las versiones de los propios modelos se escribían de formas distintas, es por ello que para cada modelo de coche que tuviera más de una versión, se han hecho la media de sus características y se ha añadido únicamente el modelo como tal, como es en el caso del tesla model 3.
De esta manera nos quedamos con el siguiente diccionario de datos:
| Nombre del campo | Tipo de dato | Descripción |
|---|---|---|
| Model | String | Indica el modelo de coche del que hablan las características. |
| Year | Int | Es el número de ventas que el modelo tuvo ese año mundialmente. |
| AccelSec | Float | El tiempo en segundos que el coche tarda en acelerar desde 0kmh hasta 100kmh. |
| TopSpeed_Kmh | Int | La velocidad máxima alcanzable con el coche en kmh. |
| Range_Km | Int | Autonomía de la batería en Km bao el ciclo WLTP. |
| Efficiency_Kwh | Float | Indica la carga del vehículo (con ello el tiempo de recarga) en kwh. |
| Seats | Int | Número de asientos en el vehículo. |
| PriceEuro | Int | Precio de venta al público en euros. |
| FastCharge_KwH | Float | Indica, si tiene, los watios a los que el coche puede cargar con un fast charger. |
| RapidCharge | Boolean | Indica si tiene carga rápida. |
| PowerTrain | String | Indica las ruedas del coche que traccionan, delanteras, traseras o 4x4. |
| PlugType | String | Indica el tipo de enchufe que tiene para cargar. |
| BodyStyle | String | Indica la carrocería del coche. |
| Segment | String | Indica el segmento en el que está el coche. |
Tarjeta Hipótesis 2: Se venden más vehículos por el aumento de los precios del carburante
Se ha creado una tarjeta de datos con la finalidad de agrupar la información relevante para aceptar o refutar esta hipótesis. Para ello, hemos seleccionado los datasets correspondientes a los precios de la gasolina y diésel y a las ventas de coches eléctricos y sus modelos en diferentes países del mundo, ambos del esquema SILVER.
El proceso consistió en unir las dos tablas mencionadas, por medio de la columna que contiene los países. Además, solo hemos conservado el periodo de años común en ambas tablas (2017-2022).
Finalmente, obtenemos el siguiente diccionario de datos correspondiente a la tarjeta creada para la hipótesis 2:
| Nombre del Campo | Tipo de Dato | Descripción |
|---|---|---|
| Country | String | Contiene los nombres de los países manejados y se utilizará para identificarlos. |
| CochesVendidos_[year] | Double | Contiene la cantidad de vehículos oficialmente vendidos para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country”. |
| Gasolina_[year] | Double | Almacena el valor del precio de la gasolina para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country” |
| Diesel _[year] | Double | Funciona como las columnas Gasolina_[year], pero en este caso almacenando el coste de Diesel. |
Tarjeta Hipótesis 3: Se mantendrá la tendencia de crecimiento del número de puntos de carga para vehículos eléctricos en los próximos años
Esta hipótesis ha variado ligeramente, para introducir distintos tipos de hipótesis, queremos tratar de crear un modelo que prediga el número de puntos de carga que se instalarán en un país dependiendo de las ventas de vehículos eléctricos el año anterior.
Se han unido las tablas que contienen las ventas de coches y de los puntos de carga. Primero, se han agrupado las ventas creando una nueva tabla con 2 tipos: Hybrid y Electric que sustituye a la columna PowerTrain en el dataset de ventas de coches. Además, se ha tenido que pivotar ambas tablas: en la tabla de ventas de coches los años aparecían como columnas, ahora se han cambiado creando una nueva columna llamada year donde aparece el año estudiado y se ha creado otra columna llamada Sells donde aparece el número de ventas.
Finalmente, se han agrupado los dos datasets utilizando como nexo las columnas Country y year (país y año). La tarjeta de datos pertenece al intervalo de años entre 2017 y 2022. El diccionario de la tarjeta de datos para la hipótesis 3 es la siguiente:
| Nombre del Campo | Tipo de Dato | Descripción |
|---|---|---|
| Country | String | Almacenará el nombre de todos los países manejados y que servirá para identificarlos |
| Year | Int | Contiene el año de estudio en la fila |
| Type_Vehicle | String | Contiene el tipo de vehículo que se ha vendido, puede ser Hybrid o Electric |
| Fast Charging Point | Int | Es el número de puntos de carga rápidos distribuidos en el país |
| Slow Charging Point | Int | Es el número de puntos de carga lenta distribuidos en el país |
| Price Electricity | Int | El precio de la electricidad en el país |
| Sells_last_year | Int | Es el número de ventas de coches del año anterior |
| Sells | Int | Es el número de ventas de coches |
Tarjeta Hipótesis 4: Se venden más vehículos en países con más PIB per cápita
Con el objetivo de contar únicamente con los datos necesarios para contrastar la hipótesis de manera cómoda, clara y rápida se decidió unir la tabla que contiene datos referentes a ventas de coches eléctricos y sus modelos en diferentes países del mundo junto con aquella destinada a reflejar la evolución del producto interior bruto de dichas zonas.
La columna que sirvió de nexo entre ambas fue en la que se detallaban los países a los que los datos de una determinada fila pertenecían. Además, se recortó finalmente el intervalo de años entre los que se puso el foco, desde 2017 hasta 2022. La estructura de la tarjeta de datos desarrollada para el contraste de la hipótesis 4 es la siguiente:
| Nombre del Campo | Tipo de Dato | Descripción |
|---|---|---|
| Country | String | Almacenará el nombre de todos los países manejados y que servirá para identificarlos |
| CochesVendidos_[year] | Double | Contiene la cantidad de vehículos oficialmente vendidos para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country” |
| PIB_[year] | Double | Contiene el valor del producto interior bruto oficial para un año concreto ([year]) y un determinado país, es decir, el que aparece en la columna “Country” |
- [year] representa a cualquier año comprendido entre 2017 y 2022
En adición se requirió un tratamiento adicional que afectó al contenido de la nueva tarjeta de datos, pero no a su estructura. Fue detectada la ausencia en ella de ciertos países que eran comunes a las dos tablas que sirvieron de fuente de información, por lo que acabó comprobándose que tenían ciertos detalles diferentes en su redacción dentro de la columna “Country” de dichas tablas. Esto se resolvió usando un diccionario que aplicara reemplazos una de ellas en la columna referida a países (por ejemplo, desde "China, People's Republic of" a “China”).
Finalmente, se rellenaron ciertas celdas de filas de la tarjeta de datos final en las que aparecía un 0 representando los coches vendidos de algunos años concretos (únicamente ocurría para Puerto Rico y Uzbekistán). Como valor para completar la cada respectiva sustitución se empleó la media de coches vendidos no nulos (en este caso marcados con 0) de esa misma fila.