Hipótesis 2🚩 - David-informatica/Pruebas GitHub Wiki

Tarjeta GOLD📀

Para llevar a cabo el prepocesado de los datos se tienen en cuenta los aquellos que son necesarios para abordar la hipótesis. Estos datos se procesan utilizando los siguientes métodos:

Se dropean los datasets necesarios y después se unen las diferentes partes de los datasets que nos seran utiles a la hora de comprobar la hipótesis.

collision_accidents = collision_accidents.drop( ["Local Authority Code", "road_name", "year"], axis=1)
hipotesis2_dataset = pd.merge(
    casualties_accidents,
    vehicle_accidents,
    on=["vehicle_reference", "accident_index"],
    how="inner"
)
hipotesis2_dataset = pd.merge(
    hipotesis2_dataset, 
    collision_accidents, 
    on = ["accident_index"], 
    how="inner"
)

Después se discretiza la variable age_of_vehicle para poder usarla de manera correcta posteriormente.

# bins = [0, 5, 10, 30, 122]
# labels = [0, 1, 2, 3]
# hipotesis2_dataset['age_of_vehicle'] = pd.cut(hipotesis2_dataset['age_of_vehicle'], bins=bins, labels=labels, right=True)

[!IMPORTANT] El objetivo de este análisis es evaluar si, en los accidentes ocurridos en el Reino Unido, la gravedad tiende a aumentar bajo ciertas condiciones específicas:

  • Antigüedad elevada del vehículo involucrado.
  • Condiciones deficientes de la carretera.
  • El vehículo involucrado es una motocicleta.

En primer lugar, se investigará si existe una relación significativa entre estas variables mediante análisis exploratorio y estadístico. Posteriormente, se aplicará un modelo de clustering para identificar patrones relevantes, como la concentración de casos en los que estas características se combinan, contribuyendo a accidentes más graves.

Análisis exploratorio y visualización de datos

A continuación, se describe el análisis realizado para entender los datos y explorar su relación:

Visualización de la gravedad por antigüedad del vehículo

Se generan gráficos para observar la antiguedad del vehiculo y su relación con el grado de gravedad.

# Visualización de la antigüedad del vehículo y gravedad del accidente
sns.boxplot(x="Gravedad", y="Antigüedad_vehículo", data=df)
plt.title("Relación entre la gravedad del accidente y la antigüedad del vehículo")
plt.show()

Evaluación del impacto de las condiciones de la carretera

Se observa mediante graficos que muestran las condiciones de las carreteras en las zonas donde se estan analizando los accidentes.

sns.countplot(x="Condiciones_carretera", hue="Gravedad", data=df)
plt.title("Impacto de las condiciones de la carretera en la gravedad del accidente")
plt.show()

Después se realiza la misma acción con la relación entre el tipo de vehículo y la severidad.

sns.barplot(x="Tipo_vehículo", y="Gravedad", data=df)
plt.title("Gravedad de accidentes según el tipo de vehículo")
plt.show()

Clustering de datos

Se utiliza el algoritmo K-Modes para realizar agrupamientos en función de las características mencionadas, como el tipo de vehículo, las condiciones de la carretera y la antigüedad del vehículo.

from kmodes.kmodes import KModes

km = KModes(n_clusters=3, init="Huang", n_init=5, verbose=1)
clusters = km.fit_predict(df["Antigüedad_vehículo", "Condiciones_carretera", "Tipo_vehículo"](/David-informatica/Pruebas/wiki/"Antigüedad_vehículo",-"Condiciones_carretera",-"Tipo_vehículo"))
df["Cluster"] = clusters

Conclusiones preliminares

Los análisis muestran que:

  • Antigüedad del vehículo: Los vehículos más antiguos tienden a estar involucrados en accidentes más graves.
  • Condiciones de la carretera: Las carreteras en mal estado contribuyen significativamente a la gravedad de los accidentes.
  • Tipo de vehículo: Las motocicletas están asociadas con una mayor proporción de accidentes fatales.