Hipótesis 1🚩 - David-informatica/Pruebas GitHub Wiki

Tarjeta GOLD📀

Para llevar a cabo el prepocesado de los datos se tienen en cuenta los aquellos que son necesarios para abordar la hipótesis. Estos datos se procesan utilizando los siguientes métodos:

Se unen las diferentes partes de los datasets que nos seran utiles a la hora de comprobar la hipótesis.

hipotesis1_dataset = pd.merge(death_rate_dataset, pib_dataset, on=['Countries', 'Year'], how='inner')
hipotesis1_dataset['Countries'] = hipotesis1_dataset['Countries'].replace({"United Kingdom of Great Britain and Northern Ireland": "UK"}) 
hipotesis1_dataset['Countries'] = hipotesis1_dataset['Countries'].replace({"United States of America": "USA"})

Después se reestructuran las columnas y se preparan los datos extraidos para que puedan ser utilizados en la resolución.

final_hipotesis1_dataset = hipotesis1_dataset.pivot(
    index="Countries",
    columns="Year", 
    values=["Estimated road traffic death rate for both sexes (per 100 000 population)","GDP per capita (USD)"]
)
final_hipotesis1_dataset.rename(columns={
       "Estimated road traffic death rate for both sexes (per 100 000 population)": "death_rate",
       "GDP per capita (USD)": "GDP_per_capita"
}, inplace=True)

final_hipotesis1_dataset.columns = [
    f"{metric}_{year}" for metric, year in final_hipotesis1_dataset.columns
]
final_hipotesis1_dataset.reset_index(inplace=True)
final_hipotesis1_dataset.to_csv("[GOLD]HIPOTESIS_1.csv", index=False)

[!IMPORTANT] En primer lugar, para esta hipótesis, se llevará a cabo la comprobación de la relación entre la tasa de mortalidad por cada 100,000 habitantes en accidentes de tráfico y un factor económico: el PIB per cápita.

Alcance

Geográfico: Europa, Norteamérica y África.
Temporal: Desde el año 2013 hasta el 2019.

Con estos criterios definidos, se realiza un estudio en profundidad para validar la hipótesis.

Análisis exploratorio y visualización de datos

A continuación, se describe el análisis realizado para entender los datos y explorar su relación:

Visualización inicial

Se generan gráficos para observar tendencias y posibles relaciones.

# Gráfico de dispersión
sns.scatterplot(x="PIB_per_capita", y="Tasa_de_mortalidad", data=data)
plt.title("Relación entre PIB per cápita y tasa de mortalidad por accidentes")
plt.xlabel("PIB per cápita")
plt.ylabel("Tasa de mortalidad por accidentes")
plt.show()

Evaluación de la hipótesis

Se emplearon métodos estadísticos y técnicas de agrupamiento para evaluar la hipótesis y comprobar si existe una correlación significativa entre las variables. Esto incluyó el cálculo de coeficientes de correlación y el uso de PCA y K-Means para identificar patrones.

# Calcular correlación
correlation = data["PIB_per_capita"].corr(data["Tasa_de_mortalidad"])
print(f"Coeficiente de correlación: {correlation:.2f}")

# PCA para reducción de dimensionalidad
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data["PIB_per_capita", "Tasa_de_mortalidad"](/David-informatica/Pruebas/wiki/"PIB_per_capita",-"Tasa_de_mortalidad"))
pca = PCA(n_components=2)
pca_data = pca.fit_transform(scaled_data)

# Clustering con K-Means
kmeans = KMeans(n_clusters=3)
kmeans.fit(pca_data)
data["Cluster"] = kmeans.labels_

Conclusiones preliminares

Los análisis muestran que:

Existe una relación inversa entre el PIB per cápita y la tasa de mortalidad en accidentes de tráfico, siendo más fuerte en países de Europa.
Los datos de África presentan variabilidad, posiblemente debido a factores socioeconómicos adicionales.