Hipótesis 1🚩 - David-informatica/Pruebas GitHub Wiki
Tarjeta GOLD📀
Para llevar a cabo el prepocesado de los datos se tienen en cuenta los aquellos que son necesarios para abordar la hipótesis. Estos datos se procesan utilizando los siguientes métodos:
Se unen las diferentes partes de los datasets que nos seran utiles a la hora de comprobar la hipótesis.
hipotesis1_dataset = pd.merge(death_rate_dataset, pib_dataset, on=['Countries', 'Year'], how='inner')
hipotesis1_dataset['Countries'] = hipotesis1_dataset['Countries'].replace({"United Kingdom of Great Britain and Northern Ireland": "UK"})
hipotesis1_dataset['Countries'] = hipotesis1_dataset['Countries'].replace({"United States of America": "USA"})
Después se reestructuran las columnas y se preparan los datos extraidos para que puedan ser utilizados en la resolución.
final_hipotesis1_dataset = hipotesis1_dataset.pivot(
index="Countries",
columns="Year",
values=["Estimated road traffic death rate for both sexes (per 100 000 population)","GDP per capita (USD)"]
)
final_hipotesis1_dataset.rename(columns={
"Estimated road traffic death rate for both sexes (per 100 000 population)": "death_rate",
"GDP per capita (USD)": "GDP_per_capita"
}, inplace=True)
final_hipotesis1_dataset.columns = [
f"{metric}_{year}" for metric, year in final_hipotesis1_dataset.columns
]
final_hipotesis1_dataset.reset_index(inplace=True)
final_hipotesis1_dataset.to_csv("[GOLD]HIPOTESIS_1.csv", index=False)
[!IMPORTANT] En primer lugar, para esta hipótesis, se llevará a cabo la comprobación de la relación entre la tasa de mortalidad por cada 100,000 habitantes en accidentes de tráfico y un factor económico: el PIB per cápita.
Alcance
- Geográfico: Europa, Norteamérica y África.
- Temporal: Desde el año 2013 hasta el 2019.
Con estos criterios definidos, se realiza un estudio en profundidad para validar la hipótesis.
Análisis exploratorio y visualización de datos
A continuación, se describe el análisis realizado para entender los datos y explorar su relación:
Visualización inicial
Se generan gráficos para observar tendencias y posibles relaciones.
# Gráfico de dispersión
sns.scatterplot(x="PIB_per_capita", y="Tasa_de_mortalidad", data=data)
plt.title("Relación entre PIB per cápita y tasa de mortalidad por accidentes")
plt.xlabel("PIB per cápita")
plt.ylabel("Tasa de mortalidad por accidentes")
plt.show()
Evaluación de la hipótesis
Se emplearon métodos estadísticos y técnicas de agrupamiento para evaluar la hipótesis y comprobar si existe una correlación significativa entre las variables. Esto incluyó el cálculo de coeficientes de correlación y el uso de PCA y K-Means para identificar patrones.
# Calcular correlación
correlation = data["PIB_per_capita"].corr(data["Tasa_de_mortalidad"])
print(f"Coeficiente de correlación: {correlation:.2f}")
# PCA para reducción de dimensionalidad
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data["PIB_per_capita", "Tasa_de_mortalidad"](/David-informatica/Pruebas/wiki/"PIB_per_capita",-"Tasa_de_mortalidad"))
pca = PCA(n_components=2)
pca_data = pca.fit_transform(scaled_data)
# Clustering con K-Means
kmeans = KMeans(n_clusters=3)
kmeans.fit(pca_data)
data["Cluster"] = kmeans.labels_
Conclusiones preliminares
Los análisis muestran que:
- Existe una relación inversa entre el PIB per cápita y la tasa de mortalidad en accidentes de tráfico, siendo más fuerte en países de Europa.
- Los datos de África presentan variabilidad, posiblemente debido a factores socioeconómicos adicionales.