Trabajar con datos sesgados - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki

Todo analista de datos encontrará un elemento de sesgo en algún momento del proceso de análisis de datos. Por eso es tan importante comprender cómo identificar y gestionar los datos sesgados siempre que sea posible. Quizá recuerde que exploramos el sesgo en detalle en el Curso 3 de este Programa. En esta lectura, leerá un ejemplo real de un analista que descubrió sesgos en sus datos y aprenderá cómo utilizó R para abordarlos. Cómo abordar los datos sesgados con R Una mujer de pie sostiene un globo sonoro. Otras burbujas de diálogo están en el suelo cerca de ella.

Este escenario fue compartido por un analista cuantitativo que recoge datos de personas de todo el mundo. Explican cómo descubrieron sesgos en sus Datos, y cómo utilizaron R para abordarlos:

"Trabajo en un Equipo que recoge Datos tipo Encuesta. Una de las tareas que realiza mi Equipo se llama comparación lado a lado. Por ejemplo, podemos mostrar a los usuarios dos anuncios uno al lado del otro al mismo tiempo. En nuestra Encuesta, les preguntamos cuál de los dos anuncios prefieren. En un caso, después de muchas iteraciones, observamos un sesgo consistente a favor del primer anuncio. También se producía una disminución apreciable de la preferencia por un artículo si cambiábamos su posición a la segunda.

Así que decidimos añadir aleatoriedad a la posición de los anuncios utilizando R. Queríamos asegurarnos de que los artículos aparecían en la primera y en la segunda posición con frecuencias similares. Utilizamos sample() para inyectar un elemento de aleatorización en nuestra programación en R. En R, la función sample() permite tomar una muestra aleatoria de elementos de un conjunto de datos. Añadiendo esta pieza de código barajamos las filas de nuestro conjunto de datos de forma aleatoria. Así, cuando presentamos los anuncios a los usuarios, las posiciones de los anuncios eran ahora aleatorias y se controlaba el sesgo. Esto hizo que la Encuesta fuera más eficaz y los Datos más fiables" Puntos clave

La función sample() es sólo una de las muchas funciones y métodos de R que puede utilizar para abordar el sesgo de sus datos. Dependiendo del tipo de análisis que esté realizando, puede que necesite incorporar algunos procesos avanzados en su programación. Aunque este Programa no cubrirá ese tipo de procesos en detalle, es probable que aprenda más sobre ellos a medida que adquiera más experiencia en el Campo de la Analítica de datos.

Para saber más sobre el sesgo y la Ética de los datos, consulte estos Recursos:

Función de sesgo:

Esta página web es un buen punto de partida para aprender cómo la función de sesgo en R puede ayudarle a identificar y gestionar el sesgo en sus análisis.

Ética de la Ciencia de datos : Este curso en línea proporciona diapositivas, vídeos y ejercicios para ayudarle a aprender más sobre la ética en el mundo de la Analítica de datos. Incluye información sobre la privacidad de los datos, la tergiversación en los datos y la aplicación de la ética a sus visualizaciones.