Combinar cadenas de texto para obtener estadísticas - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki
BigQuery tiene dos bases de datos diferentes que contienen información muy similar: new_york y new_york_citibike. Ambas bases de datos contienen tablas denominadas citibike_trips. Sin embargo, estas tablas no son exactamente iguales entre ambas bases de datos. Este paso a paso y el vídeo posterior utilizan la base de datos new_york. Tendrá que desplazarse para encontrar este Conjunto de datos bajo el proyecto bigquery_public_data en el panel Explorador; no aparece en una búsqueda.
SELECT
usertype,
CONCAT (start_station_name," to ", end_station_name) AS route,
COUNT (*) as num_trips,
ROUND(AVG(cast(tripduration as int64)/60),2) AS duration
FROM
`bigquery-public-data.new_york.citibike_trips`
GROUP BY
start_station_name, end_station_name, usertype
ORDER BY
num_trips DESC
LIMIT 10
Utilización de CONCAT en el conjunto de datos de bicicletas compartidas
La función CONCAT puede combinar datos de distintas columnas para obtener nuevas estadísticas.
En el editor de BigQuery, introduzca SELECT y pulse Intro (Windows) o Retorno (Mac).
Introduzca usertype, en la línea 2.
En la línea 3, introduzca CONCAT(start_station_name," to ", end_station_name) para combinar los nombres de las estaciones inicial y final de cada viaje en una nueva columna. Esto creará una columna de rutas.
Introduzca AS route, al final de la línea 3 para nombrar la columna ruta.
En la línea 4, ingrese COUNT (*) as num_trips, para contar el número de viajes. El asterisco le dice a SQL que cuente el número de filas que está seleccionando. Cada fila representa un viaje, por lo que puede contar todas las filas que ha seleccionado para contar el número de viajes.
A continuación, calcule la duración media del viaje para cada ruta. En la línea 5, introduzca:
ROUND(AVG(cast(tripduration as int64)/60),2) AS duration
Esta línea de programación realiza varias tareas:
Utiliza la función CAST para convertir tripduration en un número entero y divide ese número por 60 para convertir el número de segundos a minutos.
Utiliza la función AVG para encontrar la duración media de cada ruta.
Utiliza la función ROUND para redondear la salida a 2 decimales.
Utiliza el comando AS para dar a este resultado el alias de duración.
Nota 1: BigQuery almacena los números en un sistema de memoria de 64 bits, razón por la cual hay un 64 después de entero en este caso.
Nota 2: Al explicar este código, el instructor dice "dividir por el número de filas" En lugar de eso, querían decir "dividir por 60"
Ingresa FROM en la línea 6 y presiona return.
Ingrese `bigquery-public-data.new_york.citibike_trips` en la línea 7 (encerrado en back-ticks).
Introduzca GROUP BY en la línea 8.
Introduzca start_station_name, end_station_name, usertype en la línea 9.
Introduzca ORDER BY en la línea 10 para indicar a SQL cómo organizar estos datos.
Introduzca num_trips DESC en la línea 11 para ordenarlo en orden descendente.
Introduzca LIMIT 10 en la línea 12.
eleccionar RUN para ver los resultados.
Ahora puede leer fácilmente estos nombres de ruta y rastrearlos hasta lugares reales. También puede explorar los tipos de Clientes que toman cada ruta. Este tipo de información puede ayudar a quienes toman las decisiones en la empresa de bicicletas compartidas a comprender su base de usuarios en diferentes partes de la ciudad y dónde mantener más bicicletas para que la gente las alquile.