Información del Dataset - Axneitor/Trabajo_Final_Herramientas_IA GitHub Wiki

Información del Dataset

Archivo CSV - hotel_bookings

Nuestra investigación se basa en un conjunto de datos en formato CSV, titulado hotel_bookings.csv, que contiene información sobre aproximadamente 119,000 reservas hoteleras realizadas en un hotel urbano y un resort. Esta base de datos permite llevar a cabo investigaciones relacionadas con el comportamiento del cliente, análisis de cancelaciones, patrones de reserva, entre otros escenarios relevantes. Los datos personales han sido eliminados, y el conjunto se encuentra disponible de manera gratuita en Kaggle en la siguiente dirección electrónica: https://www.kaggle.com/datasets/qucwang/hotel-bookings-analysis-dataset.

El conjunto de datos fue inicialmente recopilado por Nuno Antonio, Ana Almeida y Luis Nunes en febrero de 2019, y posteriormente fue descargado, limpiado y adaptado en febrero de 2020 por Thomas Mock y Antoine Bichat. Algunas modificaciones adicionales han sido realizadas por distintos autores a lo largo del tiempo.

La base de datos está compuesta por 32 variables, que describen múltiples aspectos de las reservas. A continuación, se detallan las más relevantes:

  • hotel: Tipo de hotel (City Hotel o Resort Hotel).
  • is_canceled: Variable binaria que indica si la reserva fue cancelada (1) o no (0).
  • lead_time: Número de días entre la fecha de reserva y la fecha de llegada prevista.
  • arrival_date_year, arrival_date_month, arrival_date_week_number, arrival_date_day_of_month: Componentes temporales que describen la fecha de llegada.
  • stays_in_weekend_nights, stays_in_week_nights: Número de noches de estadía durante el fin de semana y entre semana, respectivamente.
  • meal: Tipo de régimen alimenticio contratado.
  • country: País de origen del cliente.
  • is_repeated_guest: Indica si el cliente ha realizado reservas previas.
  • reserved_room_type, assigned_room_type: Compara el tipo de habitación reservada y la finalmente asignada.
  • deposit_type: Tipo de depósito realizado para asegurar la reserva.
  • agent, company: Identificadores del agente o empresa que gestionó la reserva.
  • customer_type: Categoría del cliente según el tipo de contrato o relación con el hotel.
  • adr (average daily rate): Tarifa media diaria por habitación.
  • required_car_parking_spaces: Número de espacios de estacionamiento solicitados.
  • total_of_special_requests: Cantidad de solicitudes especiales realizadas por el cliente.
  • reservation_status, reservation_status_date: Estado final de la reserva y la fecha en que dicho estado fue asignado.

Observaciones

Este conjunto de datos representa un escenario ideal para el desarrollo de análisis enfocados en el sector hotelero, tales como la predicción de cancelaciones, la segmentación del perfil del cliente, o la evaluación de estrategias comerciales para establecimientos similares.

Base de datos SQL - viajes.db

Como se mencionó anteriormente, el archivo original fue depurado para eliminar cualquier información personal. Por esta razón, para la realización de la práctica se generó un segundo conjunto de datos, utilizando SQLite3 en combinación con la librería Faker, la cual permite crear datos ficticios como nombres, apellidos, países, entre otros. Esta estrategia nos permitió cumplir con los objetivos de la práctica sin comprometer la privacidad ni utilizar datos reales.

A través de un script en Python, se generaron los datos aleatorios que fueron posteriormente insertados en una base de datos denominada viajes.db. Esta base contiene los siguientes campos:

  • id_persona: Identificador numérico ficticio.
  • nombre: Primer nombre generado aleatoriamente.
  • apellido: Apellido generado aleatoriamente.
  • email: Dirección de correo electrónico ficticia.
  • ciudad_origen: Ciudad de origen ficticia.
  • dias_viaje: Duración del viaje en días, con un valor aleatorio entre 1 y 100.

Este conjunto de datos ha sido diseñado específicamente para fines educativos, de prueba o desarrollo, evitando así la exposición de información sensible o personal, y conservando un volumen de datos representativo para realizar simulaciones y análisis.