Visión general - SrNaggets/TFG GitHub Wiki

Para realizar mi TFG divido el proyecto en tres partes fundamentales, que seguiré en el siguiente orden:

  • Desarrollo del Perfil de Investigador: Facilitar a las personas autorizadas de esta web el acceso a una inteligencia artificial especializada en los vinos del Marco de Jerez, de modo que los investigadores puedan realizar preguntas muy específicas sobre temas centrados en las bodegas concretas de esta región. El enfoque será altamente personalizado y documental, no centrado en aspectos generales del vino, sino en lo que hace única a cada bodega: su historia, sus protagonistas, sus vinos y sus procesos singulares.

  • Desarrollo del Perfil Divulgativo: Facilitar el aprendizaje del mundo de los vinos del Marco de Jerez de la Frontera a cualquier persona mediante la creación de una web en la que los usuarios puedan acceder a explicaciones visuales y esquemáticas de aspectos como los tipos de uva, sistemas de crianza, tipos de vinos, entre otros.

  • Redacción de la memoria


1) Perfil Investigador: Construcción del sistema RAG

Un sistema RAG es un tipo de arquitectura de inteligencia artificial que combina modelos de lenguaje (como ChatGPT) con bases de datos o repositorios de información externos, para ofrecer respuestas más precisas y actualizadas.

He elegido este sistema para la necesidad del proyecto porque RAG permite combinar el poder de un modelo de lenguaje avanzado con información específica y actualizada sobre los vinos del Marco de Jerez, almacenada en una base de conocimiento propia. Así, el chatbot podrá responder preguntas muy específicas, reduciendo errores o invenciones típicas de este tipo de modelos, ya que la información se basará en documentos reales que se recuperarán y utilizarán como contexto.


1.1) Recopilación de documentos relevantes

Este paso es clave, ya que la calidad del sistema RAG depende directamente de la calidad, variedad y organización de los documentos que se le proporcionen.

He convertido todos los documentos al mismo formato (txt) para poder trabajar con ellos de forma más sencilla.

A partir de los documentos recopilados se construirán unidades de información más pequeñas, agrupadas según la categoría del contenido. Estas categorías son una forma de organizar y estructurar mejor la base de conocimiento, facilitando así la limpieza, el procesamiento automático y, en consecuencia, mejorando la precisión del sistema RAG.

1.1.1) Categorias

    1. Historias de bodegas
      Incluye documentos que recogen la historia de cada bodega: su fundación, evolución, cambios de propietarios, momentos clave y trayectoria en la región.

Ejemplo: gonzalez_byass_historia.txt

    1. Personas relevantes
      Contiene perfiles y referencias a personas clave dentro de las bodegas: fundadores, propietarios, enólogos y figuras influyentes del entorno vitivinícola.

Ejemplo: antonio_flores_enologo.txt

    1. Vinos singulares
      Describe vinos concretos producidos por las bodegas: su origen, elaboración, particularidades, nombre comercial y cualquier aspecto relevante que los haga únicos.

Ejemplo: los_cuatro_pagos.txt

    1. Ubicación y viñedos
      Reúne información sobre los pagos, viñedos y terrenos donde cultivan las uvas, así como la ubicación geográfica de las bodegas.

Ejemplo: viñas_de_balbaina.txt

    1. Procesos artesanales o particulares
      Contiene descripciones de técnicas singulares empleadas por las bodegas, como experimentos, métodos tradicionales, o procesos diferenciadores de producción.

Ejemplo: prensado_manual_entre_dos_aguas.txt

1.1.2) Documentos

    1. La Imagen de los Vinos de Jerez - José Saldaña Trigo y Juan L. Repeto Prieto