003_como_funciona_la_ia - IUGO-Studio/tech-ia GitHub Wiki

Tokens y Tokenización

En la mayoría de los modelos de Inteligencia Artificial (IA), el texto de entrada se procesa dividiéndolo en fragmentos llamados tokens. Cada modelo tiene un límite máximo de tokens que puede admitir en una sola interacción, por lo que es clave ser consciente de esta restricción y estructurar tus prompts en función de ello.

Consejos para evitar el límite de tokens

  1. Sé conciso

    • Prioriza la información relevante y descarta detalles superfluos.
  2. Fragmenta el texto (chunking)

    • Cuando tu texto sea muy largo, divídelo en bloques más pequeños y gestionables para evitar sobrepasar el límite de tokens.
  3. Usa windowed chunking

    • Trabaja con fragmentos del texto de forma secuencial. Apóyate en el contexto de cada bloque anterior para generar el siguiente de manera coherente.
  4. Crea resúmenes

    • Para integrar grandes volúmenes de información, considera generar versiones resumidas de cada sección, lo cual reduce la cantidad total de tokens utilizados.

Nota: Familiarizarte con los límites de cada modelo de IA es fundamental. Además, profundiza en el uso de embeddings y en los métodos estadísticos que allow los modelos generar las respuestas.


Alucinaciones en la IA

Las alucinaciones son respuestas fabricadas por la IA que no se corresponden con la realidad. Generalmente suceden cuando el modelo:

  • No cuenta con información suficiente para responder de forma precisa.
  • Se enfrenta a un prompt demasiado abierto o ambiguo, lo que fomenta la especulación.

Chat Models vs. Reasoning Models

Chat Models

  • Procesan la información de manera secuencial, basándose en el historial completo de la conversación.
  • Gestionan tres tipos de mensajes:
    1. System Message: Establece directrices y el tono del modelo.
    2. User Message: Expone la solicitud o pregunta del usuario.
    3. Assistant Message: Contiene la respuesta generada por la IA.

Ejemplos:

  • ChatGPT (GPT-4)
  • Claude (Sonnet 3.5)
  • Gemini (Gemini 1.5 Pro)
  • Bard (Gemini Pro)
  • Dify (Llama 3.1)

Ventajas:

  • Respuestas ágiles.
  • Adecuados para entornos conversacionales.

Desventajas:

  • Aumenta la posibilidad de alucinaciones al basarse en el historial del chat.

Reasoning Models

  • Cada respuesta se genera de forma independiente, demandando un análisis más meticuloso.
  • Suelen tardar más en producir la respuesta, debido a las capacidades de razonamiento profundo.
  • Emplean escalado computacional para abordar problemas complejos con mayor rigor.

Ventajas:

  • Mayor precisión y fiabilidad en la respuesta.
  • Menor probabilidad de alucinaciones.

Desventajas:

  • Tiempo de ejecución más largo.
  • Requieren mayor capacidad computacional.

Cuándo usar Chat Models o Reasoning Models

  • Chat Models: Resultan ideales para conversaciones dinámicas, solicitudes puntuales y respuestas rápidas.
  • Reasoning Models: Se recomiendan en tareas que exigen un mayor nivel de análisis, exactitud y profundidad.

Buenas Prácticas

  1. Opta por modelos de razonamiento para tareas de alta precisión
    Cuando la fiabilidad de la respuesta sea crítica, los Reasoning Models suelen ser la mejor elección.

  2. Emplea Chat Models para respuestas rápidas y procesos conversacionales
    Son eficaces para diálogos interactivos, preguntas directas y redacción de contenido no crítico.

  3. Ten un plan alternativo mientras esperas a que respondan los modelos de razonamiento
    Dado que requieren más tiempo de procesamiento, aprovecha ese margen para avanzar en otras actividades o preparar los siguientes pasos.

⚠️ **GitHub.com Fallback** ⚠️