003_como_funciona_la_ia - IUGO-Studio/tech-ia GitHub Wiki
En la mayoría de los modelos de Inteligencia Artificial (IA), el texto de entrada se procesa dividiéndolo en fragmentos llamados tokens. Cada modelo tiene un límite máximo de tokens que puede admitir en una sola interacción, por lo que es clave ser consciente de esta restricción y estructurar tus prompts en función de ello.
-
Sé conciso
- Prioriza la información relevante y descarta detalles superfluos.
-
Fragmenta el texto (chunking)
- Cuando tu texto sea muy largo, divídelo en bloques más pequeños y gestionables para evitar sobrepasar el límite de tokens.
-
Usa windowed chunking
- Trabaja con fragmentos del texto de forma secuencial. Apóyate en el contexto de cada bloque anterior para generar el siguiente de manera coherente.
-
Crea resúmenes
- Para integrar grandes volúmenes de información, considera generar versiones resumidas de cada sección, lo cual reduce la cantidad total de tokens utilizados.
Nota: Familiarizarte con los límites de cada modelo de IA es fundamental. Además, profundiza en el uso de embeddings y en los métodos estadísticos que allow los modelos generar las respuestas.
Las alucinaciones son respuestas fabricadas por la IA que no se corresponden con la realidad. Generalmente suceden cuando el modelo:
- No cuenta con información suficiente para responder de forma precisa.
- Se enfrenta a un prompt demasiado abierto o ambiguo, lo que fomenta la especulación.
- Procesan la información de manera secuencial, basándose en el historial completo de la conversación.
- Gestionan tres tipos de mensajes:
- System Message: Establece directrices y el tono del modelo.
- User Message: Expone la solicitud o pregunta del usuario.
- Assistant Message: Contiene la respuesta generada por la IA.
Ejemplos:
- ChatGPT (GPT-4)
- Claude (Sonnet 3.5)
- Gemini (Gemini 1.5 Pro)
- Bard (Gemini Pro)
- Dify (Llama 3.1)
Ventajas:
- Respuestas ágiles.
- Adecuados para entornos conversacionales.
Desventajas:
- Aumenta la posibilidad de alucinaciones al basarse en el historial del chat.
- Cada respuesta se genera de forma independiente, demandando un análisis más meticuloso.
- Suelen tardar más en producir la respuesta, debido a las capacidades de razonamiento profundo.
- Emplean escalado computacional para abordar problemas complejos con mayor rigor.
Ventajas:
- Mayor precisión y fiabilidad en la respuesta.
- Menor probabilidad de alucinaciones.
Desventajas:
- Tiempo de ejecución más largo.
- Requieren mayor capacidad computacional.
- Chat Models: Resultan ideales para conversaciones dinámicas, solicitudes puntuales y respuestas rápidas.
- Reasoning Models: Se recomiendan en tareas que exigen un mayor nivel de análisis, exactitud y profundidad.
-
Opta por modelos de razonamiento para tareas de alta precisión
Cuando la fiabilidad de la respuesta sea crítica, los Reasoning Models suelen ser la mejor elección. -
Emplea Chat Models para respuestas rápidas y procesos conversacionales
Son eficaces para diálogos interactivos, preguntas directas y redacción de contenido no crítico. -
Ten un plan alternativo mientras esperas a que respondan los modelos de razonamiento
Dado que requieren más tiempo de procesamiento, aprovecha ese margen para avanzar en otras actividades o preparar los siguientes pasos.