Agentes basados en Large Language Models (LLM) - Parte 2 - Enfoque ReAct
Introducción
En esta segunda entrega de nuestra serie sobre agentes basados en Large Language Models (LLM), profundizaremos en la evolución de estos agentes y exploraremos el enfoque ReAct, un nuevo paradigma que combina razonamiento y acción. Este enfoque expande las posibilidades de los agentes al abordar tareas complejas de una manera más humana y adaptable.
Si querés visitar las otras ediciones de esta serie de posts, podés encontrarlos a continuación:
La evolución del razonamiento en agentes LLM
El campo de los agentes LLM experimentó un punto de inflexión en 2020 con el lanzamiento de GPT-3, que demostró una capacidad sin precedentes para generar texto coherente a gran escala. Inicialmente, las aplicaciones se dividían en dos categorías distintas:
- Tareas de razonamiento: Resolución de problemas complejos, respuesta a preguntas y análisis lógico.
- Tareas de Acción: Interacción en entornos específicos, como juegos o control robótico.
La verdadera revolución llegó cuando estos enfoques comenzaron a fusionarse, dando origen a los agentes de razonamiento integrado. Estos agentes no solo procesan información o ejecutan acciones, sino que desarrollan un proceso cognitivo completo antes de actuar, similar al pensamiento humano.
Superando las limitaciones de los LLM
Los primeros modelos de lenguaje se enfrentaban a desafíos en tareas simples, como la realización de cálculos matemáticos o el manejo de conocimiento desactualizado. Para superar estas limitaciones se plantearon diferentes soluciones, como por ejemplo:
-
Razonamiento en Cadena (Chain of Thought)
- Permite descomponer problemas complejos en pasos lógicos manejables
- Mejora la precisión en tareas que requieren múltiples etapas de razonamiento
-
Integración de herramientas o programas externos
- Complementa las capacidades del modelo con programas especializados que el modelo puede utilizar para resolver tareas complejas.
- Ejemplo: Uso de calculadoras para operaciones matemáticas precisas
-
Generación Aumentada por Recuperación (RAG)
- Accede a información actualizada de fuentes externas
- Reduce significativamente las "alucinaciones" del modelo al pedirle explícitamente que responda solo en base a la información provista.
- Mejora la calidad de las respuestas mediante contexto enriquecido
La incorporación de estas soluciones permitieron a los modelos mejorar su desempeño en diversas áreas, y combinadas con el enfoque ReAct que describiremos a continuación, podemos obtener agentes muy potentes.
Hacia un enfoque unificado: ReAct
El surgimiento del enfoque ReAct marca un punto de inflexión en el desarrollo de agentes LLM. Este paradigma revolucionario supera una limitación fundamental: la separación artificial entre razonamiento y acción. En lugar de tratar estas capacidades como procesos independientes, ReAct las integra en un ciclo dinámico y continuo.
La mecánica es elegante en su simplicidad: en cada paso del proceso, el agente combina un pensamiento reflexivo con una acción concreta. Imaginemos un asistente virtual investigando una pregunta compleja sobre historia:
- Pensamiento: "La pregunta involucra eventos en múltiples períodos. Necesito verificar las fechas exactas."
- Acción:Realiza una búsqueda específica sobre la cronología.
- Pensamiento: "Estos eventos están conectados de una manera que no esperaba. Debería buscar más sobre esta conexión."
- Acción: Consulta fuentes adicionales sobre la relación entre eventos.
Esta estrategia es especialmente valiosa en entornos abiertos, donde la información no siempre está disponible de antemano y es necesario adaptar las acciones en función del contexto. ReAct permite a los agentes explorar, obtener retroalimentación y ajustar su razonamiento y acciones de forma iterativa, acercándose al modo en que los humanos resolvemos problemas: observamos, reflexionamos, actuamos, y ajustamos nuestro enfoque basándonos en los resultados.
Un aspecto destacado de este enfoque es su versatilidad: no se limita a responder preguntas, sino que puede aplicarse a cualquier tarea que pueda transformarse en texto. Por ejemplo, en un videojuego, un modelo podría describir las escenas en pantalla mediante texto, analizar la situación utilizando razonamiento lógico y generar las acciones necesarias para interactuar en el entorno del juego.
Las posibilidades de este paradigma son inmensas. La clave radica en convertir las observaciones en texto estructurado, procesarlo con un modelo de lenguaje y traducir las decisiones resultantes en acciones precisas. Este ciclo abre nuevas oportunidades en campos como la inteligencia artificial aplicada, la robótica y los entornos interactivos.
Si quieres investigar más sobre los agentes ReAct podés explorar Langgraph, que tiene una implementación de este tipo de agentes o también leer el paper original acá.
Conclusiones
En este artículo describimos algunos puntos importantes en la evolución de los agentes LLM, destacando estrategias como el razonamiento en cadena (Chain of Thought), el uso de herramientas externas y la generación aumentada por recuperación, que sirvieron para mitigar algunas de las limitaciones de los agentes.
También exploramos el enfoque ReAct, una metodología que combina razonamiento y acción en un ciclo iterativo, lo que permite a los agentes enfrentar problemas complejos con mayor flexibilidad y adaptabilidad.
Este enfoque no solo optimiza la resolución de problemas, sino que también abre nuevas posibilidades en aplicaciones como videojuegos, interacción en entornos abiertos y exploración científica. Convertir observaciones en texto y usar modelos de lenguaje para reflexionar y actuar representa un avance significativo en el diseño de agentes inteligentes.
En la próxima entrega, nos adentraremos en otro componente crucial de los agentes LLM: la memoria, tanto de corto como de largo plazo, y cómo esta capacidad vuelve todavía más potentes a los agentes LLM.
¡Mantenete al Tanto de las Novedades!
¿Te gustaría recibir las últimas actualizaciones sobre Mi Obra y más contenido exclusivo directamente en tu bandeja de entrada? Suscribite a nuestro newsletter en Substack y no te pierdas ninguna novedad.