Zumma AI Agent Challenge
Zumma
Software Engineering, Data Science
Posted on Mar 28, 2025
Zumma AI Agent Challenge
Este ejercicio es muy similar al trabajo que estarás haciendo en Zumma. Este consiste en crear un pequeño AI Agent que lea la información de cualquier página web, encuentre la opción de facturar, vaya a la página de facturación y llene automáticamente el primer formulario encontrado con información aleatoria.
Cada página web en este challenge debe ser procesada de manera independiente como un flujo separado.
Pasos
El agente debe de Navegar a las tres páginas web (procesos separados):
Extraer información con Computer Vision:
Leer la información visible en la página
Navegar la página y encontrar el boton de facturación
Seguir las instrucciones de la página hasta llegar al formulario de facturación
Llenar el formulario con datos aleatorios:
Completar los campos requeridos en el sitio web con valores generados aleatoriamente. Algunos valores son: - Número de referencia - Monto - RFC
- Información fiscal
- Fecha
Enviar el formulario.
Hacer clic en el botón “Siguiente” tras completar el formulario.
Requerimientos
La solución debe estar escrita en Python 3.12 o superior.
La ejecución debe realizarse dentro de un contenedor de Docker.
La navegación web debe realizarse con Playwright (documentación)
Se debe incluir documentación clara sobre cómo instalar, ejecutar y usar la solución.
No usar agentes de IA preconstruidos o bibliotecas que automaticen completamente la tarea (como browseruse o stagehand)
Entregables
Código fuente:
Subido a un repositorio público de GitHub o entregado en un archivo .zip.
Demostración en video:
Un video donde se muestre la ejecución de la solución llenando los formularios.
Puede estar en YouTube, dentro del .zip enviado, o en el repositorio de GitHub.
Instrucciones de uso y dependencias:
Incluir un README.md con detalles sobre cómo instalar, configurar y ejecutar el agente.
Extras / Nice to have
Usar instructor u otra herramienta similar para mejorar la estructura de los datos.
Manejo de dependencias con uv, pdm o poetry.
Habilidad del agente para reconocer errores y reaccionar de manera inteligente (por ejemplo, si el formulario falla o un botón no aparece).