hero

Find jobs at MIT startups!

Please email orbit-jobs@mit.edu to connect with the company's MIT founder. To post a job, please email: orbit-jobs-add@mit.edu.
MIT
92
companies
264
Jobs

AI Scraper Challenge

Zumma

Zumma

Software Engineering, Data Science
Posted 6+ months ago

AI Scraper Challenge

Este ejercicio consiste en crear un script que vea la información de una pagina web y retorne los campos encontrados y los css selectors correspondientes.
Pasos
Navegar a la pagina web https://e-facturate.com/benavides/
Usando computer vision ver la información de la pagina, por ejemplo usando GPT o OCR.
Usando la información buscar por las opciones:
Numero de referencia
Monto
RFC
Fecha
Nombre
Si alguna de las opciones no se encuentra en la pagina, marcarlas como None. Mantener los nombres de las opciones como se muestran en la lista anterior.
Con la lista de opciones usar LLM u otro método para encontrar los CSS selectors correspondientes, por ejemplo:
YAML
fields: - name: Numero de referencia selector: '#referencia' - name: Monto selector: '#monto' - name: RFC selector: '#rfc' - name: Fecha selector: '#fecha' - name: Nombre selector: None
Entregables
El resultado debe ser un archivo YAML o JSON con la estructura anterior (#4)
El script debe estar escrito en Python
La navegación a la pagina debe ser hecha con Playwright (https://playwright.dev/python)
Nice to have
El script debe correr en un contenedor de Docker usando docker-compose