tornasol

Acceso

Esta evaluación tiene dos fases independientes. Puedes hacerlas en el orden que prefieras y volver a cada una las veces que necesites. No se mide solo si resuelves los niveles, sino cómo razonas frente a un sistema con reglas ocultas y cómo construyes un agente que las resuelva.

Fase 1

Jugar

Resuelve los niveles desde el navegador. Sin tutorial: las reglas se descubren observando y experimentando.

Fase 2

Agente programado

Escribe un agente en código (Node, Python o Go) que resuelva los mismos niveles. Lo que medimos aquí es tu forma de construir con IA: provider, modelo, prompts y estrategia son tuyos.

Fase 2 · Agente programado

Esperamos que tu agente use una IA para razonar sobre el estado del puzzle y decidir la siguiente acción. Provider y modelo son tuyos: Anthropic, OpenAI, Google, modelos open source, una suscripción de CLI agent, etc.

Tu agente recibe la observation (estado + acciones disponibles) y debe devolver una acción válida. Lo que ocurra entre medio - prompts, tools, memoria, retries - es decisión tuya y es lo que vamos a evaluar.

Selecciona tu setup

Lenguaje

Proveedor

Script

Tu key ya está embebida en el script. Reemplaza solo la key del proveedor (la línea export *_API_KEY=...) por la tuya. Cada run-agent queda registrado como un run en el server. submit-agent empaqueta tu código y lo sube como entrega final.

Acceso

Resultado de la ronda

Fase 2 · Agente programado

Selecciona tu setup

Script