Jugar
Resuelve los niveles desde el navegador. Sin tutorial: las reglas se descubren observando y experimentando.
Esta evaluación tiene dos fases independientes. Puedes hacerlas en el orden que prefieras y volver a cada una las veces que necesites. No se mide solo si resuelves los niveles, sino cómo razonas frente a un sistema con reglas ocultas y cómo construyes un agente que las resuelva.
Resuelve los niveles desde el navegador. Sin tutorial: las reglas se descubren observando y experimentando.
Escribe un agente en código (Node, Python o Go) que resuelva los mismos niveles. Lo que medimos aquí es tu forma de construir con IA: provider, modelo, prompts y estrategia son tuyos.
Esperamos que tu agente use una IA para razonar sobre el estado del puzzle y decidir la siguiente acción. Provider y modelo son tuyos: Anthropic, OpenAI, Google, modelos open source, una suscripción de CLI agent, etc.
Tu agente recibe la observation (estado + acciones disponibles)
y debe devolver una acción válida. Lo que ocurra entre medio - prompts, tools,
memoria, retries - es decisión tuya y es lo que vamos a evaluar.
Tu key ya está embebida en el script. Reemplaza solo la key del proveedor
(la línea export *_API_KEY=...) por la tuya. Cada run-agent
queda registrado como un run en el server. submit-agent empaqueta tu
código y lo sube como entrega final.