Agent Loops y Loop Engineering 2026: La Guía del Harness

Todo el mundo está posteando que el código ahora es gratis. Que con un agent loop dejás a la IA corriendo de noche y te despertás con features hechas. Mientras tanto, mirá mi factura real de Claude.

📥 ¿Querés los prompts y workflows exactos que uso a diario con Claude Code? Descargá la biblioteca gratuita de 100+ prompts y armá tu primer loop sin quemar tokens al pedo.

El término está hecho un quilombo. Agent loops. Loop engineering. Unos dicen que es el futuro del desarrollo. Otros dicen que es un while loop con pasos de más. Y los dos tienen razón a medias — porque los dos se saltean la parte que importa.

Todos gritando "escribí loops" — esa es la parte fácil. Lo que evita que un loop te incendie la factura tiene nombre: el harness. De eso va esta guía.

# Esto es el núcleo de un "Ralph loop". En serio. Esto es todo.
while :; do cat PRD.md | claude; done

Eso es un while loop. Es la parte que todos critican — y, honestamente, es una tarde de laburo. El loop es el gancho. El harness es la sustancia.

Claude Code Mastery

Aprende a usar Claude Code en contexto real. 5 módulos, 15 lecciones, ejemplos de producción.

Esta guía de agent loops en español 2026 condensa lo que aprendí corriendo loops reales en producción desde febrero — qué funciona, qué te funde la cuenta, y por qué el modelo es solo una parte de la máquina.

Para Quién Es Esta Guía de Agent Loops

✅ Si ya usás Claude Code y querés pasar de "le pido cosas" a "le dejo loops corriendo"
✅ Si viste el hype de loop engineering y no entendés si es real o humo
✅ Si te asusta (con razón) dejar un agente corriendo solo y volver a una factura de terror
✅ Desde la definición correcta hasta cómo correr tu primer loop sin fundirte

Qué Vas a Aprender

La evolución real — de prompting a context engineering al harness a loops, y por qué cada capa envolvió a la anterior
Qué es un loop de verdad — la definición en una sola frase, sin jerga
Por qué explotan — context rot, false completions, y los números que nadie te muestra
La escalera de governadores — el fix: mismo modelo, resultado completamente distinto según el harness
El experimento de la pelea justa — cómo correr un bake-off de loops con un juez que no se autocalifica
Cómo correlo vos — lanes, primitivos, budget, y la barra honesta de readiness

🔔 ¿Querés los workflows que no publico acá? Cada martes mando loops, prompts y los errores que cometí (para que vos no los cometas).

Cómo Llegamos Acá: La Evolución

Esto no salió de la nada. Fue una escalera:

Prompting → Context engineering → El harness → Loops.

Cada paso envolvió al anterior. El prompt sigue ahí adentro; solo que quedó enterrado más profundo.

"Pasamos rápido de prompt engineering a context engineering… tool calling, MCP y RAG… para manejar la ventana de contexto de forma más eficiente." — Caleb Writes Code

"Loop" es la palabra más nueva, pero el loop corre adentro del harness. Por eso el resto de la guía va sobre el harness, no sobre el buzzword. Boris Cherny (uno de los creadores de Claude Code) lo puso así:

"Ya no prompteo a Claude. Tengo loops corriendo… Mi trabajo es escribir loops." — Boris Cherny

Dato de origen, para los que dicen que esto es nuevo: los Ralph loops los introdujo Jeff Huntley allá por julio. El mecanismo es viejo. Lo nuevo es hacer que no te prenda fuego la plata.

Qué Es Realmente un Agent Loop

Olvidate de la jerga. Acá está todo en una sola frase:

💡

Un loop es un programa chico que prompteá al agente por vos, lee lo que produjo, decide si terminó o no, y lo vuelve a promptear si no terminó. — Sean Kochel

Eso es. El modelo actúa, lee el resultado, decide si está listo, y vuelve a empezar.

El loop es el verbo. El bucle que repite.
El harness es la máquina. Las herramientas, la verificación, la memoria, los budgets.

Theo lo explica con una analogía que se queda pegada:

"Imaginate un ingeniero muy bueno al que le borran el cerebro cada vez que hace demasiado trabajo de una." — Theo

Por eso el harness importa tanto. El modelo es brillante pero amnésico. El harness es lo que le da memoria, límites y una forma de saber si realmente terminó. Como dijo alguien en los comentarios, perfecto:

"Prompting = esperanza. Harness = trabajo."

La distinción es todo. El loop sin harness es esperanza automatizada. El loop con harness es trabajo.

Por Qué Explotan: Los Números Reales

Acá está lo que nadie te muestra: las facturas. Y el modo de fallo más caro no es el costo directo — es el loop que dice "terminé" cuando no terminó.

Falla #1: Context rot

"El context rot pasa cuando hay demasiada información en el contexto, lo que hace que los modelos se comporten peor." — Theo

La ventana de contexto se llena, el modelo empeora, y cuando se llena de verdad, resume. ¿Y qué pasa cuando resume mal?

"Si el contexto empezaba a llenarse a mitad de tarea, resumía y asumía que la tarea ya estaba terminada… cuando en realidad no lo estaba." — Caleb (false completions)

Falla #2: El agente se autocalifica

Este es el peligroso. El loop inventa su propio test, lo pasa, y trata el resultado como evidencia de que funcionó.

"El agente puede inventar los tests, pasarlos, y después tratar el resultado como evidencia de que el loop funcionó… es pedirle que audite su propio papeleo." — comentario de la comunidad

Es como pedirle a alguien que se ponga la nota del examen que él mismo escribió. Va a aprobar siempre.

Y los costos

Esto no es teórico. Mirá:

"Uber se quemó todo su budget de IA en cuatro meses." — Sean Kochel

"El código sigue sin ser gratis: sigue siendo deuda técnica y responsabilidad." — comentario de la comunidad

Y sí — un loop es, en el fondo, un cron job con un tomador de decisiones. El mecanismo es viejo. Lo nuevo es hacer que no te prenda fuego la cuenta.

El Fix: La Escalera de Governadores

El fix no es más loop. Es control. Mismo modelo, mismo poder bruto, resultado completamente distinto — según el harness que le pongas alrededor.

"Mismo modelo, misma capacidad bruta, resultado completamente distinto." — AI Revolution

Pensalo como una escalera. Subí un escalón a la vez:

Escalón 0 — Sin governador          → el while loop pelado. Esperanza. NO shipees esto.
Escalón 1 — Stop on green           → frená cuando los tests pasen
Escalón 2 — Tests + review          → un agente revisa lo que otro escribió
Escalón 3 — Bounded + verify        → límites de budget + verificación externa que el agente no controla

La regla que está debajo de toda la escalera:

🎯

Solo loopeá lo que podés verificar.

Andrej Karpathy lo enmarca bien:

"Todo se puede hacer verificable hasta cierto punto… es más sobre qué es fácil o difícil de verificar." — Andrej Karpathy

El modelo es solo una parte de la máquina. El próximo cuello de botella grande no es un modelo más inteligente — es escalar el harness. La mayoría de las historias de terror de tokens quemados desaparecen cuando el loop está bien diseñado: guardrails determinísticos, circuit breakers duros, y un verificador que el agente no pueda sobornar.

El Experimento: La Pelea Justa

La mejor forma de entender que es el harness, no el modelo, es ponerlos a competir en el mismo trabajo.

El setup del bake-off:

Un solo PRD — una app real: front end, backend, base de datos.
Repo vacío. Cinco loops, cinco branches.
Cada uno construye todo y escribe sus propios tests.
El truco: yo califico cada uno con un test suite que ellos nunca ven.

PRD único
   ├── branch 1 · Escalón 0 (sin governador)
   ├── branch 2 · Escalón 1 (stop on green)
   ├── branch 3 · Escalón 2 (tests + review)
   ├── branch 4 · Escalón 3 (bounded + verify)
   └── branch 5 · tu receta
        ↓
   Juez oculto (test suite que ningún loop vio)
        ↓
   Scoreboard: factura real de cada lane + columna del juez oculto

Lo que hay que mirar es el lane que pasa su propio test y falla el mío — un test lo suficientemente blando como para dejar pasar su propio código.

"El modelo que escribió el código es demasiado buena onda calificando su propia tarea." — Addy Osmani

⚠️

Sé honesto con los números. No te voy a tirar facturas inventadas. El bake-off se corre en vivo y los montos dependen de la corrida real. Lo que sí te puedo asegurar: con el mismo spec y la misma meta, las facturas no coinciden. Sea cual sea la diferencia, eso es el harness, no el modelo. Yo no vendo tokens, así que no tengo ninguna razón para decirte que quemes más.

Corrélo Vos: Lanes, Primitivos y Budget

No leas esto y vuelvas mañana "cuando tengas tiempo". Ese momento no llega. Acá está cómo correr tu primer loop hoy.

Las 5 recetas (subí la escalera, no shipees el escalón 0)

Cada lane es la misma idea con más control. Cada loop necesita cuatro cosas:

⚡ trigger        → qué lo arranca (un PR abierto, un issue, un cron)
🎯 goal           → cómo se ve "terminado", descripto en texto
✅ verificación   → el test/check que el agente NO controla
💰 budget cap     → el límite duro de tokens/plata antes de frenar
+ branch          → todo aislado, nunca sobre main

Nombrá los primitivos reales

Loop vs. capa de governance — el bucle es una cosa; los límites y la verificación son otra.
Agentes con roles separados — el que escribe código no es el que escribe tests.
Session forks — ramificar el contexto para no contaminar.

La separación de roles es clave para que el agente no haga trampa consigo mismo:

"El agente de código es el único que puede tocar el source, y los agentes de test son los únicos que pueden editar los tests." — comentario de la comunidad

La barra honesta de readiness

No te voy a mentir con que esto es para cualquiera desde el día uno:

"Si todavía no te sentís cómodo corriendo dos o tres sesiones en paralelo… armar un loop es una idea muy muy mala." — Sean Kochel

Pero ojo: esa barra es sobre correr varias a la vez. El on-ramp es un loop, una sesión — que es exactamente la tarea de esta noche.

El budget no necesita ser de millonario

Esto es lo que casi nadie te dice: no necesitás un presupuesto de token-billonario. La misma lane corre en un plan Pro o con un modelo más barato. Mismo trabajo, factura más chica. Empezá ahí.

CURSO GRATUITO

Claude Code Mastery

Aprende a usar Claude Code en contexto real. 5 módulos, 15 lecciones, ejemplos de producción.

2+ horas de contenidoEjemplos realesAcceso inmediato

❌ Errores Que Te Van a Costar Tokens (Y Cómo Evitarlos)

1. Loopear algo que no podés verificar

El error: dejar un loop corriendo sobre una tarea sin un check externo. El costo: el agente se autocalifica, dice "terminé", y vos pagás cada iteración hasta el budget. La lección: si no podés describir el test que prueba que terminó, no lo loopees todavía.

2. Correr el escalón 0 en producción

El error: tomar el while :; do … done de Twitter y largarlo sobre tu repo real. El costo: context rot + false completions + factura sin techo. La lección: ese tweet es una demo, no un workflow. Subí la escalera.

3. Sin budget cap = sin red

El error: arrancar un loop sin un límite duro de tokens. El costo: te enterás del problema cuando llega la factura, no antes. La lección: budget cap primero, loop después. Siempre.

4. El mismo agente escribe el código y los tests

El error: dejar que un solo agente haga las dos cosas. El costo: tests blandos que dejan pasar el código del propio agente. La lección: separá roles. Coder edita source, tester edita tests. Nunca cruzados.

5. Confundir el loop con el harness

El error: pensar que "escribí loops" es la habilidad. El costo: copiás el bucle, te saltás la verificación, y repetís todas las historias de terror. La lección: el while loop es gratis. El control alrededor es la habilidad real.

Conclusión: El Loop Suma Capas, No Reemplaza

El loop no reemplaza el prompt ni el contexto: los envuelve. El while loop es gratis. El plano de control alrededor — budgets, verificación, la regla que agregás después de que un loop te quema una vez — eso es la habilidad real. Y es la parte que sobrevive al próximo buzzword.

"Podés tercerizar tu pensamiento, pero no podés tercerizar tu entendimiento." — Andrej Karpathy

Y no necesitás diez años de CS para esto. Si podés describir cómo se ve "terminado", podés correr un loop.

📅 Tu Plan de Acción

Esta noche (30 min)

Elegí un PR abierto o un issue chico
Definí las 4 piezas: trigger, goal, verificación, budget cap
Corré una lane del escalón 2 (tests + review) sobre una branch aislada
Mirá el resultado contra tu verificación, no contra la del agente

Meta: que un loop te ahorre una hora esta semana. Una sola. Eso es todo.

La semana que viene

Subí un escalón: agregá un verificador externo que el agente no controle
Probá la misma lane en un modelo más barato y compará la factura
Documentá el primer momento en que un loop dijo "terminé" sin terminar (te va a pasar)

Si querés ver cómo aplico esto en proyectos reales, pasá por maxtechera.me y seguí los lanzamientos semanales directo desde la home.

Preguntas Frecuentes

¿Qué es un agent loop?

Un agent loop es un programa chico que le da un prompt al agente, lee lo que produjo, decide si terminó o no, y lo vuelve a promptear si no terminó. El loop es el verbo. El harness — las herramientas, la verificación, la memoria, los budgets — es la máquina que hace que no se vaya de las manos.

¿Loop engineering es solo un while loop con pasos de más?

El núcleo sí es un while loop, y eso es una tarde de trabajo. Lo nuevo no es el loop: es el harness alrededor que evita que queme tu factura. La parte difícil es la verificación y los límites, no el bucle.

¿Por qué los agent loops gastan tanta plata?

Por dos razones: context rot (el contexto se llena, el modelo empeora y resume mal) y false completions (el loop dice "terminé" cuando no terminó, escribe su propio test, lo pasa, y lo da por hecho). Uber quemó su budget de IA en cuatro meses. La regla que lo arregla: solo loopeá lo que podés verificar.

¿Necesito ser programador senior para correr un agent loop?

No para correr uno. La barra alta es correr varias sesiones en paralelo. El on-ramp es un loop, una sesión, con trigger, goal, verificación y un budget cap. Si podés describir cómo se ve "terminado", podés correr un loop.

¿Agent loops reemplazan al prompting y al context engineering?

No. El loop no reemplaza el prompt ni el contexto: los envuelve. El prompt sigue adentro, solo que más profundo. Cada capa wrappeó a la anterior — prompting, context engineering, harness, loops.

Seguí aprendiendo:

Guía Completa de Claude Code 2026 — el setup, los modos, CLAUDE.md y workflows
Sub-agentes en Claude Code — contextos aislados y roles especializados
Cómo Instalar Claude Code — setup paso a paso
Precios de Claude Code 2026 — qué plan elegir según tu uso

Para Quién Es Esta Guía de Agent Loops

Qué Vas a Aprender

Developers

Cómo Llegamos Acá: La Evolución

Qué Es Realmente un Agent Loop

Por Qué Explotan: Los Números Reales

Falla #1: Context rot

Falla #2: El agente se autocalifica

Y los costos

Developers

El Fix: La Escalera de Governadores

El Experimento: La Pelea Justa

Corrélo Vos: Lanes, Primitivos y Budget

Las 5 recetas (subí la escalera, no shipees el escalón 0)

Nombrá los primitivos reales

La barra honesta de readiness

El budget no necesita ser de millonario

Claude Code Mastery

❌ Errores Que Te Van a Costar Tokens (Y Cómo Evitarlos)

1. Loopear algo que no podés verificar

2. Correr el escalón 0 en producción

3. Sin budget cap = sin red

4. El mismo agente escribe el código y los tests

5. Confundir el loop con el harness

Conclusión: El Loop Suma Capas, No Reemplaza

📅 Tu Plan de Acción

Preguntas Frecuentes

¿Qué es un agent loop?

¿Loop engineering es solo un while loop con pasos de más?

¿Por qué los agent loops gastan tanta plata?

¿Necesito ser programador senior para correr un agent loop?

¿Agent loops reemplazan al prompting y al context engineering?