Autoresearch: cuando la inteligencia artificial investiga mientras tú duermes
- hace 2 días
- 12 min de lectura
El experimento de Andrej Karpathy que muestra cómo un agente puede probar hipótesis, ejecutar experimentos y mejorar sistemas mientras nosotros dormimos
Imaginemos por un momento la escena. Son las once de la noche. Un investigador deja su ordenador encendido en un rincón de la mesa, le da una instrucción al sistema y se va a dormir. Cuando vuelve a la mañana siguiente, su modelo de lenguaje no solo ha entrenado durante toda la noche: ha probado más de cien hipótesis, ha conservado las que funcionan, ha descartado las que no, y ha dejado un registro detallado de cada paso. El investigador no ha tocado el código. Tampoco ha redactado experimentos ni vigilado métricas, sencillamente ha dormido.
Esta escena, que hace apenas un par de años habría sonado a ciencia ficción, es exactamente lo que propone Autoresearch, un proyecto publicado por Andrej Karpathy a principios de 2026. En muy poco tiempo se convirtió en uno de los repositorios más comentados de GitHub, no tanto por su complejidad técnica como por la idea que representa.
Durante los últimos años nos hemos acostumbrado a que los modelos de inteligencia artificial escriban textos, generen imágenes o ayuden a programar. Sin embargo, todos esos sistemas comparten una característica: responden cuando alguien les hace una pregunta.
Autoresearch plantea algo diferente. En lugar de responder, investiga. Su objetivo no es producir una respuesta brillante ni resolver una tarea concreta. Su objetivo es formular hipótesis, probarlas mediante experimentos, medir los resultados y decidir qué cambios merece la pena conservar. Es decir, ejecutar por sí mismo una parte del proceso que tradicionalmente asociamos al trabajo de investigadores e ingenieros.
Lo más sorprendente es que no lo hace mediante una arquitectura revolucionaria ni gracias a un nuevo modelo de lenguaje. De hecho, una de las razones por las que el proyecto ha llamado tanto la atención es precisamente su simplicidad. Karpathy ha construido el experimento sobre un entorno deliberadamente pequeño, comprensible y reproducible, donde cada decisión puede observarse con claridad.
Y quizá ahí resida la verdadera importancia de Autoresearch. No porque haya creado una inteligencia artificial más potente, sino porque muestra un patrón de trabajo que podría extenderse mucho más allá del entrenamiento de modelos. Un patrón donde el papel del humano deja de ser ejecutar cada experimento manualmente y pasa a consistir en definir objetivos, establecer métricas y supervisar el proceso.
En otras palabras, Autoresearch no intenta responder a la pregunta de cómo hacer una IA más inteligente.
Intenta responder a una pregunta mucho más interesante:
¿Qué ocurre cuando una IA empieza a participar en la propia búsqueda de mejoras?

Qué es exactamente Autoresearch
Un laboratorio autónomo en miniatura
Cuando alguien escucha hablar por primera vez de Autoresearch suele imaginar algo parecido a un gran laboratorio de inteligencia artificial lleno de complejos sistemas distribuidos, enormes clusters de GPUs y modelos de última generación.
La realidad es mucho más modesta. Autoresearch es un pequeño entorno experimental creado por Andrej Karpathy para demostrar una idea muy concreta: ¿qué ocurre si dejamos que una inteligencia artificial se encargue de realizar por sí sola el trabajo repetitivo de investigación y optimización?
Para ello, Karpathy construyó el sistema sobre una versión reducida de un modelo tipo GPT llamada nanochat. El objetivo no era crear el mejor modelo posible ni competir con los grandes laboratorios de IA. Al contrario. Quería un entorno suficientemente pequeño como para que cualquier experimento pudiera ejecutarse en pocos minutos y cualquier mejora pudiera medirse rápidamente.
La elección no es casual. En investigación existe una regla no escrita: cuanto más barato y rápido sea experimentar, más experimentos podrás realizar. Y cuantos más experimentos realices, más oportunidades tendrás de encontrar mejoras inesperadas.
Autoresearch lleva esta idea al extremo. En lugar de utilizar la inteligencia artificial para escribir código bajo demanda, la utiliza para generar hipótesis, modificar el sistema, ejecutar pruebas y aprender de los resultados obtenidos. El modelo deja de ser únicamente una herramienta de producción para convertirse en un participante activo del propio proceso de investigación.
Lo que observamos ya no es un chatbot respondiendo preguntas. Es un pequeño laboratorio funcionando de forma autónoma.

El verdadero objetivo del experimento
A primera vista podría parecer que Autoresearch trata de mejorar modelos de lenguaje, pero esa interpretación se queda corta. Lo verdaderamente importante no es el modelo que Karpathy está entrenando. Tampoco la métrica concreta que intenta optimizar ni los puntos porcentuales de mejora que consigue durante la noche.
Lo importante es el patrón.
Durante décadas, la investigación en ingeniería y ciencia ha seguido un ciclo relativamente estable. Una persona formula una hipótesis, modifica algo, ejecuta una prueba, analiza los resultados y decide cuál será el siguiente experimento.
Autoresearch automatiza ese ciclo completo.
La hipótesis la propone el agente.
La modificación la realiza el agente.
La prueba la ejecuta el agente.
La evaluación la realiza el agente.
Y la decisión sobre continuar o descartar el cambio también la toma el agente.
El humano sigue definiendo el objetivo general y estableciendo las reglas del juego, pero deja de intervenir en cada iteración individual.
Esta diferencia puede parecer sutil, pero es enorme, porque si el proceso funciona en un pequeño modelo de lenguaje, nada impide aplicarlo posteriormente a otros dominios donde exista una forma clara de medir el éxito. Optimización de software, diseño de prompts, mejora de procesos empresariales o incluso ciertas tareas de investigación científica podrían beneficiarse del mismo mecanismo.
Porque si una inteligencia artificial puede ejecutar experimentos por sí misma, la pregunta deja de ser qué puede hacer una IA, la pregunta pasa a ser qué problemas somos capaces de convertir en experimentos.
El corazón del sistema: program.md
Cuando el programa deja de ser código
Si alguien descargara Autoresearch esperando encontrar una compleja arquitectura de agentes, probablemente se llevaría una sorpresa. El repositorio es extraordinariamente pequeño. De hecho, una vez eliminamos los elementos auxiliares, prácticamente todo gira alrededor de tres archivos: uno prepara los datos, otro contiene el modelo y el bucle de entrenamiento, y un tercero llamado program.md describe lo que el agente debe hacer, y es precisamente este último archivo el que resulta más interesante.
Durante décadas hemos entendido un programa como una secuencia de instrucciones escritas en un lenguaje formal. Python, C++, Java o cualquier otro lenguaje no son más que formas estructuradas de indicar a una máquina qué debe hacer y en qué orden debe hacerlo.
Autoresearch rompe parcialmente esa idea. La lógica general del sistema no está codificada mediante estructuras de programación tradicionales. Está escrita en lenguaje natural. El archivo program.md contiene algo que, visto desde cierta perspectiva, se parece más a un manual de trabajo que a un programa informático. Allí se explica al agente cuál es su objetivo, cómo debe organizar los experimentos, qué criterios debe utilizar para aceptar o rechazar cambios, cómo registrar los resultados y cómo debe comportarse durante la ejecución.
Lo más llamativo es que el destinatario principal de ese documento ya no es una persona sino que es otra inteligencia artificial. Por primera vez empezamos a ver sistemas donde el lenguaje natural deja de ser una interfaz para humanos y se convierte en un mecanismo de programación para agentes, y eso representa un cambio mucho más profundo de lo que podría parecer a simple vista.

El nacimiento de la programación orientada a agentes
En los primeros años de la informática programábamos ordenadores. Más tarde empezamos a programar aplicaciones, y después llegaron los servicios distribuidos, las APIs y los sistemas en la nube.
Ahora parece estar emergiendo una nueva capa de abstracción: programar agentes. Cuando escribimos software tradicional definimos cada paso de forma explícita. El desarrollador controla exactamente qué ocurre y cuándo ocurre. En cambio, cuando trabajamos con agentes definimos objetivos, restricciones y criterios de éxito, dejando que el sistema decida los pasos intermedios.
Autoresearch es un ejemplo casi perfecto de esta filosofía. El agente recibe una misión clara: mejorar una determinada métrica. También recibe una serie de reglas para evitar el caos. Debe registrar lo que hace, utilizar Git para mantener un historial limpio, conservar únicamente las mejoras demostrables y descartar cualquier cambio que no produzca resultados.
A partir de ahí comienza a trabajar. No sigue una secuencia rígida de instrucciones, sino que explora, propone, prueba, evalúa y vuelve a intentarlo. Por eso resulta tan simbólico que uno de los elementos más importantes del proyecto sea precisamente un archivo Markdown. No porque Markdown tenga nada de especial, sino porque representa una idea nueva: la posibilidad de que las especificaciones escritas por humanos se conviertan directamente en programas ejecutados por agentes.
Quizá dentro de unos años sigamos escribiendo código como siempre, rero también es posible que una parte creciente de la programación consista simplemente en describir con precisión qué queremos conseguir y dejar que los agentes descubran por sí mismos cómo llegar hasta allí. Si esa hipótesis es correcta, entonces Autoresearch no estaría mostrando únicamente una nueva herramienta, estaría mostrando una nueva forma de programar.
El bucle: editar, entrenar, medir, decidir
La mecánica de la mejora continua
Su funcionamiento real puede resumirse en cuatro verbos: editar, entrenar, medir y decidir.
El agente comienza observando el estado actual del proyecto. Analiza el código disponible, revisa los resultados obtenidos hasta ese momento y formula una hipótesis sobre algo que podría mejorar. Quizá un optimizador diferente, quizá una modificación en la arquitectura, o simplemente un pequeño ajuste de algún parámetro.
Una vez seleccionada la idea, modifica el archivo correspondiente y lanza un nuevo entrenamiento. La prueba dura únicamente unos minutos. No se busca obtener el mejor resultado posible, sino recopilar información rápidamente y a bajo coste.
Cuando el entrenamiento finaliza, el agente compara la nueva métrica con el mejor resultado obtenido hasta ese momento. Si la modificación mejora el sistema, el cambio se conserva, si no mejora, se elimina. No hay reuniones, ni debates, solo evidencia.

Cien experimentos mientras duermes
La verdadera fuerza de Autoresearch no aparece cuando observamos una única iteración, sino que aparece cuando observamos cientos. Cada experimento individual puede aportar una mejora pequeña, insignificante o incluso nula.
A diferencia de un investigador humano, el agente no experimenta frustración cuando una idea falla. No pierde motivación después de una serie de resultados negativos. No se cansa, no se distrae y no siente la necesidad de abandonar una línea de trabajo porque parezca poco prometedora, simplemente continúa. Cinco minutos después prueba otra cosa, y cinco minutos más tarde vuelve a intentarlo, una y otra vez.
Durante una noche completa puede ejecutar fácilmente más de cien experimentos. Durante varios días puede acumular cientos de iteraciones. Y aunque solo una pequeña fracción de ellas termine produciendo mejoras reales, esas mejoras se van acumulando progresivamente sobre la mejor versión existente.
Esto es importante porque muchos avances en ingeniería no surgen de grandes descubrimientos repentinos. Surgen de decenas de pequeñas optimizaciones que, consideradas individualmente, apenas llaman la atención. Autoresearch explota precisamente ese principio, ya que no intenta ser brillante, intenta ser persistente, y en muchos contextos, la persistencia sistemática termina siendo más valiosa que la inspiración ocasional.
Cuando un agente puede ejecutar cientos de experimentos sin supervisión, la pregunta deja de ser cuánto tiempo tardaremos en probar una idea, sino que pasa a ser cuántas ideas somos capaces de generar para que las pruebe.
Por qué la métrica es más importante que el modelo
Cuando se habla de Autoresearch es fácil centrar la atención en el agente, en el modelo de lenguaje o en el código que modifica automáticamente. Sin embargo, ninguno de esos elementos es el verdadero protagonista:
La pieza más importante del sistema es la métrica.
El agente no entiende el problema que está resolviendo. No comprende la arquitectura que modifica ni tiene una intuición profunda sobre aprendizaje automático. Lo único que sabe es que existe una medida que debe mejorar.
Cada experimento, cada cambio y cada decisión gira alrededor de ese número. Si mejora, el cambio se conserva, si empeora, se descarta.
Por eso el auténtico poder de Autoresearch no reside en su capacidad para escribir código, sino en su capacidad para optimizar de forma sistemática aquello que puede medirse.
Una mala métrica conduce inevitablemente a malos resultados. Si medimos lo equivocado, el agente optimizará lo equivocado. Por eso, a medida que los sistemas autónomos ganan capacidad para experimentar por sí mismos, la habilidad más valiosa ya no es únicamente saber programar, empieza a ser saber qué merece la pena medir.
Shopify, Red Hat y la prueba de que el patrón escala
Pocos días después de la publicación de Autoresearch ocurrió algo que llamó la atención de toda la comunidad. Tobi Lütke, CEO de Shopify, decidió aplicar el mismo patrón a uno de los componentes clave de su plataforma: Liquid, el motor de plantillas utilizado por millones de tiendas online.
La idea era sencilla. En lugar de optimizar un modelo de lenguaje, el agente debía optimizar el rendimiento del propio software. El objetivo seguía siendo el mismo: proponer cambios, ejecutar pruebas y conservar únicamente aquellos que demostraran una mejora medible.
Tras una noche de trabajo autónomo, el sistema había generado decenas de commits y una versión significativamente más rápida del motor sobre los benchmarks utilizados.
Más allá de las cifras concretas, lo relevante fue la demostración práctica. El patrón de Autoresearch parecía funcionar fuera del entrenamiento de modelos.
A partir de ese momento comenzaron a aparecer nuevas aplicaciones. Algunos equipos utilizaron el enfoque para optimizar prompts. Otros para reducir costes en pipelines de inferencia. Incluso surgieron experimentos orientados a mejorar herramientas internas y flujos de desarrollo de software.
En todos los casos aparecía el mismo denominador común: una métrica clara y un sistema capaz de evaluarla automáticamente.
Autoresearch no está realmente ligado a redes neuronales, GPUs o modelos GPT. Lo que propone es un mecanismo general de mejora continua que puede aplicarse a cualquier problema donde podamos responder de forma objetiva a una pregunta muy simple: ¿Esta nueva versión es mejor que la anterior?
Cuando existe una respuesta clara para esa pregunta, el agente puede empezar a experimentar, y cuando un agente puede experimentar por sí mismo, el espacio de problemas susceptibles de ser optimizados se vuelve mucho más amplio de lo que parecía inicialmente.
Qué significa esto para ingenieros, investigadores y empresas
Durante años hemos asociado la productividad técnica con la capacidad de ejecutar trabajo (escribir más código, realizar más pruebas, analizar más datos, ejecutar más experimentos); sin embargo, herramientas como Autoresearch apuntan hacia un cambio de enfoque. Si un agente puede encargarse de una parte creciente de la experimentación, el valor del profesional deja de estar únicamente en la ejecución, y empieza a estar en el diseño.
De alguna forma, el ingeniero pasa de ser el operario principal del laboratorio a convertirse en el arquitecto del propio laboratorio. Esto no significa que el conocimiento técnico deje de ser importante. Significa que aparece una nueva habilidad crítica: la capacidad de formular correctamente un problema.
Porque un agente puede ejecutar cientos de experimentos por sí mismo, pero sigue necesitando que alguien defina qué significa exactamente "mejor", y esa tarea continúa siendo profundamente humana.
La IA no elimina la necesidad de criterio. Hace que el criterio sea todavía más importante.
En los próximos años probablemente veremos cada vez más sistemas capaces de generar código, probar alternativas y optimizar procesos de manera autónoma. Sin embargo, la ventaja competitiva seguirá estando en quienes sepan definir objetivos claros, métricas útiles y límites adecuados.
Dicho de otra forma: la automatización reduce el coste de experimentar, pero sigue siendo responsabilidad nuestra decidir hacia dónde merece la pena experimentar, y eso, al menos por ahora, continúa siendo una decisión estratégica más que tecnológica.

Riesgos: cuando la métrica se convierte en el problema
Llegados a este punto podría parecer que basta con asignar una métrica a un agente y dejarlo trabajar indefinidamente, pero la realidad es algo más compleja.
Autoresearch funciona porque existe una forma relativamente clara de medir el éxito. Sin embargo, en muchos problemas reales las métricas son imperfectas. A veces capturan solo una parte del objetivo. Otras veces generan comportamientos inesperados.
Un agente que optimiza una métrica no persigue necesariamente el resultado que nosotros deseamos. Persigue aquello que le hemos pedido medir, y ambas cosas no siempre coinciden. Por eso existe el riesgo de sobreajuste, de optimizar benchmarks que no representan el mundo real o de encontrar atajos que mejoran los números sin mejorar realmente el sistema.
En cierto modo, un agente autónomo es como un empleado extraordinariamente obediente: hará exactamente lo que le pidamos, incluso cuando lo que le hemos pedido no sea lo que realmente queríamos, así que el verdadero riesgo es que optimice perfectamente una mala decisión tomada por nosotros.
Conclusión: la nueva habilidad será saber delegar experimentos
Volvamos a la escena con la que comenzábamos este artículo:un investigador deja su ordenador trabajando durante la noche. A la mañana siguiente encuentra decenas o cientos de experimentos ejecutados, resultados registrados y algunas mejoras incorporadas automáticamente al sistema.
Hace pocos años esta idea habría parecido una fantasía futurista. Hoy es un repositorio público que cualquiera puede descargar. Eso no significa que hayamos llegado a una inteligencia artificial capaz de descubrir por sí sola grandes avances científicos. Tampoco significa que los investigadores, ingenieros o desarrolladores vayan a desaparecer, pero sí indica algo importante: la naturaleza de parte del trabajo intelectual está empezando a cambiar.
Durante décadas, gran parte de la investigación consistió en ejecutar experimentos. Formular una hipótesis, implementarla, probarla, medirla y decidir qué hacer después. Autoresearch demuestra que una parte creciente de ese ciclo puede automatizarse cuando existe una métrica clara y un entorno bien definido.
Y quizá esa sea la verdadera aportación del proyecto, una nueva forma de organizar el trabajo entre humanos y máquinas. En este modelo, las personas siguen definiendo los objetivos, estableciendo los límites y aportando criterio. Los agentes, por su parte, se encargan de explorar posibilidades, ejecutar pruebas y recorrer espacios de búsqueda que resultarían demasiado amplios o demasiado tediosos para un ser humano.
La inteligencia artificial no sustituye al investigador, se convierte en su laboratorio. Por eso, la habilidad más valiosa de los próximos años quizá no sea únicamente saber programar, entrenar modelos o construir automatizaciones, sino que quizá sea saber diseñar buenos problemas, definir buenas métricas y delegar correctamente la exploración.
Mientras nosotros dormimos, los agentes ya pueden seguir experimentando. La cuestión no es si serán capaces de hacerlo, sino que la cuestión es qué problemas decidiremos poner en sus manos.
Lecturas recomendadas
Andrej Karpathy. Autoresearch. Repositorio oficial del proyecto en GitHub:
Andrej Karpathy. Publicaciones y comentarios sobre Autoresearch en X (marzo–abril de 2026).
DeepWiki. Resumen estructurado del repositorio karpathy/autoresearch, 2026





















The Karpathy experiment is wild—having an AI run hypotheses overnight feels like the future of dev work. I've been using https://aiphotoonline.com