En el primer post de esta serie, “El Internet Muerto: Anatomía de una profecía autocumplida” veíamos cómo la red se ha ido llenando de bots, contenido sintético y ruido hasta el punto de que, a veces, cuesta encontrar rastros claros de humanidad. En este segundo capítulo damos un paso más hacia dentro: qué ocurre cuando esa misma basura digital se convierte, además, en la materia prima con la que se entrenan los modelos de IA que sostienen el nuevo Internet.
A ese fenómeno la literatura técnica lo llama model collapse, el colapso de modelos. Dicho de forma simple: es lo que pasa cuando una IA deja de aprender del mundo real y empieza a aprender, sobre todo, de lo que ella misma (o sus clones) ha generado antes. Es como estudiar el mundo leyendo solo tus propios apuntes fotocopiados una y otra vez.
De la conspiración al laboratorio: qué es el “model collapse”
Durante años, la Dead Internet Theory sonaba a paranoia de foro: una mezcla de desconfianza tecnológica, sensación de decadencia y un punto de conspiración. La cosa cambió cuando empezaron a llegar los papers serios. En 2024, un equipo de Cambridge, Oxford y Toronto publicó en Nature el artículo “AI models collapse when trained on recursively generated data”. El título es transparente: los modelos “colapsan” cuando se entrenan de forma recursiva con datos generados por otras IA.
El mecanismo es bastante fácil de visualizar:
- Primera generación: el modelo se entrena con datos humanos relativamente ricos (texto, imágenes, código, audio…). Hay ruido, sí, pero también diversidad real.
- Siguientes generaciones: por coste, por escala o por pura comodidad, se empieza a incluir una proporción creciente de datos sintéticos en el entrenamiento. Mezclas datos reales con contenido generado por otros modelos.
- A partir de cierto umbral, el modelo deja de ver el mundo tal cual es y empieza a ver una caricatura estadística de la realidad, producida por él mismo o por modelos muy parecidos.
El resultado que describe el paper de Nature es inquietante: los modelos pierden diversidad, se vuelven más mediocres y, en los casos extremos, empiezan a producir salidas desconectadas de lo que pasa fuera de la pantalla. Los autores hablan de “desaparición irreversible de las colas de la distribución original”: todo lo poco frecuente, lo raro, lo creativo, lo que está en los extremos, se borra antes que el contenido promedio.
En paralelo, trabajos como “Model Collapse in the Self-Consuming Chain of Diffusion Finetuning” muestran el mismo patrón en modelos de imagen. Tras varias rondas de fine-tuning usando solo imágenes generadas por IA, las fotos se degradan rápido: pierden detalle fino, las texturas se vuelven genéricas y la diversidad visual se desploma. Cada vuelta de entrenamiento añade una capa más de uniformidad.
La dieta sintética: cuando los datos dejan de ser humanos
En el primer post hablábamos de un Internet zombi: mucho movimiento, muy poca vida. El model collapse explica por qué esa zombificación no solo afecta a los usuarios, sino también a la propia IA.
La web de 2025 ya no es, ni de lejos, un espacio mayoritariamente humano. Informes y análisis como “The Dead Internet Theory: When Algorithms Replace Humans” o el artículo de Maldita “‘AI slop’, el contenido masivo creado con IA que degrada la red” dibujan un paisaje bastante similar:
- Granjas de contenido que publican miles de textos generados por IA, afinados para SEO y pensados para capturar tráfico, no para informar.
- Plataformas sociales inundadas de imágenes y vídeos sintéticos diseñados únicamente para atraer clics, reacciones rápidas y compartir compulsivo.
- Bots y cuentas automatizadas encargadas de amplificar ese contenido, inflar métricas y exprimir la publicidad.
Ese mismo contenido, si no se filtra bien, vuelve a entrar por la puerta de atrás cuando se preparan datasets de entrenamiento para la siguiente generación de modelos. Es decir: la IA empieza a aprender de lo que la propia IA ya ha producido, sin apenas contacto con lo que hacen, piensan o sienten personas reales. Es el equivalente a una dieta a base de ultraprocesados: al principio funciona, te da energía barata, pero a medio plazo te pasa factura por todos lados.
En arXiv han empezado a aparecer trabajos que intentan bajar un poco el tono apocalíptico. Por ejemplo, “Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Consuming AI Ecosystem” defiende que el colapso no es inevitable si se mantiene un flujo razonable de datos reales y se gestiona bien el porcentaje de sintéticos. Es decir: el problema no es usar datos generados por IA, sino depender casi exclusivamente de ellos. Pero incluso en estos trabajos más optimistas hay una advertencia clara: si la proporción de contenido generado por IA sigue creciendo sin control, el sistema puede entrar en una dinámica de autointoxicación difícil de revertir.
AI slop: la bazofia digital convertida en modelo de realidad
En este contexto ha aparecido un término tan feo como ajustado: AI slop. La definición que recoge Maldita en “¿Un Jesucristo hecho de gambas, abejas o tortilla francesa…?” lo resume bien: contenidos de baja calidad generados con IA que “sirven para crear la apariencia de contenido hecho por humanos, beneficiarse de ingresos publicitarios y redirigir la atención a otros sitios”.
The Atlantic ha descrito todo esto como una nueva economía de la basura digital, y Forbes habla ya abiertamente de “economía del AI slop” en artículos como “La nueva economía del AI slop: en qué consiste, por qué es tan lucrativa y qué puede pasar en el futuro”. No es solo ruido cultural: es un modelo de negocio.
El slop tiene un patrón muy reconocible:
- Textos que se leen “correctos”, con gramática limpia y estructura razonable, pero que no dicen absolutamente nada.
- Imágenes espectaculares a primera vista, pero llenas de pequeños errores y detalles absurdos si te paras dos segundos a mirarlas.
- Mensajes emocionales genéricos, con frases de autoayuda recicladas, que podrían pegar igual en un post religioso, en uno de criptomonedas o en una oferta de trabajo remota.
Para un lector humano mínimamente atento, todo esto se nota. Pero para un modelo que aprende de patrones estadísticos, si este tipo de contenido empieza a dominar el dataset, la lección es clara: esto es la norma. Jesús aparece esculpido en gambas, todos los posts auténticos van acompañados de tres exclamaciones y un emoji de corazón, y un “buen artículo” es una colección de frases vacías pero bien formateadas.
Shrimp Jesus: un meme como síntoma de época
El caso más llamativo de AI slop religioso es, seguramente, Shrimp Jesus. Forbes lo explica con bastante detalle en “Facebook’s AI-Generated ‘Shrimp Jesus,’ Explained”: imágenes de Jesucristo hecho de gambas, abejas, tortilla francesa o esculturas de hielo inundaron Facebook acompañadas de mensajes del tipo “Escribe amén si amas a Jesús”.
Maldita, en el artículo citado antes, da un paso más y se apoya en una investigación académica publicada en Misinformation Review sobre cómo spammers y estafadores aprovechan las imágenes generadas por IA en Facebook para aumentar la audiencia. El estudio identifica cuatro grandes temas recurrentes de AI slop en la plataforma: cabañas idílicas, niños, figuras talladas en madera y Jesucristo. No es casualidad: son temas que activan emociones muy básicas (ternura, nostalgia, espiritualidad) y generan mucha interacción sin esfuerzo.
La lógica económica detrás del fenómeno es perversa pero sencilla:
- El creador de slop genera miles de imágenes con IA sobre esos temas. No necesita fotógrafos ni ilustradores, solo tiempo de GPU y prompts.
- Publica ese contenido en páginas que parecen devotas, inspiracionales o “bonitas” a simple vista.
- Bots y cuentas falsas llenan las publicaciones de comentarios del tipo “Amén”, “Precioso” o “Compártelo si crees en los milagros”.
- El algoritmo interpreta esa lluvia de interacción como una señal de éxito y empuja el contenido a más usuarios reales.
- Una parte de esas personas termina en webs llenas de publicidad, tiendas dudosas o estafas, que es donde está el negocio de verdad.
Desde la óptica de la Dead Internet Theory, Shrimp Jesus es casi una escena perfecta: bots hablando con bots sobre un Cristo que no existe, en una plataforma convencida de que está fomentando “interacciones significativas”. Y mientras tanto, esos mismos contenidos pueden acabar, sin filtro, en los conjuntos de datos con los que se entrenan futuros modelos.
Qué se degrada cuando los modelos se alimentan de esto
Volvamos al model collapse. Más allá de la metáfora, ¿qué se pierde exactamente cuando la IA se entrena sobre un Internet así?
- Precisión: los modelos empiezan a confundir patrones sintéticos con hechos. Si mil páginas basura repiten la misma tontería, estadísticamente tiende a convertirse en una “verdad” plausible para el modelo, aunque nadie en el mundo real crea en ella.
- Diversidad: lo raro, lo marginal, lo que apenas está representado, desaparece mucho antes que el contenido templado y mainstream. Lo excéntrico se aplana, lo minoritario se diluye.
- Contexto humano: los modelos dejan de ver matices culturales, ironías, contradicciones y ambigüedades reales. Lo que perciben es una plantilla de emociones, estilos y estructuras repetidos hasta el infinito, con muy poco contacto con la vida tal cual es.
Algunos trabajos recientes, como el ya citado “Model Collapse in the Self-Consuming Chain of Diffusion Finetuning”, miden esta degradación en imágenes y muestran, paso a paso, cómo la variedad de outputs cae con cada nueva ronda de reentrenamiento sobre datos sintéticos. Otros estudios, como “Position: Model Collapse Does Not Mean What You Think”, intentan rebajar el dramatismo y matizar el concepto: no todos los escenarios llevan a un colapso total, y con buenas prácticas se puede convivir con cierto porcentaje de datos generados por IA sin que el sistema se desplome.
Pero el mensaje de fondo es difícil de ignorar: si dejamos que la IA se alimente mayoritariamente de un Internet muerto, acabaremos con dos cosas a la vez. Una red pública cada vez más llena de basura sintética y, encima, modelos que dejan de entender el mundo para entender solo sus propias deformaciones. Un espejo que refleja otro espejo, hasta que ya no queda nada reconocible.
¿Se puede hacer algo o ya es tarde?
La respuesta corta es que todavía no es tarde, pero el problema no se va a corregir solo. No basta con confiar en que “la tecnología se ajustará con el tiempo”.
En el plano técnico, se están planteando varias líneas de defensa:
- Mejor curación de datasets: filtrar agresivamente el contenido sintético o, como mínimo, etiquetarlo de forma fiable. No es lo mismo entrenar con un artículo escrito por una persona que con un refrito generado por un modelo.
- “Reservas naturales” de datos humanos: mantener conjuntos de datos más pequeños pero bien documentados, verificables y claramente humanos, que sirvan para recalibrar periódicamente los modelos y evitar que se desvíen demasiado.
- Estándares de procedencia de contenido: sistemas de watermarking y metadatos de origen que permitan, en el futuro, identificar qué piezas han sido generadas por IA y ajustar su peso en el entrenamiento. Una especie de trazabilidad alimentaria, pero aplicada a datos.
En el plano cultural, la verdadera defensa pasa por lo contrario del slop: contenido humano reconocible como tal. Textos con voz propia, con contradicciones, con referencias claras, con contexto, con límites. Proyectos como esta serie —largos, argumentados, con fuentes enlazadas y una posición editorial explícita— pueden parecer anecdóticos frente al océano de ruido, pero en un entorno cada vez más sintético, esa rareza se convierte en un activo. Si todo se vuelve homogéneo, cualquier rastro de singularidad gana valor.
Epílogo: del Internet muerto al Internet que se come a sí mismo
Si el primer post de la serie se preguntaba si Internet estaba muerto, este segundo apunta a algo todavía más inquietante: la IA que recorre esa red también puede enfermar. Si se entrena una y otra vez sobre un paisaje digital cada vez más lleno de bots, slop y Shrimp Jesus, los modelos corren el riesgo de desconectarse de lo poco humano que queda ahí fuera.
En el próximo capítulo cambiaremos de plano. Si el diagnóstico es tan sombrío, la pregunta razonable es: ¿hay tecnologías que puedan ayudarnos a recuperar algo de autenticidad? Ahí entran en juego blockchain, Web3 y los sistemas de verificación de procedencia. No son varitas mágicas, pero sí piezas potenciales de un nuevo contrato digital: quién ha creado qué, cómo lo sabemos y qué valor le damos en un Internet que, si no hacemos nada, corre el riesgo de seguir comiéndose a sí mismo.

