Quan els bots hagin de passar per caixa: el web es torna a repensar

El primer de juliol de 2025, Cloudflare va fer un anunci que potser a molts els va passar desapercebut, però que podria marcar un abans i un després en la manera com funciona Internet. Van presentar el sistema Pay-As-You-Go Crawling, una mena de “peatge” per bots. En poques paraules: a partir d’ara, els bots que rastregen webs —cercadors, comparadors de preus, serveis d’intel·ligència artificial— hauran de pagar per accedir a les dades que consulten.

A primer cop d’ull, pot semblar una d’aquelles novetats tècniques que només interessen als administradors de servidors, però la veritat és que la proposta de Cloudflare apunta molt més amunt. És un intent de posar ordre en la relació entre els qui creen contingut i els qui el consumeixen de manera automatitzada, sovint sense donar res a canvi. I, de retruc, pot ser una manera d’intentar que el web sigui més just, més eficient i, sobretot, més sostenible.

Un web ple de bots: la realitat que no es veu

Qui té un web —ja sigui un blog personal, una botiga online, un mitjà digital o una pàgina corporativa— sap que una part important del trànsit no són persones, sinó màquines. Cloudflare assegura que, en molts casos, més de la meitat de les visites provenen de bots. I aquí no parlem només de bots “dolents” o maliciosos, sinó de tota mena de rastrejadors: Googlebot, Bingbot, serveis comercials, empreses d’IA que necessiten dades per entrenar models, agregadors de notícies, comparadors de preus…

El problema és doble. D’una banda, el volum: aquests bots poden arribar a saturar els servidors, consumir amplada de banda i fer augmentar els costos de manteniment. De l’altra, el comportament: molts bots són insistents, visiten les mateixes pàgines una vegada i una altra encara que no hi hagi cap canvi, i alguns passen olímpicament de les normes de robots.txt. Tot plegat, suposa un maldecap per als qui mantenen webs: més trànsit, més despesa, més emissions de CO₂, i cap benefici directe.

És com si cada dia una multitud de drons sobrevolés casa teva, fent fotos de cada racó sense demanar permís, sense pagar i sense ni tan sols avisar. I, mentrestant, el propietari de la casa ha d’assumir el cost de la vigilància i el manteniment.

El model tradicional: una biblioteca oberta… però desequilibrada

Durant dues dècades, el web s’ha construït sota la premissa que tot és, en essència, rastrejable i indexable de manera gratuïta. Aquesta mena de “biblioteca pública” sempre oberta ha tingut molts avantatges: ha democratitzat l’accés a la informació, ha permès la proliferació de contingut i ha facilitat la innovació. Però també ha creat uns quants desequilibris.

Els creadors de contingut —petits editors, mitjans locals, bloggers, empreses— assumeixen els costos de mantenir els seus webs, però sovint veuen com grans plataformes, agregadors i serveis d’IA aprofiten el seu contingut sense cap mena de retorn ni reconeixement. Mentrestant, la càrrega tècnica i econòmica recau sobre qui genera el valor, mentre que els grans consumidors de dades en surten beneficiats sense haver de negociar ni compensar ningú.

Aquest model, que durant anys ha semblat natural i fins i tot inevitable, comença a mostrar esquerdes. Sobretot ara que la intel·ligència artificial necessita quantitats ingents de dades per entrenar-se i millorar.

La proposta de Cloudflare: posar regles al joc

Aquí és on entra en joc la proposta de Cloudflare. Amb el sistema Pay-As-You-Go Crawling, l’empresa vol capgirar la dinàmica actual. La idea és que els bots no puguin accedir al contingut de qualsevol manera, sinó que hagin de passar per una API estructurada i controlada. El funcionament, en essència, és aquest:

El web defineix, a través de Cloudflare, una interfície de dades (API) per consultar informació actualitzada.
Els bots poden accedir-hi, però han de pagar per cada consulta, segons el preu i les condicions que fixi el propietari del web.
Cloudflare fa de mitjancer tècnic i econòmic, garantint estabilitat, traçabilitat i compensació.

Així, es redueix el trànsit innecessari, s’ofereix informació més precisa i actualitzada als consumidors de dades, i es redistribueix valor cap als qui realment generen el contingut.

Un canvi de paradigma: de la gratuïtat absoluta a la negociació

Aquesta proposta trenca amb la manera com hem entès el web fins ara. Ja no es tracta d’una biblioteca pública sense portes, sinó d’un ecosistema on l’accés a la informació pot estar subjecte a condicions, permisos i compensacions. El web es pot tornar més modular: webs que venen l’accés a les seves dades, bots que han de triar què volen i què poden pagar, i una cadena de valor més equilibrada.

Això pot ser especialment rellevant en un moment en què la intel·ligència artificial necessita alimentar-se constantment de textos i informació actualitzada. Si vols entrenar un model d’IA amb contingut real, hauràs de pagar als qui el generen. Si vols mantenir una base de dades de preus al dia, hauràs d’accedir a la informació en temps real via API, no via scraping indiscriminat.

Què pot canviar a partir d’ara?

Naixement d’un mercat programable de dades

Aquesta API de pagament pot convertir-se en la nova infraestructura d’intercanvi de dades del web. Ja no caldrà rascar pàgines de manera massiva i desendreçada, sinó que es podrà negociar l’accés a la informació de manera estructurada, eficient i traçable. Cada web podrà definir tarifes, condicions i fins i tot excepcions per a projectes oberts, científics o sense ànim de lucre.

Reequilibri en la cadena de valor

Els creadors de contingut recuperen el control sobre com s’utilitza el que publiquen. No caldrà bloquejar bots ni posar murs de pagament: es podran definir condicions d’accés, tarifes segons tipus d’ús, i fins i tot establir col·laboracions amb altres actors de l’ecosistema digital. Això pot canviar la relació entre mitjans de comunicació i plataformes tecnològiques, o entre blogs especialitzats i agregadors comercials.

Models d’IA més transparents i traçables

Un dels grans debats actuals és com s’alimenten els models d’intel·ligència artificial, i si el contingut utilitzat per entrenar-los té o no autorització. Aquest sistema podria oferir una via legal, programada i auditable per accedir a contingut amb permís dels seus autors. Això obre la porta a nous escenaris de col·laboració, però també a nous models de negoci entre IA i creadors humans.

Internet més eficient i sostenible

Si cada bot només demana la informació que realment necessita, i ho fa a través d’una API optimitzada, es redueix la petjada ecològica del web. Menys trànsit inútil, menys càrrega de servidors i menys emissions associades a operacions redundants. En un moment en què la sostenibilitat tecnològica ja no és opcional, aquest canvi pot tenir un impacte real.

Les resistències i els riscos d’aquest nou model

Evidentment, no tothom veurà aquest canvi amb bons ulls. Molts actors del web actual han basat el seu negoci en l’accés lliure i massiu a dades. Google, OpenAI, Anthropic, Meta, startups de price intelligence, agregadors de notícies, serveis de monitoratge… Tots ells podrien veure aquesta proposta com una amenaça a la seva eficiència o als seus marges de negoci.

També hi ha el risc que el web es fragmenti, o que només els grans jugadors puguin negociar bones condicions. Algunes veus alerten que aquest sistema pot trencar la neutralitat del web, limitar l’accés a la informació o afavorir només els qui tenen més recursos.

Però, al cap i a la fi, el web sempre ha estat un ecosistema en evolució, i les regles es van ajustant sobre la marxa. La clau serà trobar un equilibri entre la necessitat de protegir els creadors de contingut i la voluntat de mantenir un web obert, accessible i divers.

Un web programable, però no tancat

No es tracta de tancar el web ni de posar-ho tot darrere d’un mur de pagament. Es tracta de fer-lo més governable. Que l’accés automatitzat sigui negociat, que el valor es redistribueixi, que l’eficiència tingui premi i que la sostenibilitat sigui un criteri real. El web pot seguir sent obert, però no ingenu. Accessible, però amb regles. Democràtic, però no explotat.

Aquesta nova manera de fer pot obrir la porta a una economia de la dada més madura i equilibrada, on tothom —des dels petits creadors fins als grans agregadors— pugui tenir veu i vot sobre com es fa servir el seu contingut.

Mirant endavant: què podria passar si el model triomfa?

Si aquesta proposta de Cloudflare s’acaba imposant, podríem veure una transformació profunda del web. Les webs podrien definir polítiques d’accés programàtiques, com qui fixa tarifes d’ús d’una API. Els bots deixarien de ser agents opacs per convertir-se en clients amb rols i pressupostos definits. I es consolidaria una nova economia de la dada oberta però compensada, amb impacte en sectors tan diversos com els mitjans, l’e-commerce, l’educació o la recerca.

Potser, d’aquí a poc temps, quan una empresa vulgui entrenar una IA amb contingut de qualitat, en lloc de rascar pàgines anònimes ho farà a través d’un sistema que reconeix, compensa i respecta la font. I potser veurem com el web es converteix en un espai més transparent, més just i més sostenible per a tothom.

El debat que ve: sobirania, justícia i sostenibilitat

El que proposa Cloudflare no és només una qüestió tècnica. És un debat de fons sobre poder, sobirania, sostenibilitat i justícia. Qui decideix com es comparteix el coneixement? Com es remunera l’esforç creatiu i informatiu? Com es garanteix que el web segueixi sent un espai obert, però també respectuós amb qui hi aporta valor?

Potser no serà Cloudflare qui lideri aquesta nova economia de la dada. Potser vindrà un altre actor, o potser el model evolucionarà cap a una solució híbrida. Però la idea ja ha sortit de la gàbia, i difícilment tornarà enrere.

El web, com sempre, es reinventa. I, aquesta vegada, potser ho fa per tornar a posar les persones —i no només les màquines— al centre de l’ecosistema digital.

🔗 Font original: Introducing Pay-As-You-Go Crawling – Cloudflare Blog (1 de juliol de 2025)