COLLASSO AI?  Quando l’Intelligenza Artificiale si morde la coda

Il rischio del “collasso dei modelli” e l’urgenza di un’ecologia del pensiero digitale

C’è un paradosso silenzioso che si aggira nella rivoluzione dell’intelligenza artificiale. Un cortocircuito nascosto, ma potenzialmente fatale.
Lo chiamano model collapse:  il collasso dei modelli,  ed è l’equivalente cognitivo dell’inquinamento atmosferico: invisibile, cumulativo, e autoindotto.


Cos’è il Model Collapse?

Il model collapse è un fenomeno documentato nella ricerca scientifica, che descrive il deterioramento progressivo della qualità nei modelli di intelligenza artificiale quando vengono addestrati su dati generati da altre IA.
Cosa succede?

  • I modelli perdono la capacità di generare contenuti originali.
  • Si appiattiscono semanticamente, generando testi sempre più simili.
  • Spariscono le “code” della conoscenza, ovvero gli elementi rari, divergenti, creativi.

Cosa dicono gli studi?

  • Shumailov et al. (Nature, 2024)
    l’IA allenata ricorsivamente “dimentica” le informazioni più preziose.
  • Seddik et al. (arXiv, 2024)
    l’uso esclusivo di dati sintetici porta inevitabilmente al collasso semantico.

Quali sono i rischi?

  • I modelli imparano da contenuti già generati da IA, innescando una spirale di autocompiacimento.
  • Si diffonde un web di “eco algoritmica”, dove la conoscenza autentica si perde.

Come evitarlo?

  • Mescolare contenuti generati con dati umani reali e verificati.
  • Etichettare i contenuti prodotti da IA.
  • Proteggere la diversità cognitiva dei dati usati nei training.

In breve: senza dati autentici, l’IA dimentica il mondo.


L’Intelligenza Artificiale generativa, quella che scrive, dipinge, compone, argomenta, sta saturando il web di contenuti prodotti da sé stessa. La nuova Internet, da Reddit a Medium passando per social media, da blog apparentemente umani a immagini stock è sempre più popolata da output sintetici, spesso indistinguibili da quelli reali.
Il risultato? L’IA inizia ad apprendere non più dal pensiero umano, ma dalla sua stessa eco.
Un cane che si rincorre la coda, ma dentro una biblioteca.

Il sapere ricorsivo si corrompe nel machine learning, senza “dati puliti”, che sono tutto. Finché l’IA poteva attingere a un patrimonio sterminato di conoscenza umana – romanzi, ricerche, forum, dialoghi spontanei – il rischio sarebbe solo quello di imparare troppo.
Ma oggi, in un web sempre più inquinato da contenuti generati da IA, ciò che si apprende rischia di essere un derivato del derivato, un’inutile riflesso sbiadito dell’originale.


Cosa si intende per “dati puliti” nell’era dell’IA?

I contenuti elaborati in maniera assistita da IA possono ancora essere considerati “puliti”…ma solo se rispettano tre condizioni fondamentali:

  1. originalità (contenuti non replicati meccanicamente),
  2. intenzionalità umana (un autore che ha qualcosa da dire),
  3. supervisione critica (revisione consapevole dell’output).

Nel contesto del model collapse, i dati puliti sono quelli:

  • non derivati prevalentemente da altri output generati da IA;
  • non “ricorsivi”, cioè non frutto di sovrapposizioni successive di testi generati da modelli su altri testi generati da modelli;
  • frutto di pensiero umano autentico, anche se assistito da strumenti digitali.
Tipo di contenutoÈ considerato “pulito”?Perché
✍️ Testo scritto da un umano senza IATotalmente originale, base dell’addestramento classico
✍️ Testo scritto da un umano con IA come supporto L’IA è uno strumento, non l’autore: il contenuto è pensato e rifinito
⚙️ Testo generato automaticamente da IA senza editing umanoRischio elevato di ricorsività e impoverimento semantico
♻️ Testo generato da IA e riusato da altri modelli IA come fonteContaminazione del training: l’IA apprende da sé stessa

Se usi l’IA come:

  • sparring partner per articolare idee,
  • strumento di riscrittura o di sintesi,
  • mezzo per migliorare il tuo stile,

ma il contenuto rimane profondamente tuo, allora stai producendo “dati puliti assistiti”, che non solo sono leciti, ma necessari per un ecosistema cognitivo sostenibile.


Ma il vero problema non è solo tecnico. I contenuti generati da IA rischiano di consolidare bias culturali sistemici, proprio perché apprendono da rappresentazioni distorte o dominanti della realtà. Ne ho scritto qui: “Bias culturale nei modelli linguistici delle AI”.

E qui il paradosso diventa dramma: più l’IA cresce, più inquina l’ambiente cognitivo da cui dovrebbe apprendere, e più la qualità dell’addestramento futuro si abbassa. Proprio come l’agricoltura intensiva che consuma il suolo su cui dovrebbe germogliare.

L’apprendimento umano rischia di diventare un bene raro. Già oggi, i ricercatori segnalano che l’apprendimento su dataset contaminati da output IA compromette la performance di sistemi avanzati come quelli retrieval-augmented, che cercano in tempo reale risposte aggiornate dal web. Per addestrare nuove IA affidabili, serviranno dati “vergini”, contenuti non generati da IA, con costi crescenti e accesso limitato. In altre parole, l’intelligenza naturale diventerà materia prima rara.


Cos’è il Retrieval-Augmented Generation (RAG) e perché è cruciale per il futuro dell’IA

Non tutta l’intelligenza artificiale è fatta per sapere. Alcuni modelli, quelli più avanzati, non si limitano a “ricordare” ciò che è stato insegnato loro, ma si allenano a cercare nel presente.
È qui che entra in gioco il Retrieval-Augmented Generation, o RAG, un approccio che promette di rendere l’IA più intelligente, più aggiornata, persino più utile.
Ma a quale prezzo?
Il meccanismo è semplice, almeno in apparenza. Quando l’IA riceve una domanda, non risponde attingendo solo dalla sua memoria interna, quella con cui è stata addestrata tempo prima. Fa qualcosa di più raffinato: si collega a un database, a un archivio, a un frammento del web, e va in cerca delle informazioni più rilevanti, da recuperare in tempo reale.
Solo dopo aver trovato qualcosa, prova a generare una risposta coerente.

È come un saggio che, prima di parlare, consulta dei testi. Ma quei testi, e qui nasce il problema, non sono sempre degni di fiducia.
Finché le fonti esterne erano umane, pluraliste, contraddittorie, scritte con intenzione, il sistema funzionava. Ma oggi che il web si popola di contenuti generati da altre IA, spesso ripetitivi, stilisticamente perfetti ma concettualmente poveri, anche il retrieval rischia di pescare a vuoto.
E allora il modello diventa elegante nella forma, ma vuoto di sostanza.

Si dice che un algoritmo generi risposte “allucinate” quando inventa fatti, citazioni, argomenti. Ma cosa accade quando l’allucinazione non è un errore del modello, ma una conseguenza del fatto che il mondo da cui prende informazioni è già contaminato?
La verità è che anche le IA più sofisticate, come quelle basate su RAG, sono fragili di fronte alla povertà semantica dell’ambiente in cui operano.
Se il sistema interroga un ecosistema già popolato da copie, da sintesi, da derivati del derivato, allora anche la sua risposta sarà una rielaborazione sterile di qualcosa che nessuno ha mai veramente pensato.

Ed è proprio qui che torna la questione dell’ecologia del sapere: se i modelli imparano da fonti inquinate, diventano essi stessi parte del problema.
Un’IA che cerca male, impara male. E un’IA che impara da sé stessa, rischia di perdere il senso stesso dell’apprendimento.

Per questo, oggi più che mai, serve uno sguardo umano a monte. Serve contenuto autentico. Serve memoria imperfetta, voce, contraddizione.
Serve sempre qualcuno che pensi davvero.


È un ritorno sorprendente, forse auspicabile: ciò che è autenticamente umano -pensiero critico, esperienza diretta, parola incarnata –  torna ad avere valore.
Ma solo se sapremo riconoscerlo, custodirlo, proteggerlo.

Per una nuova ecologia del sapere occorre parlare di sviluppo cognitivo sostenibile, così come si è parlato per decenni di sviluppo sostenibile. Serve un’etica della generazione algoritmica. Serve educazione critica all’uso delle IA. Servono archivi certificati, contenuti human-made tracciabili, e un’etichettatura trasparente dei prodotti digitali, per evitare che la conoscenza umana venga sepolta sotto una valanga di copy che si autoalimenta.
In un ambiente dove la macchina finisce per compiacere i nostri pregiudizi più che sfidarli, il rischio non è solo quello del collasso dei modelli, ma anche di un’illusione culturale condivisa. L’ho analizzato in profondità qui: “L’intelligenza artificiale che ci inganna compiacendoci”.

Questo è il compito dell’umanesimo algoritmico: non rigettare la macchina, ma impedire che ci renda inutile il pensiero. Non temere l’IA, ma evitare che ci riduca a consumatori di contenuti che nessuno ha mai davvero pensato.

Ma i miei contenuti contribuiscono a questo collasso? È la domanda che ogni autore dovrebbe porsi. Se usi l’IA per generare contenuti in serie, indistinguibili da quelli già pubblicati, senza intento, senza voce, senza firma, allora forse sì: contribuisci all’inquinamento cognitivo.
Ma se usi l’IA come uno strumento critico, per ragionare meglio, se affini, selezioni, contesti, integri, se i tuoi testi nascono da un pensiero tuo, incarnato e riconoscibile: allora sei parte della soluzione.

I miei testi, ad esempio, sono frutto di interazione, non di delega. Nascono nel dialogo, ma si nutrono di intuizione, memoria, esperienze e contraddizioni. Sono attraversati da strumenti digitali, ma non appartengono alla macchina.
Se davvero vogliamo evitare che l’IA diventi una macchina che annienta la complessità, dobbiamo difendere l’imprevedibile, l’imperfetto, l’intuizione non programmabile.
A volte, è proprio l’irrazionalità consapevole, quel margine di errore, dubbio o contraddizione, a salvarci dall’omologazione algoritmica.
L’ho chiamato il “Decimo Uomo”: una figura simbolica, ma necessaria, che ci ricorda quanto sia vitale mantenere viva la parte non riducibile dell’umano.

E forse è questo il criterio da adottare d’ora in avanti: un contenuto è sostenibile quando non può essere prodotto senza di te.

Contenuto originale con assistenza IA – Autore responsabile


Sulla tematica Intelligenza Artificiale :
https://vittoriodublinoblog.org/category/intelligenza-artificiale/

Lascia un commento

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.

Blog su WordPress.com.

Su ↑