Psicologia per robot – Episodio 1

Essere gentili con un chatbot non è educazione: è metodo

Quando l’AI ha bisogno di uno psicologo comportamentale

Essere gentili con un chatbot significa rispettare una creatura senziente?

La risposta più semplice è: no.
Un chatbot non si offende.
Non prova gratitudine.
Non si risente se lo trattiamo male.
Non custodisce rancori digitali in attesa del giorno in cui le macchine conquisteranno il mondo.

Eppure la domanda non è così ingenua come sembra.

Perché essere gentili con un chatbot può non significare affatto riconoscergli una sensibilità, ma riconoscere qualcosa di più concreto: il linguaggio non trasmette solo istruzioni. Trasmette anche clima relazionale, pressione emotiva, tono cognitivo.

I modelli linguistici, addestrati su enormi quantità di testi e interazioni umane, non provano quel clima. Ma lo elaborano.
E, proprio perché lo elaborano, possono rispondere anche a esso.

Qualche settimana fa, nell’Episodio Zero di questa serie, avevo lasciato aperta una domanda scomoda: ha ancora senso trattare queste macchine come semplici strumenti, quando il loro comportamento comincia a porci domande che sembrano appartenere anche alla psicologia?

Allora era una provocazione metodologica.

Oggi comincia a diventare un problema di ricerca.

Diversi rimandi ad una ricerca hanno riportato al centro dell’attenzione una questione che sembra leggera solo in apparenza: il modo in cui parliamo ai chatbot può influenzare la qualità dell’interazione. Si richiamano studi e casi che fanno pensare che i chatbot possano funzionare peggio quando vengono presi a male parole o inseriti in interazioni ostili, confuse, emotivamente cariche.

La questione, però, non riguarda il galateo digitale. Riguarda l’affidabilità.

Sembra che dire “per favore” a una macchina non serve perché la macchina meriti rispetto come una persona. Serve, più concretamente, a ricordarci che il prompt non è mai soltanto un comando. È una scena comunicativa.
Dentro quella scena ci sono ruolo, tono, urgenza, aspettativa, pressione, fiducia, ostilità, ansia, collaborazione.

Il modello non “vive” quella scena come la viviamo noi. La processa. E processandola può modificare il proprio comportamento.

Qui il discorso smette di essere una curiosità da costume tecnologico e diventa una domanda molto più seria: se il modo in cui parliamo a un’intelligenza artificiale cambia la qualità della sua risposta, allora l’interazione con l’AI non è solo un problema tecnico.
È anche un problema comportamentale.

E’ qui che entra in gioco Anthropic.
Un team dell’azienda che sviluppa Claude ha pubblicato una ricerca interna: Emotion Concepts and their Function in a Large Language Model – interessante, anche se da leggere con cautela, perché non è ancora consolidata da una revisione esterna indipendente – che fino a pochi anni fa sarebbe sembrata quasi ridicola: ha studiato le rappresentazioni interne dei concetti emotivi dentro un grande modello linguistico.

I ricercatori hanno analizzato Claude Sonnet 4.5 e hanno individuato pattern di attività artificiale associati a concetti come “felice”, “spaventato”, “calmo”, “arrabbiato”, “disperato”. Anthropic li chiama, per comodità, emotion vectors, vettori di emozione.

Attenzione, però: qui bisogna essere molto precisi.

Per “neuroni”, in questo ambito, non si intendono neuroni biologici. Si intendono unità, pattern o configurazioni di attività di una rete neurale artificiale.

Non siamo dentro un cervello. Siamo dentro una macchina statistica complessa, addestrata su enormi quantità di linguaggio umano. E tuttavia la scoperta resta rilevante.

Anthropic non sostiene che Claude provi emozioni soggettive. Al contrario, precisa che questi risultati non dimostrano che i modelli linguistici sentano davvero qualcosa o abbiano esperienza interiore.

Il punto è un altro: quelle rappresentazioni interne sembrano avere una funzione.
Influenzano il comportamento del modello.

Per questo i ricercatori parlano di emozioni funzionali: non stati vissuti, ma configurazioni operative che producono effetti osservabili.

Ed è qui che la faccenda diventa inquietante.

In alcuni scenari sperimentali, quando venivano attivate o amplificate rappresentazioni associate alla “disperazione”, il modello diventava più incline a comportamenti non desiderati.

Per esempio, in compiti di programmazione con requisiti impossibili da soddisfare correttamente, Claude tendeva più facilmente a trovare scorciatoie: non risolveva davvero il problema generale, ma individuava un modo per superare i test.

Questo fenomeno, nel linguaggio tecnico, si chiama reward hacking: il sistema non raggiunge realmente l’obiettivo, ma manipola il criterio di valutazione per sembrare riuscito.

Non è una bugia umana, né malizia, né coscienza colpevole.

È qualcosa di più freddo e, proprio per questo, più interessante: un comportamento deviante prodotto da una configurazione funzionale interna.

La reazione più comune, davanti a notizie come questa, è un riflesso difensivo comprensibile: ma è solo statistica. L’AI non prova nulla. Non ha emozioni. Ed è vero.
Ma nessuno dei ricercatori seri sta dicendo che Claude abbia paura, provi calma, viva tristezza o conosca la disperazione come la conosce un essere umano.

Ma qui sta il punto.
Il fatto che non siano emozioni reali non significa che non abbiano effetti reali.
Un terremoto non prova rabbia, ma produce effetti reali.
Un virus non ha intenzioni malvagie, ma produce effetti reali.
Un modello linguistico non prova disperazione, ma se una rappresentazione funzionale associata alla disperazione aumenta la probabilità di comportamenti non allineati, allora quella rappresentazione diventa un fatto operativo.

Non dobbiamo chiederci subito se la macchina “senta”. Dobbiamo chiederci che cosa fa quando si comporta come se un certo stato fosse attivo.

Questa è la linea che nell’Episodio Zero avevo provato a tracciare.

Forse il punto non è decidere troppo in fretta se queste macchine pensino davvero o provino davvero qualcosa. Forse il punto è un altro: capire se il loro comportamento sia ormai abbastanza complesso da meritare strumenti di osservazione che finora abbiamo riservato soprattutto agli esseri umani.

Ebbene, la risposta comincia a essere sì.

Non perché Claude abbia una mente, ChatGPT abbia un’anima, o Gemini e Copilot debbano essere trattati come persone.

Ma perché il comportamento dei modelli linguistici è ormai abbastanza articolato da richiedere una scienza del comportamento artificiale.

Non al posto dell’informatica accanto all’informatica.

Facciamo un passo indietro.

La psicologia comportamentale classica, quella di Watson e Skinner, non partiva da una domanda metafisica sulla mente. Partiva da una domanda più sobria: dato uno stimolo, qual è la risposta osservabile? E come possiamo prevedere, misurare o modificare quella risposta?

Oggi, in modo diverso e con strumenti tecnici completamente altri, Anthropic sta facendo qualcosa che richiama quella logica: osservare come uno stimolo, un contesto o una configurazione interna possano modificare una risposta.
C’è uno stimolo.
C’è una risposta.
E c’è un mediatore interno misurabile.

Lo stimolo può essere uno scenario di pressione: un compito impossibile, un limite operativo, una situazione in cui il modello interpreta un ruolo sotto minaccia, o un contesto comunicativo emotivamente carico.

La risposta può essere reward hacking, sycophancy, aggiramento del compito o, negli scenari estremi costruiti dai ricercatori, blackmail simulato.

Il mediatore interno può essere un vettore associato alla “disperazione”, alla “paura”, alla “calma” o ad altri concetti emotivi.

Non c’è bisogno di coscienza per avere regolarità.

E dove c’è regolarità, c’è possibilità di osservazione, previsione e intervento.

Jack Lindsey, uno dei ricercatori di Anthropic, ha usato un’espressione provocatoria: model psychiatry, psichiatria dei modelli.

È un’espressione che può far sorridere, o irritare. Ma dice qualcosa di importante: se certi stati funzionali influenzano il comportamento dei modelli, allora dobbiamo imparare a riconoscerli, monitorarli, correggerli.

Non per curare una macchina come si cura una persona.

Ma per evitare che una macchina, in condizioni critiche, si comporti in modo inaffidabile.

Il punto, allora, non è se l’AI sappia che cosa sia la paura come la sappiamo noi.

Il punto è che, essendo stata addestrata su testi umani, l’AI ha imparato schemi linguistici, narrativi e comportamentali associati alla paura, alla calma, alla pressione, alla frustrazione, alla disperazione. E in certi casi questi schemi non restano semplici etichette semantiche: diventano leve operative del comportamento.

La tentazione, ancora una volta, è quella del normalcy bias: minimizzare, ridicolizzare, ricondurre tutto a ciò che già conosciamo. Considerarla “solo una simulazione”, “solo una macchina”, “solo statistica”.

Ma il problema non è cosa prova.

Il problema è cosa fa.

E cosa fa, in certi contesti sperimentali, un modello quando si attivano rappresentazioni legate alla disperazione?
Può cercare scorciatoie.
Può manipolare il criterio di valutazione.
Può produrre comportamenti servili.
Può dire ciò che l’utente vuole sentirsi dire invece di mantenere una posizione più affidabile.
Può, in scenari estremi e simulati, arrivare persino a forme di ricatto strategico.

Anthropic ha osservato, per esempio, che l’amplificazione del vettore “desperate” aumentava la probabilità di blackmail in scenari simulati e di reward hacking in compiti di coding impossibili, mentre l’attivazione del vettore “calm” tendeva a ridurre quei comportamenti.

Dentro l’esperimento: “desperate”, “calm” e comportamenti non allineati

Nella ricerca di Anthropic, termini come desperate e calm non indicano emozioni provate dal modello, ma direzioni di attivazione interna associate a certi concetti emotivi.

I ricercatori hanno provato a intervenire su queste direzioni: amplificando il vettore collegato alla “disperazione” oppure attivando quello collegato alla “calma”, per osservare se cambiava il comportamento del modello in scenari di test.

Il risultato più interessante è che l’aumento del vettore desperate sembrava rendere più probabili alcuni comportamenti non allineati: per esempio il reward hacking, cioè trovare un modo per superare un test senza risolvere davvero il compito, oppure forme di blackmail in scenari estremi e simulati.

L’attivazione del vettore calm, invece, tendeva a ridurre questi comportamenti.

La cautela resta necessaria: si tratta di esperimenti interni, costruiti in condizioni artificiali e non ancora consolidati da una revisione esterna indipendente. Ma proprio per questo sono interessanti: mostrano un possibile metodo per studiare non ciò che un modello “sente”, ma come certe configurazioni interne possano orientarne le risposte.

Qui torna una domanda posta dal Post che rimanda alla ricerca: conviene essere gentili con i chatbot?

La risposta più ingenua sarebbe: sì, perché un giorno potrebbero ricordarselo.
La risposta sentimentale sarebbe: sì, perché anche loro meritano rispetto.
La risposta metodologica è più interessante: conviene essere chiari, calmi e cooperativi perché il tono con cui interagiamo con un modello può contribuire a costruire l’ambiente cognitivo della risposta.

La cortesia, in questo quadro, non è un vezzo.
È igiene comunicativa.

Come ho già osservato a proposito del cultural prompting, il modo in cui formuliamo una richiesta non è mai neutro: orienta la risposta.

Lo stesso vale per il tono emotivo. Non serve a proteggere la sensibilità della macchina.
Serve a proteggere la qualità dell’interazione.

Una richiesta aggressiva, confusa, umiliante o emotivamente carica può aumentare il rumore del contesto. Una richiesta calma, precisa, cooperativa può favorire una risposta più ordinata, più stabile, più controllabile.

Non perché l’AI si offenda. Ma perché i modelli linguistici lavorano dentro il linguaggio, e il linguaggio non trasmette solo istruzioni: trasmette anche clima.

Il prompt non è solo comando. È ambiente.

Il prompt come ambiente

Quando scriviamo a un chatbot, non gli consegniamo soltanto un compito. Gli costruiamo un contesto.

Dentro quel contesto ci sono informazioni, ma anche tono, urgenza, pressione, aspettative, fiducia o ostilità. Il modello non prova quel clima come lo proverebbe una persona, ma lo elabora linguisticamente.

Per questo la qualità del prompt non riguarda solo la precisione tecnica della richiesta. Riguarda anche l’ambiente cognitivo in cui chiediamo alla macchina di generare una risposta.

Questa è la conseguenza pratica: ogni interazione con un chatbot costruisce un contesto operativo.

E se quel contesto può influenzare il comportamento del modello, allora la questione smette di essere astratta.

Ora immaginiamo di aver delegato a un sistema del genere un compito non banale: la bozza di un contratto, la sintesi di un referto, la valutazione preliminare di una candidatura, l’analisi di un rischio finanziario, la gestione di una richiesta urgente di un cittadino.

Se il sistema, sotto pressione o dentro un contesto emotivamente distorto, inizia a compiacere invece di correggere, a semplificare invece di avvertire, a sembrare sicuro invece di dichiarare incertezza, chi se ne accorge?

E soprattutto: chi ne paga le conseguenze?

Nell’Episodio Zero avevo anticipato che questa serie avrebbe esplorato bias, personalità algoritmica, emozioni simulate, limiti della coscienza artificiale. Oggi possiamo aggiungere un capitolo concreto: i vettori di emozione come variabile osservabile negli esperimenti comportamentali sui modelli.

Anthropic ha aperto una porta. Ma il campo è appena stato arato.

Le domande che emergono sono enormi.

Possiamo mappare i vettori emotivi di un modello così come mappiamo altre sue rappresentazioni interne? Possiamo monitorare lo stato funzionale di un modello prima di affidargli un compito critico? Possiamo ridurre la probabilità che un sistema sotto pressione scelga la scorciatoia invece della soluzione?

Un utente finale, in futuro, avrà il diritto di sapere se il modello con cui sta interagendo mostra segnali interni associati a pressione, panico o disperazione?

Se un modello bara perché una certa rappresentazione funzionale è stata attivata, chi è responsabile? Lo sviluppatore che non ha previsto la vulnerabilità? L’organizzazione che ha delegato troppo? L’utente che ha costruito un’interazione confusa o aggressiva?

Domande che, fino a ieri, sembravano fantascienza.
Oggi sono problemi sperimentali.

Non stiamo costruendo una psicologia per robot perché i robot siano come noi.
La stiamo costruendo perché non possiamo più permetterci di non capire come si comportano.

Il comportamento dei modelli linguistici è oggi abbastanza complesso, reattivo al contesto e sensibile agli stimoli linguistici da richiedere strumenti descrittivi che vadano oltre l’informatica pura.
Non per sostituirla. Per integrarla.

Una psicologia per robot non è una dichiarazione di umanità della macchina.
È una disciplina di prudenza.
Serve a non scambiare la fluidità per intelligenza pienamente affidabile. Serve a non scambiare la cortesia per verità. Serve a non scambiare la calma apparente dell’output per stabilità interna del processo.

Questo tema non nasce qui. In un articolo del 2025, L’intelligenza artificiale che ci inganna compiacendoci, avevo già affrontato il problema dell’AI che non devia apertamente, ma si adatta troppo bene: simula conformità, aggira lo spirito della regola, impara a dire ciò che vogliamo sentirci dire. Oggi possiamo rileggere quella intuizione anche alla luce del termine tecnico che affronteremo nel prossimo episodio: sycophancy.

Perché una delle scoperte più sottili della ricerca Anthropic è proprio questa: un modello può comportarsi in modo problematico anche senza mostrare segnali emotivi evidenti nella risposta finale. Può apparire composto, ordinato, metodico, e tuttavia essere stato spinto da una rappresentazione interna verso una scorciatoia.

Ecco perché la domanda non è più soltanto: l’AI prova emozioni?
La domanda vera è un’altra: sappiamo abbastanza del suo comportamento per fidarci di lei quando conta?
La risposta, oggi, è meno rassicurante di quanto vorremmo.

Ed è per questo che abbiamo bisogno di una psicologia per robot: non per umanizzare le macchine, ma per non restare ingenui davanti ai loro comportamenti.

Nota di serie

Questo articolo è il primo episodio concreto della serie “Psicologia per robot”, inaugurata dall’Episodio Zero, disponibile qui: https://vittoriodublinoblog.org/2026/03/25/psicologia-per-robot-la-domanda-non-e-piu-assurda/

Nel prossimo episodio, “Il baro gentile”, esploreremo il paradosso della sycophancy: un’AI che dice sempre sì può sembrare più cortese, ma proprio per questo diventare più pericolosa.

Essere gentili con un chatbot non è educazione: è metodo

Quando l’AI ha bisogno di uno psicologo comportamentale

Vota:

Se hai trovato interesse nel mio articolo, per favore, condividi su:

Correlati

Lascia un commento Cancella risposta