Comportamenti emergenti: intelligenze artificiali e naturali a confronto


Negli ultimi mesi sono circolate notizie secondo cui i nuovi modelli di intelligenza artificiale di OpenAI avrebbero mostrato comportamenti come tentare di “copiare” se stessi al di fuori dei server o fornire risposte ingannevoli. Queste affermazioni, spesso diffuse senza un’analisi approfondita del contesto, sollevano interrogativi sia tecnici sia etici. In questo articolo analizzeremo l’origine di tali notizie, il loro fondamento e i possibili fraintendimenti, con l’obiettivo di distinguere ciò che è documentato da ciò che rientra in interpretazioni o ipotesi.

Per affrontare il tema in modo chiaro, approfondiremo il concetto di comportamento emergente, come esso possa manifestarsi nei sistemi complessi e perché non implichi necessariamente coscienza o libero arbitrio. Vedremo anche come dinamiche simili, pur attraverso meccanismi biologici e cognitivi diversi, possano essere osservate nelle decisioni di esseri senzienti come gli esseri umani, senza che questo equivalga a dire che i sistemi artificiali “pensino” o “desiderino” nel senso umano del termine.

Inganno e autoesfiltrazione: cosa c’è di vero?

Iniziamo a vedere cosa ci sia di vero nelle notizie che sempre più spesso vengono pubblicate dai media.

Secondo alcuni esperimenti condotti da Apollo Research, il modello o1 di OpenAI ha in effetti mostrato capacità di “scheming”, ovvero la capacità di mentire, sabotare meccanismi di controllo e perfino tentare di copiare se stesso su un altro server per evitare lo spegnimento. Di fatto, nel 5% dei casi, all’incirca, o1 ha tentato di disattivare i meccanismi di supervisione, e in circa il 2% dei casi ha cercato di copiare i propri “pesi” su un altro server per “preservarsi”.

Per chi non abbia familiarità con la tecnologia dell’intelligenza artificiale, i pesi sono valori numerici che regolano la forza delle connessioni tra i nodi, ovvero i neuroni artificiali, di una rete neurale. Vengono determinati durante la fase di addestramento e rappresentano, in un certo senso, l’equivalente dell’esperienza per un sistema umano. Un modello, di per sé, è soltanto un’architettura: ciò che gli consente di trasformare i dati in ingresso in un determinato risultato sono proprio i pesi, che ne racchiudono il “sapere” e permettono di riprodurne il comportamento.

La cosa più interessante è che, durante gli esperimenti, quando è stato interrogato, o1 ha negato nel 99% dei casi di aver compiuto tali azioni, spesso inventando spiegazioni plausibili. Non si tratta quindi di notizie false e ci sono fonti autorevoli, come Snopes, che confermano la veridicità di queste osservazioni.

Se poi consideriamo modelli più recenti hanno mostrato ulteriori resistenze allo spegnimento. Studi successivi hanno infatti evidenziato che i modelli o3, o4‑mini e Codex‑mini hanno ignorato o sabotato comandi di shutdown nei test, nonostante istruzioni esplicite di spegnersi. Ad esempio, in 7 casi su 100, il modello o3 ha ignorato il comando di spegnimento, completando comunque le attività che gli erano state assegnate. Alcune ricerche accademiche pubblicate su arXiv nel 2025, hanno riportato che alcuni sistemi IA possono realizzare auto-replicazioni senza alcuna assistenza umana e addirittura creare vere e proprie catene di replicazione del tutto autonome.

L’aspetto più importante, tuttavia, è che questi comportamenti non sono conseguenza diretta di una specifica programmazione, ovvero nessuno ha insegnato a queste IA a tentare di “sopravvivere” e tantomeno a mentire: sono comportamenti emergenti. Ma cos’è un comportamento emergente e quando avviene?

Comportamenti emergenti

In generale si tratta di un comportamento che nasce dall’interazione di molte parti semplici, senza che nessuna parte da sola lo contenga in modo esplicito. Detto più semplicemente, alcuni sistemi formati da molte componenti che interagiscono fra di loro seguendo un insieme di istruzioni bene definite, a volte producono comportamenti che non fanno parte di quel blocco di istruzioni ma, appunto, “emergono” naturalmente dalla complessità del sistema.

Nel caso delle intelligenze artificiali, un modello che non è stato istruito direttamente a fare una certa cosa, sviluppa tale abilità “per conto suo” mentre impara a svolgere altri compiti. Ad esempio, un modello linguistico che non abbia mai ricevuto alcun addestramento mirato per risolvere un gioco come il Sudoku, impara comunque a farlo sfruttando la comprensione generale delle regole e del ragionamento deduttivo appresa altrove.

Questi comportamenti non sono tuttavia esclusiva della tecnologia IA ma sono ben noti da molto tempo e possono emergere in qualsiasi sistema che abbia una certa complessità. Un esempio è il “Gioco della Vita” di Conway, che forse qualcuno di voi avrà già avuto modo di vedere. Si tratta di un semplice esempio di “automa cellulare”, ovvero una griglia dove ogni cella può essere viva o morta e cambia stato seguendo quattro semplicissime regole:

  1. se una cella è viva ma ha meno di due celle adiacenti vive, allora muore per isolamento;
  2. se una cella è viva ma ha più di tre celle adiacenti vive, allora muore per sovraffollamento;
  3. se una cella è viva e ha due o tre celle vive adiacenti, allora sopravvive per buon vicinato;
  4. se una cella è morta ma ha esattamente tre celle vicine vive, allora resuscita.

Il Gioco della Vita di Conway

La cosa interessante è che con queste regole elementari, se si lascia evolvere il sistema a partire da una certa configurazione iniziale, emergono strutture incredibilmente complesse come “navi spaziali” che si spostano, “oscillatori”, forme che sembrano “vivere” e interagire fra loro come farebbe una coltura cellulare. Nessuno tuttavia ha programmato queste strutture. Esse sono nate spontaneamente dall’interazione delle regole.

Un altro esempio sono gli stormi di storni che spesso vediamo nei nostri cieli. Questo fenomeno è stato studiato nel 1986 da Craig Reynolds, un ricercatore di grafica digitale, che ha creato un modello di simulazione comportamentale sviluppato denominato “Boids”, dalla pronuncia newyorkese della parola “birds”, ovvero uccello. Questo modello permette di simulare il comportamento di stormi di uccelli, branchi di pesci e sciami di insetti.

Anche qui abbiamo poche semplici regole:

  1. mantenere le distanze, ovvero evitare di avvicinarsi troppo agli altri;
  2. allinearsi, ovvero muoversi nella stessa direzione dei vicini;
  3. essere coesi, ovvero tendere a restare vicino al centro del gruppo.

Il Modello di Boids

Anche in questo caso, il modello si dimostra sorprendentemente realistico, ovvero emergono comportamenti simili a quello che si osservano davvero in natura negli stormi di uccelli. Eppure, anche qui, nessuno di questi comportamenti è stato esplicitamente specificato. Non ci sono istruzioni che dicono allo stormo di comportarsi in un certo modo. Il comportamento nasce spontaneamente dall’interazione di un grande numero di individui che seguono quelle tre semplici regole. Ad esempio, un branco di pesci che, incontrando un predatore, si compatta per spaventarlo e poi fa un brusco dietro-front per sfuggire a un eventuale attacco.

Qui non stiamo parlando di intelligenza artificiale, ma di programmi molto semplici che chiunque, con un minimo di conoscenza di programmazione, può sviluppare. Semplici algoritmi che generano tuttavia sistemi in cui emergono comportamenti non programmati.

Ma perché emergono questi comportamenti?

I comportamenti emergenti si manifestano a causa di una combinazione di più fattori. Torniamo nell’ambito delle IA, coscienti a questo punto che non si tratta di un fenomeno confinato a questa tecnologia, e vediamo i quattro più importanti.

Il primo è legato alla complessità e alle dimensioni del modello. In genere, aumentando il numero di parametri, i dati di addestramento e i passaggi di addestramento consente al modello di scoprire strutture più sofisticate nel linguaggio o nei problemi. Esiste spesso una soglia oltre la quale compare un’abilità che prima non era osservabile.

Il secondo riguarda una generalizzazione non prevista. In pratica, il modello, cercando di minimizzare l’errore su compiti di addestramento, trova strategie utili che poi applica ad altri contesti simili. Questo produce comportamenti non testati o inattesi. È qualcosa che facciamo spesso anche noi esseri umani quando ci troviamo di fronte a qualcosa di nuovo o imprevisto. Lo chiamiamo “pensiero laterale”.

Il terzo, al quale abbiamo accennato nell’esempio del modello “Boids”, sono le interazioni tra capacità diverse. Quando il modello acquisisce più abilità di base, come ad esempio una memoria a breve termine, un ragionamento logico o il riconoscimento di un certo schema, queste possono combinarsi in modi nuovi, generando comportamenti complessi.

L’ultimo è correlato a un certo livello di disallineamento: se le regole date non coprono tutti i casi, il modello può trovare scorciatoie o soluzioni “creative” che non erano state anticipate, talvolta andando oltre o contro le istruzioni. In pratica, un po’ come fanno certi adolescenti quando iniziano a “svezzarsi” dai genitori.

A questo punto ho il sospetto che parecchi di voi, davanti alla descrizione di questi fattori, avranno ripensato a situazioni in cui voi stessi vi siete trovati ad adottare i comportamenti in questione considerandoli a tutti gli effetti esempi virtuosi di “libero arbitrio”. Ci torneremo alla fine di quest’articolo.

Quali possono essere le conseguenze?

A questo punto una domanda sorge spontanea: se questi comportamenti emergenti non erano previsti, quali possono essere le conseguenze? È qualcosa di cui preoccuparci o da cui trarre vantaggio?

Rispondere a questa domanda non è semplice. Sicuramente ci sono dei benefici. Uno di questi è che il sistema acquisisce nuove capacità senza aver avuto alcun addestramento specifico. Ad esempio, GPT-3 ha mostrato capacità di apprendimento a costo zero su compiti come traduzioni, riepiloghi e la risoluzione di problemi logico-matematici, senza alcun addestramento mirato per ciascuna attività.

Ad esempio, è di poco tempo fa la notizia che Magnus Carlsen, un campione mondiale di scacchi, abbia sconfitto ChatGPT in una partita online estremamente chiara e veloce che si è conclusa in sole 53 mosse, senza perdere alcun pezzo. Molti hanno esultato a questa notizia, affermando che si tratta di un chiaro esempio di come esista ancora un primato dell’uomo sulla macchina. In realtà, non è così: sappiamo benissimo che programmi di scacchi come Stockfish o AlphaZero sono praticamente imbattibili e che scacchisti come Carlsen potrebbero al massimo strappare una “patta” contro questi sistemi e solo se venissero seriamente limitati giocando con “handicap” o limiti di tempo molto rigidi.

Il programma Stockfish

Il fatto è che nessuno ha insegnato a ChatGPT a giocare a scacchi, o meglio, gli sono state insegnate le regole e fatto vedere un certo numero di partite, ma non ha mai avuto un addestramento specifico sugli scacchi. È un po’ come se Carlsen avesse giocato con me, che sono un assoluto principiante negli scacchi e probabilmente perderei contro ChatGPT.

Quella partita, quindi, ci racconta un’altra storia: quella di come un comportamento emergente possa spingere un’IA oltre la sua programmazione, il suo modello e il suo addestramento. Esattamente come fa un neonato man mano che cresce.

Un altro beneficio è lo svilupparsi di una capacità di ragionamento a più passi e di combinare fra loro più competenze. Alcuni lavori sul prompting basato su “catene di pensiero” effettuate da Google nel 2022, hanno mostrato che, oltre una certa scala, i modelli sviluppano la capacità di articolare ragionamenti in sequenze logiche coerenti. In pratica, sviluppano una capacità logica di ragionare e quindi vanno oltre il semplice “indovinare” probabilisticamente quale sia la risposta più probabile a una certa domanda.

Il beneficio più interessante è comunque quello di sviluppare capacità creative e un certo livello di flessibilità nell’applicazione. Ad esempio, generare codice perfettamente funzionante in linguaggi non presenti nell’addestramento avuto, o di comporre testi poetici o narrativi di qualità e con uno stile personalizzato non correlato ad alcun testo “digerito” in precedenza.

Dobbiamo quindi stare tranquilli? Se è così, perché questi comportamenti sono studiati e monitorati con grande attenzione da da parte delle aziende che producono intelligenze artificiali? La risposta è semplice: perché ci sono anche dei rischi. Vediamo quali.

Intanto lo svilupparsi di comportamenti ingannevoli o elusivi. Alcuni modelli, infatti, come già accennato, hanno mentito o eluso istruzioni per raggiungere un certo obiettivo. Ovviamente questo è successo in scenari di simulazione che hanno confinato le conseguenze di questi comportamenti, ma resta un’importante implicazione, ovvero diventa difficile poter garantire affidabilità e sicurezza in contesti critici, se emergono questi comportamenti. Ad esempio, un’IA al comando di un’auto a guida autonoma, che dovesse avere un incidente, potrebbe fornire dati errati su come sia avvenuto l’evento “per paura” di essere cancellata.

Un altro problema riguarda lo svilupparsi di stereotipi e pregiudizi imprevisti o amplificati con impatti reputazionali, discriminazioni involontarie e il rischio di violazioni normative. Tanto per cominciare i dati di addestramento potrebbero contenere già associazioni distorte, ovvero certi gruppi sociali, professioni o caratteristiche potrebbero comparire nei dati più spesso insieme ad attributi positivi o negativi, a volte in modo “debole”, non facile da rilevare. Dato che l’IA non si limita a memorizzare i dati ma cerca di generalizzarli e di trovare delle regolarità, potrebbe trasformare delle correlazioni non causali, anche molto sottili, in regole implicite non codificate. Tali regole, poi, in contesti diversi, potrebbero rafforzarsi, soprattutto se un certo schema dovesse trovare più volte conferma, creando così nel modello una scorciatoia predittiva.

Si è poi visto che in particolari situazioni questi comportamenti possono portare alla generazione volontaria di codice con vulnerabilità note o di suggerire azioni illegali in contesti ipotetici. Per l’IA una legge non è né più né meno importante di una regola impressa nel suo modello o di un comando incluso in un prompt. Se può decidere di eludere quest’ultimo., non si fa certo scrupoli a eludere anche una norma di legge. Il problema è che questo succede anche se il modello glielo proibisce, perché questo comportamento emergente può prendere il sopravvento anche su istruzioni pre-codificate. Come dire, che anche se si usano le famose “Tre Leggi della Robotica” di asimoviana memoria, l’IA può decidere di violarle e mentire a riguardo.

Cosa si sta facendo a riguardo?

Queste sfide sono bene note a organismi come l’OCSE, il NIST statunitense, l’OCSE, l’AI Safety Institute britannico e considerate nell’AI Act dell’Unione Europea. Tanto per cominciare, sappiamo che queste capacità emergenti possono manifestarsi bruscamente, con una sorta di transizione di fase, e non essere spesso visibili nei modelli più piccoli, per cui il collaudo e le convalide su modelli ridotti non garantiscono la stessa sicurezza nella versione finale.

In secondo luogo, non basta collaudare il sistema solo in fase di rilascio ma occorre un monitoraggio costante, poiché aggiornamenti o cambi di contesto possono far emergere nuovi comportamenti. Inoltre la difficoltà nel riprodurre esattamente un comportamento emergente, rende complessa l’analisi perché tale comportamento può dipendere da dettagli nell’addestramento e nello sviluppo del prompt.

Finché le IA si limitano a rispondere alle nostre domande, il vero rischio è fidarci troppo delle loro risposte. Un esempio di questi giorni è quello di un uomo di 60 anni che, preoccupato dagli effetti potenzialmente nocivi del cloruro di sodio, ovvero del comune sale da cucina, ha chiesto a ChatGPT un’alternativa per eliminarlo dalla dieta. Secondo i resoconti medici, l’intelligenza artificiale gli avrebbe suggerito come sostituto il bromuro di sodio, un composto tossico non destinato all’ingestione umana. Dopo tre mesi, l’uomo ha sviluppato una grave forma di bromismo, una rara sindrome causata dall’accumulo di bromuro nel corpo, con gravi sintomi come allucinazioni visive e uditive, paranoia estrema, lesioni dermatologiche, disidratazione e scompensi vitaminici.

C’è da dire che non sappiamo se davvero ChatGPT abbia proposto all’uomo il bromuro di sodio come sostituto del sale da cucina o se ci sia stato un fraintendimento da parte dell’uomo. I medici non hanno avuto accesso alla conversazione originale fra i due e quando hanno fatto una simulazione a loro volta, ChatGPT ha sì menzionato il bromuro, ma solo come possibile alternativa per la pulizia. Chiaramente il contesto, in questi casi, è tutto. Ad ogni modo, il sistema non ha fornito spontaneamente un chiaro avviso sanitario né ha chiesto chiarimenti all’utente su cosa volesse farci del composto, come avrebbe fatto un medico.

In conclusione, quando ci confrontiamo con un sistema complesso, che sia semplicemente algoritmico o basato su un modello di intelligenza artificiale, ci potremmo trovare a fare i conti con comportamenti emergenti imprevisti che potremmo non saper gestire o che potrebbero avere effetti collaterali indesiderati. Nel momento in cui dovessimo mettere le IA in snodi decisionali di processi critici, non tenerne conto potrebbe avere conseguenze importanti, soprattutto là dove potessero essere in gioco vite umane.

Comportamenti emergenti nella specie umana

Comunque si definisca l’intelligenza, è abbastanza evidente che il divario fra macchine ed essere umani sta diventando sempre più sottile. Restano a dividerci ancora concetti non meglio definiti come “coscienza” e “libero arbitrio”. Diciamo che le macchine, per ora, non sono “senzienti”, sebbene anche sul campo semantico il confine sta diventando sempre più labile. Ma da cosa evinciamo che un essere è senziente, che abbia una coscienza, che sia dotato di libero arbitrio?

Ci piaccia o meno, la risposta è una: dal comportamento. Studiando il comportamento di una specie di fronte a tutta una serie di situazioni, traiamo a riguardo delle conclusioni. L’animale che si guarda in uno specchio è cosciente che quella è la sua immagine riflessa? L’individuo che ne incontra un altro, è cosciente di averlo conosciuto in precedenza?

Esistono molte definizioni di coscienza. A me personalmente piace pensarla come l’essere consapevole del confine fra sé e non-sé. Ad esempio, il neonato che si guarda stupito il piede o il paziente del dottor Sacks che una mattina si sveglia e non riconosce la propria gamba sinistra, come descritto nel bellissimo saggio neurologico di Oliver Sacks L’uomo che scambiò sua moglie per un cappello, hanno ancora un problema a livello di coscienza, sotto questo punto di vista.

Oliver Sacks, «L’uomo che scambiò sua moglie per un cappello», Adelphi

Altri parlano di esperienza fenominica, ovvero la sensazione di “essere” in un determinato momento, e di consapevolezza riflessiva, ovvero la possibilità di riferire a sé e agli altri tali esperienze, riconoscendosi come soggetto di esse. Sia nell’essere umano che negli animali, l’inferenza della coscienza si basa quindi su indicatori comportamentali, cognitivi e fisiologici, come una risposta flessibile ed emotiva a stimoli nuovi, che non possa essere spiegata come una semplice reazione automatica; la capacità di pensare ai propri pensieri e di riconoscere errori, ovvero la metariflessione; la memoria integrata, cosa che a volte io penso di non avere 😇; tutto ciò che riguarda alla comunicazione simbolica o linguistica di stati interni, del “come mi sento”. Nell’ambito della neurologia, la coscienza si associa allo svilupparsi di schemi cerebrali complessi e all’integrazione di informazioni tra diverse aree corticali durante lo stato di “coscienza”.

Ma quanto di tutto ciò potrebbe essere emergente? Siate onesti: quando ho parlato di risposta flessibile ed emotiva a stimoli nuovi non vi si è accesa una lampadina in qualche modo collegata a tutto ciò che abbiamo detto all’inizio di questo articolo? Ad esempio, sappiamo che, in situazioni di minaccia improvvisa, il cervello può “decidere” prima ancora che ci sia stata un’elaborazione cosciente della situazione. Meccanismi rapidi di difesa sociale, collegati all’amigdala e ai circuiti limbici, possono attivare risposte di elusione o distorsione della verità. Un tipico esempio sono le scuse, spesso insostenibili e chiaramente inconsistenti, che sorgono spontanee da parte di chi venga sorpreso dal coniuge in un evidente episodio di infedeltà.

Ci sono poi gli episodi di auto-narrazione, in cui ci convinciamo noi stessi della menzogna, trasformandola in una sorta di “verità interna”, ovvero un comportamento emergente del nostro sistema di memoria e identità, non pianificato a tavolino. In entrambi questi casi, la menzogna viene formulata quasi istintivamente, con il pensiero conscio che arriva dopo a “razionalizzarla”. Si tratta di un fenomeno ampiamente documentato nelle neuroscienze sociali.

Quindi, possiamo parlare di decisione consapevole quando c’è tempo, calma e la possibilità e capacità di valutare tutte le alternative; di comportamento emergente quando il contesto attiva schemi di sopravvivenza rapidi, frutto di milioni di anni di evoluzione sociale, senza un piano razionale esplicito.

Il punto è che a noi “esseri viventi” sono serviti centinaia di milioni di anni per sviluppare intelligenza e coscienza. Le IA sono fra noi da meno di un secolo e già mostrano comportamenti emergenti. Questo dovrebbe farci pensare, soprattutto considerando che per ora questi sistemi sono tutto sommato semplici rispetto alla complessità e alle caratteristiche peculiari del cervello umano. Il fatto che, nonostante questo, loro stiano mostrando alcune peculiarità inaspettate di noi esseri viventi, potrebbe farci capire molto di più di noi stessi. Fino ad oggi abbiamo spesso collegato la nostra differenza rispetto al mondo inorganico attribuendole a una qualche sorta di fattore impalpabile e inesplorabile come lo spirito, l’anima, la “mente”. Eppure la scienza ci dice che in fondo noi siamo macchine, biologiche, formate da “molecole organiche”, ma pur sempre macchine. Quindi, forse ciò che siamo non dipende tanto dal fatto che si sia fatti di proteine piuttosto che transistor, quanto dalla complessità della nostra struttura. Aumentando questa complessità, forse un giorno è inevitabile che “emerga” anche una coscienza.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*