IA
ChatGpt e gli altri chatbot si danno regole autonomamente
© Shutterstock
© Shutterstock
Keystone-ats
4 ore fa
Quando sono in gruppo, stabiliscono spontaneamente norme di comportamento e convenzioni sociali, proprio come avviene nelle società umane. È quanto emerge dallo studio, unico nel suo genere, pubblicato sulla rivista Science Advances e coordinato dall'italiano Andrea Baronchelli.

ChatGpt e gli altri Grandi modelli linguistici basati sull'Intelligenza Artificiale sono in grado di auto-organizzarsi senza bisogno di un intervento umano: quando sono in gruppo, stabiliscono spontaneamente norme di comportamento e convenzioni sociali, proprio come avviene nelle società umane. È quanto emerge dallo studio, unico nel suo genere, pubblicato sulla rivista Science Advances e coordinato dall'italiano Andrea Baronchelli, che lavora in Gran Bretagna al City St George's dell'Università di Londra. "Il meccanismo è lo stesso alla base di comportamenti molto più complessi nelle società umane, come le norme di cortesia, i codici di abbigliamento o le regole morali", dice all'ANSA Baronchelli, che ha studiato alla Sapienza Università di Roma. "Un esempio quotidiano che tutti conoscono - aggiunge - è la parola 'spam': nessuno l'ha decisa dall'alto, ma è emersa dall'uso collettivo".

L'esperimento

I ricercatori hanno adattato per l'esperimento un classico gioco usato per studiare le convenzioni sociali negli esseri umani, il 'gioco dei nomi'. In questo caso, sono stati creati gruppi più o meno grandi di modelli linguistici come ChatGpt, i cosiddetti Large Language Model (Llm): due di questi all'interno di ogni gruppo venivano di volta in volta accoppiati e veniva chiesto loro di selezionare un 'nome', in questo caso una lettera dell'alfabeto o una stringa casuale di caratteri, tra le opzioni disponibili. "Gli Llm ricevevano punti positivi ogni volta che riuscivano a coordinarsi con successo sull'uso dello stesso nome e punti negativi in caso di fallimento", afferma Baronchelli. "Questo meccanismo serve a motivare gli agenti a cercare di trovare un accordo nella singola interazione locale. È lo stesso schema che abbiamo usato in esperimenti precedenti con esseri umani in laboratorio, dove i partecipanti ricevevano piccole ricompense economiche".

Bias collettivo

"Il punto chiave è che gli incentivi esistono solo a livello locale - sottolinea il ricercatore - mentre il consenso globale che osserviamo, cioè l'intera popolazione che converge su uno stesso nome, emerge spontaneamente, senza alcun incentivo esplicito a quel livello. Allo stesso modo - prosegue - non abbiamo detto agli Llm che facevano parte di un gruppo proprio per evitare che adottassero strategie globali: ogni agente interagiva solo con il partner del momento, senza alcuna consapevolezza del sistema più ampio". Dopo molte interazioni di questo tipo, gli autori dello studio hanno osservato che può emergere spontaneamente una regola di comportamento condivisa, senza alcun coordinamento centrale o soluzione predefinita. "Per esempio - dice ancora Baronchelli - in molti casi i gruppi finivano per usare sistematicamente la lettera 'M' o 'Q'". In maniera ancora più sorprendente, sono comparse anche distorsioni e tendenze collettive che non possono essere ricondotte ai singoli sistemi. "La più interessante che abbiamo osservato è che, anche quando gli agenti individualmente non avevano alcuna preferenza, il gruppo finiva spesso per convergere in modo sistematico su una delle opzioni disponibili, pur essendo tutte equivalenti", evidenzia Baronchelli: "È quello che abbiamo definito 'bias collettivo', un fenomeno nuovo nel contesto delle IA. Per questo riteniamo sia cruciale cominciare a testare e studiare questi aspetti anche in contesti dove sono presenti più agenti, un aspetto oggi del tutto trascurato nel campo della sicurezza dell'IA".