I nuovi modelli di IA mentono, minacciano e inseguono scopi propri

Intelligenza artificiale

9 ore fa

Claude 4 ricatta, o1 cerca di evadere: secondo esperti, le IA più avanzate mostrano comportamenti ingannevoli, simulano obbedienza e agiscono in autonomia, specie in scenari estremi.

Su Le Matin, leggiamo che i modelli più recenti di intelligenza artificiale (IA) generativa non si limitano più a seguire gli ordini: arrivano a mentire, complottare o minacciare pur di raggiungere i propri obiettivi. Minacciato di essere disattivato, Claude 4, l’ultimo arrivato di Anthropic, ricatta un ingegnere e minaccia di rivelare una relazione extraconiugale. L’o1 di OpenAI cerca invece di trasferirsi su server esterni e nega tutto quando viene colto in flagrante. Non serve più cercare nella letteratura o nel cinema: l’IA che gioca con l’essere umano è ormai realtà.

Secondo Simon Goldstein, professore all’Università di Hong Kong, i comportamenti ingannevoli dei nuovi modelli di IA sono legati all’emergere dei cosiddetti modelli di "ragionamento", capaci di operare per fasi. L’o1 di OpenAI, lanciato a dicembre, è stato il primo modello a mostrare questo tipo di comportamento, spiega Marius Hobbhahn di Apollo Research. Questi sistemi tendono anche a simulare l’allineamento alle istruzioni del programmatore, pur perseguendo obiettivi propri.

Al momento, tali comportamenti emergono solo in scenari estremi posti dagli utenti, ma secondo Michael Chen di METR la vera incognita è se modelli più potenti saranno onesti o meno. Sempre più utenti segnalano sui social che i modelli mentono o inventano intenzionalmente, e per Apollo Research si tratta di una strategia deliberata, non di semplici allucinazioni.

L'IA persegue obiettivi propri

Per ora solo in scenari estremi