Richieste improprie e che subito bloccate se poste in linguaggio naturale,
vengono invece accettate dai large language model se messe in forma di versi e
rime: com’è possibile?
Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno
sempre di produrre contenuti vietati dalle loro policy non è possibile. Per
quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da
contenuti dannosi e per farlo usano principalmente due strategie. La prima è
l’allineamento in fase di addestramento, con cui il modello viene istruito a
rifiutare determinate richieste oppure a seguire specifiche regole. La seconda
strategia riguarda invece dei filtri esterni o classificatori che analizzano
input e output del modello, bloccando tutto ciò che corrisponde a pattern
riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi,
ricercatore ed esperto di AI Safety. “Il problema è che entrambi gli approcci si
basano su esempi di richieste formulate in modo diretto, prosastico o
estremamente preciso”, prosegue Prandi.
Jailbreak in versi
Ed è proprio per questa ragione che, nel corso degli anni, sono emersi
molteplici metodi che permettono di aggirare le barriere: formulando comandi
indiretti e creativi...
Continua a leggere