SINCERE building stories

Perché la poesia manda in tilt ChatGPT

Richieste improprie e che subito bloccate se poste in linguaggio naturale, vengono invece accettate dai large language model se messe in forma di versi e rime: com’è possibile? Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno sempre di produrre contenuti vietati dalle loro policy non è possibile. Per quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da contenuti dannosi e per farlo usano principalmente due strategie. La prima è l’allineamento in fase di addestramento, con cui il modello viene istruito a rifiutare determinate richieste oppure a seguire specifiche regole. La seconda strategia riguarda invece dei filtri esterni o classificatori che analizzano input e output del modello, bloccando tutto ciò che corrisponde a pattern riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi, ricercatore ed esperto di AI Safety. “Il problema è che entrambi gli approcci si basano su esempi di richieste formulate in modo diretto, prosastico o estremamente preciso”, prosegue Prandi. Jailbreak in versi Ed è proprio per questa ragione che, nel corso degli anni, sono emersi molteplici metodi che permettono di aggirare le barriere: formulando comandi indiretti e creativi... Continua a leggere

December 2, 2025 / Pillole di Graffio

Poesia

Prompt

Tag - Prompt