Seconda parte del bignamino di Quatrociocchi sugli LLM spiegati senza
supercazzole.
Un LLM non è un pensatore profondo: è un sistema statistico addestrato su enormi
quantità di testo per modellare le regolarità del linguaggio, senza accesso
diretto al mondo reale. Tutto quello che fa è empiricamente descrivibile e
riproducibile: nessuna magia, nessun “spirito” emergente.
Riporto di seguito i concetti. L'originale si può leggere su Linkedin
EMBEDDING
I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene
trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono
spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini;
se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una
mappa statistica, non un dizionario di significati. Nessun concetto, solo
distanze in uno spazio di numeri.
TOKENIZZAZIONE
Il modello non legge il testo come facciamo noi. Spezza le frasi in piccoli
pezzi chiamati token. A volte una parola è un token intero, altre volte viene
spezzata: “incredibile” può diventare “in”, “credi”, “bile”. Il modello lavora
solo con questi pezzi, non con concetti o frasi intere. Non c’è un “pensiero”
sotto: solo pezzi da ricomporre.
POSITIONAL ENCODING –
Perché l’ordine delle parole non si perda, a ogni token viene aggiunta
un’informazione sulla sua posizione nella frase. È così che il modello distingue
tra “l’uomo morde il cane” e “il cane morde l’uomo”. Non è grammatica: è solo un
trucco matematico per non confondere l’ordine. Coordinate, non regole
sintattiche.
FINE-TUNING E RLHF
Dopo l’addestramento di base, il modello viene “educato” con dati più mirati o
con istruzioni di esseri umani (RLHF = Reinforcement Learning with Human
Feedback). Qui gli umani dicono: “questa risposta va bene, questa no”. È così
che il modello impara a rispondere in modo più chiaro e cortese, ma resta
statistica, non personalità. Premi e punizioni, non comprensione.
Prosegue...
CONTEXT WINDOW
Un modello non ricorda all’infinito. Ha una “finestra di contesto” che
stabilisce quante parole può considerare alla volta. Se è troppo piccola,
dimentica l’inizio della conversazione. Oggi i modelli più avanzati hanno
finestre molto ampie e possono “tenere a mente” testi enormi in un’unica volta.
Ma sempre con memoria a breve termine: finita la finestra, sparisce tutto.
PROMPT ENGINEERING
Dare istruzioni chiare migliora le risposte. Non perché il modello “capisca”, ma
perché guidi meglio la scelta delle parole. Domanda confusa = risposta confusa.
Niente magia: solo input più mirati.
DECODING
Dopo aver calcolato la probabilità di ogni parola possibile, il modello deve
sceglierne una.
* Greedy decoding: Prende sempre quella più probabile → testo corretto ma
noioso.
* Sampling: pesca a caso seguendo le probabilità → più varietà, ma rischia di
dire sciocchezze.
* Beam search: valuta più frasi in parallelo e sceglie la migliore → più lento
ma di qualità. Non c’è ispirazione: solo diverse strategie di scelta.
TEMPERATURE E TOP-K
Sono le “manopole dello stile”.
* Temperature regola la creatività: bassa = frasi prevedibili, alta = frasi
fantasiose (a volte troppo).
* Top-k dice al modello: “considera solo le k parole più probabili”.
Tutto qui: numeri, probabilità, un po’ di informatica. Tantissimi dati e tanta
potenza di calcolo. Niente magia. Niente filosofia dei termosifoni.
Tag - LLM
Apple pubblica uno studio che smaschera i limiti dell’intelligenza artificiale:
i modelli di AI non “pensano”, ma collassano di fronte a problemi complessi. La
corsa verso la vera AGI sembra più lontana che mai.
Negli ultimi giorni, Apple ha scosso il mondo della tecnologia con la
pubblicazione di un whitepaper che mette in discussione le fondamenta stesse
dell’intelligenza artificiale moderna. Il documento, dal titolo provocatorio
“The Illusion of Thinking: Understanding the Strengths and Limitations of
Reasoning Models via the Lens of Problem Complexity” ossia ''L’illusione del
pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento
attraverso la lente della complessità dei problemi'', rappresenta una vera e
propria bomba sganciata sul settore AI. Dietro la facciata: l’AI non ragiona,
imita
Il cuore della ricerca è semplice ma devastante: i Large Language Model (LLM),
quei sistemi che oggi chiamiamo “AI” e che aziende come OpenAI, Google e Meta
sbandierano come capaci di “pensare”, in realtà non ragionano affatto. Sono
semplicemente eccezionali nel riconoscere pattern e riprodurre risposte
plausibili, ma quando si tratta di affrontare problemi complessi, la loro
presunta intelligenza si sbriciola.
Leggi l'articolo
Puntata monografica quella del 2 aprile, in cui abbiamo intervistato Giorgia,
una ricercatrice in linguistica riguardo alla definizione, applicazione e limiti
dei modelli linguistici nell’ambito dell’intelligenza artificiale.
* Come definiamo una lingua,
* Cosa vuol dire un modello linguistico,
* Come avviene la costruzione di questi mitici modelli linguistici,
* Come definiamo l'addestramento su una lingua.
* E' ancora valida la definizione di pappagalli stocastici per gli LLM (Large
Language Model) o c'è qualcosa che è cambiato negli ultimi anni?
* Cosa è cambiato negli ultimi anni?
Ascolta il podcast della trasmissione sul sito di Radio Blackout
La proprietà aperta e i suoi nemici: suicidi eccellenti nella Silicon Valley
Di Rattus Norvegicus
Considero il recente (presunto) suicidio del programmatore indiano ventiseienne
Suchir Balaji, un giovane che aveva alle spalle quattro anni di lavoro presso il
centro di ricerca di OpenAI, un evento di una tale gravità da richiedere un
ripensamento in merito al ruolo svolto dalla proprietà intellettuale negli
ultimi quarant’anni, sia all’interno della produzione informatica e di rete sia,
più in generale, nell’ambito dei complessi rapporti che questa peculiare forma
di proprietà privata ha stabilito con la libertà di opinione, con il diritto di
accesso all’educazione e alla formazione, con la cooperazione internazionale
allo sviluppo e, per estensione, con tutti i principali pilastri del diritto
nelle democrazie liberali, quelli che i paladini del libero mercato continuano a
invocare nei loro discorsi pubblici sebbene nelle realtà non se ne veda più
traccia da moltissimo tempo.
Ian Murdock (la cooperazione)
Aroon Swartz (la condivisione)
Suchir Balaji (la contraddizione)
Leggi l'articolo
Cassandra Crossing/ Perché un dettaglio tecnico delle false IA, per giunta di
tipo matematico, dovrebbe essere conosciuto da tutti?
Il collasso di un modello di LLM avviene quando un modello, addestrato sui dati
generati da generazioni precedenti di modelli, inizia a perdere informazioni,
particolarmente sulle code della distribuzione statistica dei dati originali, e
alla fine converge verso una stima a punto singolo, con poca varianza statistica
(in soldoni, fornisce sempre la stessa risposta a qualsiasi domanda).
Leggi l'articolo su ZEUS News