Tag - LLM

Bignami, concetti base degli LLM (parte seconda)
Seconda parte del bignamino di Quatrociocchi sugli LLM spiegati senza supercazzole. Un LLM non è un pensatore profondo: è un sistema statistico addestrato su enormi quantità di testo per modellare le regolarità del linguaggio, senza accesso diretto al mondo reale. Tutto quello che fa è empiricamente descrivibile e riproducibile: nessuna magia, nessun “spirito” emergente. Riporto di seguito i concetti. L'originale si può leggere su Linkedin EMBEDDING I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini; se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una mappa statistica, non un dizionario di significati. Nessun concetto, solo distanze in uno spazio di numeri. TOKENIZZAZIONE Il modello non legge il testo come facciamo noi. Spezza le frasi in piccoli pezzi chiamati token. A volte una parola è un token intero, altre volte viene spezzata: “incredibile” può diventare “in”, “credi”, “bile”. Il modello lavora solo con questi pezzi, non con concetti o frasi intere. Non c’è un “pensiero” sotto: solo pezzi da ricomporre. POSITIONAL ENCODING – Perché l’ordine delle parole non si perda, a ogni token viene aggiunta un’informazione sulla sua posizione nella frase. È così che il modello distingue tra “l’uomo morde il cane” e “il cane morde l’uomo”. Non è grammatica: è solo un trucco matematico per non confondere l’ordine. Coordinate, non regole sintattiche. FINE-TUNING E RLHF Dopo l’addestramento di base, il modello viene “educato” con dati più mirati o con istruzioni di esseri umani (RLHF = Reinforcement Learning with Human Feedback). Qui gli umani dicono: “questa risposta va bene, questa no”. È così che il modello impara a rispondere in modo più chiaro e cortese, ma resta statistica, non personalità. Premi e punizioni, non comprensione. Prosegue... CONTEXT WINDOW Un modello non ricorda all’infinito. Ha una “finestra di contesto” che stabilisce quante parole può considerare alla volta. Se è troppo piccola, dimentica l’inizio della conversazione. Oggi i modelli più avanzati hanno finestre molto ampie e possono “tenere a mente” testi enormi in un’unica volta. Ma sempre con memoria a breve termine: finita la finestra, sparisce tutto. PROMPT ENGINEERING Dare istruzioni chiare migliora le risposte. Non perché il modello “capisca”, ma perché guidi meglio la scelta delle parole. Domanda confusa = risposta confusa. Niente magia: solo input più mirati. DECODING Dopo aver calcolato la probabilità di ogni parola possibile, il modello deve sceglierne una. * Greedy decoding: Prende sempre quella più probabile → testo corretto ma noioso. * Sampling: pesca a caso seguendo le probabilità → più varietà, ma rischia di dire sciocchezze. * Beam search: valuta più frasi in parallelo e sceglie la migliore → più lento ma di qualità. Non c’è ispirazione: solo diverse strategie di scelta. TEMPERATURE E TOP-K Sono le “manopole dello stile”. * Temperature regola la creatività: bassa = frasi prevedibili, alta = frasi fantasiose (a volte troppo). * Top-k dice al modello: “considera solo le k parole più probabili”. Tutto qui: numeri, probabilità, un po’ di informatica. Tantissimi dati e tanta potenza di calcolo. Niente magia. Niente filosofia dei termosifoni.
September 23, 2025 / Pillole di Graffio
Apple distrugge il mito dell'Intelligenza Artificiale: ecco perché la vera AI è solo un'illusione!
Apple pubblica uno studio che smaschera i limiti dell’intelligenza artificiale: i modelli di AI non “pensano”, ma collassano di fronte a problemi complessi. La corsa verso la vera AGI sembra più lontana che mai. Negli ultimi giorni, Apple ha scosso il mondo della tecnologia con la pubblicazione di un whitepaper che mette in discussione le fondamenta stesse dell’intelligenza artificiale moderna. Il documento, dal titolo provocatorio “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” ossia ''L’illusione del pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento attraverso la lente della complessità dei problemi'', rappresenta una vera e propria bomba sganciata sul settore AI. Dietro la facciata: l’AI non ragiona, imita Il cuore della ricerca è semplice ma devastante: i Large Language Model (LLM), quei sistemi che oggi chiamiamo “AI” e che aziende come OpenAI, Google e Meta sbandierano come capaci di “pensare”, in realtà non ragionano affatto. Sono semplicemente eccezionali nel riconoscere pattern e riprodurre risposte plausibili, ma quando si tratta di affrontare problemi complessi, la loro presunta intelligenza si sbriciola. Leggi l'articolo
June 15, 2025 / Pillole di Graffio
StakkaStakka – Linguistica di IA
Puntata monografica quella del 2 aprile, in cui abbiamo intervistato Giorgia, una ricercatrice in linguistica riguardo alla definizione, applicazione e limiti dei modelli linguistici nell’ambito dell’intelligenza artificiale. * Come definiamo una lingua, * Cosa vuol dire un modello linguistico, * Come avviene la costruzione di questi mitici modelli linguistici, * Come definiamo l'addestramento su una lingua. * E' ancora valida la definizione di pappagalli stocastici per gli LLM (Large Language Model) o c'è qualcosa che è cambiato negli ultimi anni? * Cosa è cambiato negli ultimi anni? Ascolta il podcast della trasmissione sul sito di Radio Blackout
April 3, 2025 / Pillole di Graffio
La proprietà aperta e i suoi nemic: suicidi eccellenti nella Silicon Valley
La proprietà aperta e i suoi nemici: suicidi eccellenti nella Silicon Valley Di Rattus Norvegicus Considero il recente (presunto) suicidio del programmatore indiano ventiseienne Suchir Balaji, un giovane che aveva alle spalle quattro anni di lavoro presso il centro di ricerca di OpenAI, un evento di una tale gravità da richiedere un ripensamento in merito al ruolo svolto dalla proprietà intellettuale negli ultimi quarant’anni, sia all’interno della produzione informatica e di rete sia, più in generale, nell’ambito dei complessi rapporti che questa peculiare forma di proprietà privata ha stabilito con la libertà di opinione, con il diritto di accesso all’educazione e alla formazione, con la cooperazione internazionale allo sviluppo e, per estensione, con tutti i principali pilastri del diritto nelle democrazie liberali, quelli che i paladini del libero mercato continuano a invocare nei loro discorsi pubblici sebbene nelle realtà non se ne veda più traccia da moltissimo tempo. Ian Murdock (la cooperazione) Aroon Swartz (la condivisione) Suchir Balaji (la contraddizione) Leggi l'articolo
January 18, 2025 / Pillole di Graffio
IA: il collasso, reloaded
Cassandra Crossing/ Perché un dettaglio tecnico delle false IA, per giunta di tipo matematico, dovrebbe essere conosciuto da tutti? Il collasso di un modello di LLM avviene quando un modello, addestrato sui dati generati da generazioni precedenti di modelli, inizia a perdere informazioni, particolarmente sulle code della distribuzione statistica dei dati originali, e alla fine converge verso una stima a punto singolo, con poca varianza statistica (in soldoni, fornisce sempre la stessa risposta a qualsiasi domanda). Leggi l'articolo su ZEUS News
March 8, 2024 / Pillole di Graffio