Scopriamo insieme che cosa sono i modelli linguistici di grandi dimensioni (LLM) e perché rappresentano una svolta per l’intelligenza artificiale e la didattica. In questo articolo spieghiamo in modo chiaro e accessibile come funzionano gli LLM, le reti neurali, il machine learning e il deep learning.

I modelli linguistici di grandi dimensioni, spesso indicati con la sigla inglese LLM (da Large Language Models) sono reti neurali profonde che hanno consentito un enorme passo in avanti nell’elaborazione del linguaggio naturale tramite computer (NLP, Natural Language Processing).

Il termine “Large” nella sigla LLM indica che il modello è caratterizzato da un numero molto elevato di parametri ed è stato addestrato su un dataset, (cioè un insieme di dati) molto ampio.

Le principali applicazioni degli LLM sono:

chatbot e assistenti virtuali;
traduzione automatica;
scrittura di testi;
scrittura di codice informatico;
riassunto e analisi di documenti;
ricerca di informazioni.

Le reti neurali

Una rete neurale (artificiale) è un modello matematico ispirato al funzionamento del cervello umano, composto da unità chiamate neuroni artificiali che elaborano informazioni.

Esempio di rete neurale artificiale — Una possibile neurale artificiale (semplificata)

Un neurone artificiale esegue tre compiti:

riceve degli input (es. la luminosità da un sensore);
“pesa” gli input (ogni input viene moltiplicato per un numero chiamato peso);
decide se “attivarsi”. La somma degli input pesati passa attraverso una funzione di attivazione, che decide l’output.

Neurone artificiale con tre input — Un neurone artificiale con tre input

I parametri delle reti neurali

Nei modelli di intelligenza artificiale, i parametri sono i valori numerici interni della rete neurale che determinano come il modello elabora le informazioni e prende decisioni. In pratica, essi rappresentano ciò che il modello ha “imparato” durante la fase di addestramento: regolano il peso delle connessioni tra i neuroni artificiali e stabiliscono come un input (per esempio una frase) viene trasformato in un output (per esempio una risposta).

Gli LLM hanno spesso decine o anche centinaia di miliardi di parametri. I parametri sono tutti i numeri che il modello può modificare durante l’addestramento.
I pesi sono il tipo principale di questi parametri: indicano quanto è forte una connessione tra due neuroni della rete.

I pesi sono come manopole che il computer può regolare per decidere quanto una parola è collegata alle altre.
Durante l’addestramento, il modello cambia questi valori per imparare a prevedere la parola successiva in una frase.

Per esempio, se legge la frase “Il gatto beve il…”, il modello impara che la parola più probabile è “latte”.

Questo metodo funziona bene perché il linguaggio è fatto di sequenze di parole: ogni parola dipende da quelle che vengono prima. In questo modo il modello impara il significato delle frasi, la grammatica e le relazioni tra le parole, anche se il compito di partenza è solo indovinare la parola successiva.

Nota bene: benché un moderno LLM sia in grado di interpretare e anche generare il linguaggio umano, la coerenza che dimostra non va confusa con la coscienza e la comprensione umana.

Il transformer

Gli LLM usano solitamente una struttura software chiamata transformer, che permette al computer di capire quali parti di una frase sono più importanti quando deve prevedere la parola successiva.

In questo modo, il modello non guarda solo le parole una alla volta, ma considera il contesto e il significato dell’intera frase, riuscendo a cogliere anche le sfumature del linguaggio umano.

Poi questo software viene seguito su CPU, GPU o chip specializzati (come la TPU), che rappresentano l’hardware.

Nel dettaglio:

la CPU (Central Processing Unit) è il microprocessore “normale”, non progettato per eseguire molteplici calcoli in parallelo;
la GPU (Graphics Processing Unit o “scheda grafica”) è nata per i videogiochi, ma è perfetta per l’AI perché può eseguire migliaia di calcoli in parallelo (es. per la grafica 3D in tempo reale);
la TPU (Tensor Processing Unit) è un chip specializzato di Google per l’intelligenza artificiale.

Poiché questi modelli sono in grado di scrivere testi, vengono considerati una forma di intelligenza artificiale generativa, indicata anche come “GenAI”.

Un transformer si può scomporre in due parti, encoder e decoder.

Encoder

Legge il testo e lo trasforma in numeri (vettori) che rappresentano il significato delle parole nel loro contesto.

Esempio: “Il gatto dorme sul divano”.

L’encoder capisce che: “gatto” è l’animale, “dorme” è l’azione, “divano” è l’oggetto e che sono collegati tra loro.

Decoder

Prende queste informazioni numeriche e le usa per produrre una risposta: una traduzione, una frase, una continuazione del testo, ecc.

Un aspetto speciale del transformer è la self-attention (auto-attenzione).

In pratica significa che ogni parola guarda le altre parole per capire quali sono più importanti.

Esempio: “Matilde ha dato il suo libro ad Alberto perché era gentile”.

Il modello usa la self-attention per capire che “era gentile” si riferisce a Matilde, non ad Alberto.

Questo gli permette di capire frasi lunghe, collegare parole lontane tra loro, mantenere il senso del discorso.

Grazie alla self-attention, il transformer capisce il contesto e coglie il significato, riuscendo a produrre risposte coerenti e sensate.

Machine learning (apprendimento automatico)

Il machine learning è il ramo dell’intelligenza artificiale che studia e sviluppa algoritmi capaci di apprendere dai dati, permettendo ai sistemi di IA di migliorare le proprie prestazioni senza essere esplicitamente programmati.

In questo campo si progettano programmi capaci di imparare dai dati e di fare previsioni o prendere decisioni senza dover essere programmati passo per passo per ogni situazione.

Questi algoritmi hanno in gran parte sostituito quelli basati sui “sistemi esperti”.

I sistemi esperti (anni ’70–’90) funzionavano con regole del tipo IF → THEN tramite conoscenza inserita manualmente da esperti umani.

Per esempio: IF febbre AND tosse → possibile influenza. Erano, insomma basati sulla logica. Ma il mondo reale è spesso ambiguo…

Come si passa da un sistema esperto al machine learning?

Facciamo un esempio. Un tempo, i programmi anti-spam funzionavano con regole fisse, quali:

se l’email contiene la parola “gratis”, allora è spam;
se l’email contiene “vinci subito”, allora è spam;
ecc.

I risultati, però, non erano soddisfacenti, poiché gli spammer cambiavano continuamente termini per aggirare tali software.

Con il machine learning si forniscono al sistema migliaia, milioni di email già classificate (spam / non spam). Il programma analizza i testi e scopre da solo quali parole, quali frasi e quali schemi compaiono più spesso nelle email di spam.
Quando arriva una nuova email, il sistema la confronta con quello che ha imparato e decide se è spam o posta normale.

Deep learning (apprendimento profondo)

Il deep learning è una parte del machine learning che utilizza reti neurali con tre o più strati per riconoscere schemi complessi e astrazioni nei dati.

A differenza del deep learning, nel machine learning tradizionale le caratteristiche importanti dei dati (feature) devono essere scelte a mano da esperti umani.

Questo significa che le persone devono decidere quali informazioni sono più utili per permettere al modello di funzionare bene.

Nel deep learning il computer impara da solo quali parti dei dati sono importanti. Nel machine learning tradizionale, invece, è l’uomo che deve dire al computer quali caratteristiche guardare.

Per esempio:

per riconoscere un volto, il ML tradizionale usa: distanza tra gli occhi, forma del naso…;
il deep learning impara queste cose da solo guardando tante immagini.

È possibile scrivere un proprio LLM?

Da un punto di vista teorico, sì. Poi ovviamente ci sono costi da sostenere, legati soprattutto ai computer necessari e al costo dell’energia per farli funzionare. Possiamo così riassumere le azioni da intraprendere:

scegliere un’architettura (di solito un transformer);
fornire dei dati testuali;
addestrare una rete neurale perché impari a prevedere le parole.

Oggi la maggior parte dei modelli linguistici di grandi dimensioni è realizzata utilizzando PyTorch, un framework di deep learning open source basato su software usato per creare reti neurali.

Si ritiene che gli LLM sviluppati per ambiti specifici, per esempio BloombergGPT, pensato per il settore finanziario, possano ottenere risultati migliori rispetto ai modelli generici.

Come viene creato un LLM

Possiamo distinguere tra due fasi principali: pre-training e fine-tuning. Il pre-training insegna al modello il linguaggio in generale, mentre il fine-tuning lo adatta a compiti specifici.

Pre-training (pre-addestramento)

In questa prima fase il modello viene addestrato su enormi quantità di testo non etichettato (raw text).

L’obiettivo è imparare la struttura del linguaggio, prevedendo la parola successiva in una frase.

Questo processo usa un apprendimento auto-supervisionato, in cui le etichette sono generate automaticamente dai dati stessi.

Il risultato è un modello base (foundation model) capace di completare testi e di apprendere nuovi compiti con pochi esempi (few-shot learning).

Fine-tuning (messa a punto)

Dopo il pre-training, il modello viene ulteriormente addestrato su dati etichettati per renderlo più utile e specializzato.

I due tipi principali sono:

Instruction fine-tuning: il modello impara da coppie istruzione-risposta (es. una frase da tradurre + la traduzione corretta).
Classification fine-tuning: il modello impara ad associare testi a etichette (es. email → “spam” o “non spam”).

I modelli linguistici più diffusi vengono addestrati su enormi quantità di testi provenienti da fonti molto diverse (web, libri, Wikipedia, ecc.), per un totale di centinaia di miliardi di token (unità di testo simili a parole e punteggiatura).

L’articolo Che cosa sono i modelli linguistici di grandi dimensioni proviene da Missione Insegnante.