Glossario IA

Utilizzo

API

Interfaccia di Programmazione

Un'API è un modo per far comunicare tra loro software diversi. Nel mondo dell'IA, quando un'azienda come Anthropic o OpenAI offre un'API, significa che gli sviluppatori possono inviare testo al modello di IA e ricevere risposte indietro — il tutto tramite codice, senza passare da un'interfaccia di chat. È così che l'IA viene integrata in app, siti web e prodotti.

Immaginalo come : Lo sportello di un drive-through. Non entri in cucina — passi solo l'ordine allo sportello (invii una richiesta) e ti consegnano il pasto (la risposta). L'API è quello sportello.

Utilizzo

Agent

Un'IA che può agire in modo autonomo

Un Agent IA è un sistema in grado di pianificare, prendere decisioni e agire in modo autonomo per raggiungere un obiettivo — non si limita a rispondere a una singola domanda. Invece di aspettare che gli venga detto esattamente cosa fare a ogni passo, un agent può scomporre un'attività complessa, usare strumenti (come navigare sul web, scrivere codice o leggere file) e proseguire finché il lavoro non è completato. Gli agent sono costruiti sopra i grandi modelli di linguaggio, ma aggiungono un livello di autonomia e di uso di strumenti.

Immaginalo come : La differenza tra chiedere indicazioni a qualcuno (un chatbot) e ingaggiare un assistente personale che organizza tutto il tuo viaggio, prenota i voli e ti invia l'itinerario (un agent). Tu fornisci l'obiettivo, e l'agent trova i passi.

Architettura

Attention

Come l'IA decide cosa conta

L'attention è il meccanismo che permette a un modello Transformer di stabilire quali parole in una frase sono più importanti rispetto alle altre. Nella frase «Il gatto era seduto sul tappeto perché era stanco», l'attention aiuta il modello a capire che «era stanco» si riferisce al «gatto», non al «tappeto». Questa capacità di collegare parole distanti tra loro è ciò che rende i Transformer così potenti.

Immaginalo come : In una stanza affollata, riesci a concentrarti su una sola conversazione anche se tante persone parlano contemporaneamente. Il tuo cervello «presta attenzione» a ciò che è rilevante e filtra il rumore. È esattamente quello che fa il meccanismo di attention dell'IA con le parole.

Linguaggio

Context Window

Quanto l'IA può «vedere» in una volta

La context window è la quantità totale di testo che un modello di IA può tenere in considerazione durante una conversazione. Include tutto — la tua domanda, i documenti che condividi, e la risposta dell'IA stessa. Se la conversazione diventa troppo lunga, il modello inizia a «dimenticare» l'inizio.

Immaginalo come : Una lavagna in un'aula. Puoi scrivere solo un certo numero di cose prima di finire lo spazio e dover cancellare le note più vecchie per continuare a scrivere.

Hardware

CPU

Unità Centrale di Elaborazione

La CPU è il cervello principale di ogni computer. Gestisce le attività generali come far girare le tue app, navigare sul web e gestire il sistema operativo. È eccellente nel fare tante cose diverse, una dopo l'altra, molto velocemente.

Immaginalo come : Uno studente super intelligente che può risolvere qualsiasi tipo di problema — matematica, scienze, scrittura — ma li affronta uno alla volta.

Linguaggio

Embedding

Trasformare le parole in numeri

Un embedding è un modo per rappresentare una parola, una frase o un documento sotto forma di lista di numeri (un «vettore») che ne cattura il significato. Parole con significati simili finiscono per avere numeri simili. È così che l'IA capisce che «cane» e «cucciolo» sono correlati, o che «Parigi» sta alla «Francia» come «Tokyo» sta al «Giappone».

Immaginalo come : Coordinate GPS per il significato delle parole. Come le città vicine hanno coordinate simili, le parole vicine hanno sequenze di numeri simili. «Felice» e «gioioso» sono vicini, mentre «felice» e «frigorifero» sono molto distanti.

Training

Fine-Tuning

Specializzare un modello pre-addestrato

Il fine-tuning consiste nel prendere un modello di IA già addestrato su dati generali e dargli un training aggiuntivo su un argomento o un'attività specifica. Per esempio, puoi fare fine-tuning di un modello di linguaggio generico su testi medici così che diventi molto più bravo a rispondere a domande sulla salute. È più veloce ed economico che addestrare un modello da zero.

Immaginalo come : Un medico che ha già concluso gli studi di medicina (training generale) e poi fa una specializzazione in cardiologia (fine-tuning). Conosce già la medicina — ora si specializza.

Architettura

Frontier Model

Il modello più potente di una famiglia

Un frontier model indica la versione più grande e performante di una famiglia di modelli di IA — quella con il maggior numero di parametri. Per esempio, Qwen3.5-397B è il frontier model della famiglia Qwen 3.5, con 397 miliardi di parametri. A differenza delle versioni più piccole (7B, 32B, 72B), spesso sufficienti per attività semplici, il frontier model eccelle nelle attività complesse: ragionamento multi-step, analisi di documenti lunghi, generazione di codice multi-file. La maggior parte dei provider API non offre il frontier model perché richiede molte più GPU — IG1 AI mette in comune questa infrastruttura per darti accesso.

Immaginalo come : La differenza tra un'orchestra da camera e un'orchestra sinfonica completa. Il quartetto d'archi suona bene i brani semplici, ma per una sinfonia di Mahler con tutta la sua complessità servono tutti e 100 i musicisti.

Hardware

GPU

Unità di Elaborazione Grafica

La GPU è nata originariamente per renderizzare la grafica dei videogiochi, ma si è rivelata incredibilmente efficace anche per l'IA. A differenza della CPU che elabora le attività una alla volta, la GPU può eseguire migliaia di piccoli calcoli contemporaneamente — esattamente ciò di cui i modelli di IA hanno bisogno.

Immaginalo come : Invece di un solo studente geniale, immagina una classe di 1.000 studenti che possono risolvere ciascuno un semplice problema di matematica esattamente nello stesso momento. Insieme finiscono molto più in fretta.

Sicurezza

Guardrails

Limiti di sicurezza sul comportamento dell'IA

I guardrails sono le regole e le restrizioni integrate nei sistemi di IA per impedire loro di produrre contenuti dannosi, pericolosi o inappropriati. Vengono applicati durante e dopo il training per garantire che l'IA rifiuti di aiutare in attività illegali, non generi discorsi d'odio e rimanga utile e onesta.

Immaginalo come : Le sponde su una pista da bowling. Tengono la palla in pista per evitare i canaloni. I guardrails impediscono all'IA di sbandare in zone pericolose.

Sicurezza

Hallucination

Quando l'IA si inventa le cose

Un'allucinazione si verifica quando un modello di IA genera con sicurezza un'informazione che sembra corretta ma che in realtà è falsa o inventata. Succede perché il modello prevede ciò che «suona bene» basandosi su pattern, non perché «sa» davvero dei fatti. Può inventare articoli di ricerca falsi, statistiche fabbricate o persone inesistenti.

Immaginalo come : Uno studente che non ha studiato per un esame ma scrive molto bene. Compila un tema convincente che sembra serio — ma i fatti sono completamente inventati.

Utilizzo

Inference

Quando l'IA ti risponde davvero

L'inferenza è ciò che accade ogni volta che fai una domanda a un'IA e questa genera una risposta. Il modello usa tutto ciò che ha imparato durante il training per prevedere la migliore risposta, un token alla volta. Per questo vedi spesso le risposte dell'IA comparire parola dopo parola — sta letteralmente generando ogni pezzo uno dopo l'altro.

Immaginalo come : Sostenere l'esame dopo mesi di studio. Non stai più imparando — stai applicando ciò che già sai per rispondere a nuove domande.

Hardware

Latency

La velocità di risposta dell'IA

La latenza è il ritardo tra il momento in cui invii una richiesta a un'IA e il momento in cui inizi a ricevere una risposta. Meno latenza = risposta più veloce. Dipende dalla dimensione del modello, dall'hardware su cui gira, dalla distanza dal server e dal numero di persone che lo usano contemporaneamente.

Immaginalo come : Il tempo di attesa in un bar. A volte hai il tuo caffè in 30 secondi, a volte c'è una lunga fila e ci vogliono 5 minuti. Il caffè è lo stesso — l'attesa è la latenza.

Architettura

LLM

Large Language Model

Un LLM è un modello di IA molto grande (di solito basato sull'architettura Transformer) che è stato addestrato su enormi quantità di testo per comprendere e generare il linguaggio umano. «Large» si riferisce sia alla quantità di dati di training sia al numero di parametri. Modelli come Claude, GPT-4 e Llama sono tutti LLM.

Immaginalo come : Uno studente che ha letto tutto Internet e che ora può scrivere temi, rispondere a domande, riassumere articoli, scrivere codice e persino fare battute — tutto grazie ai pattern che ha individuato leggendo.

Architettura

MCP

Model Context Protocol

MCP è uno standard aperto (creato da Anthropic) che permette ai modelli di IA di connettersi a strumenti esterni e fonti di dati in modo universale. Invece di costruire un'integrazione su misura per ogni strumento (Google Drive, Slack, un database, ecc.), MCP fornisce un'unica «presa» standard che funziona ovunque. Qualsiasi IA compatibile con MCP può parlare con qualsiasi strumento compatibile con MCP — senza codice specifico ogni volta.

Immaginalo come : L'USB-C per l'IA. Prima dell'USB-C, ogni telefono aveva un caricatore diverso. MCP è il connettore universale — non appena uno strumento parla MCP, qualsiasi IA può usarlo, come qualsiasi dispositivo può usare un cavo USB-C.

Training

Model Weights

Il sapere appreso dall'IA, sotto forma di file

I weights (pesi) sono i numeri che compongono un modello di IA addestrato — sono il risultato di tutto quel training. Quando «scarichi un modello», stai scaricando i suoi weights. Questi file possono essere enormi (decine o centinaia di gigabyte) e rappresentano tutto ciò che il modello ha imparato.

Immaginalo come : Se il training dell'IA fossero anni di scuola, i weights sono il diploma + tutto ciò che è nel cervello dello studente, salvato in un file. Puoi copiare quel file e dare lo stesso «sapere» a un altro computer.

Architettura

Neural Network

La struttura che fa «ragionare» l'IA

Una rete neurale è un sistema matematico ispirato al cervello umano. È composta da strati di «neuroni» connessi (piccole funzioni matematiche) che si scambiano informazioni. I dati entrano da un lato, vengono elaborati attraverso molti strati e un risultato esce dall'altro. Tutta l'IA moderna — riconoscimento di immagini, modelli di linguaggio, auto autonome — è costruita su reti neurali.

Immaginalo come : Il gioco del telefono senza fili. La persona A dice qualcosa a 3 persone, che lo ripetono ciascuna ad altre 3, e così via. Alla fine, il messaggio è stato trasformato attraverso molti passaggi per dare una risposta finale.

Utilizzo

OpenClaw

Un agent IA che controlla il tuo computer

OpenClaw (anche chiamato Claw) è un assistente IA gratuito e open source che vive sul tuo computer e può effettivamente vedere il tuo schermo, usare le tue applicazioni e fare lavoro vero per te. A differenza di un chatbot che si limita a rispondere a domande, OpenClaw è un agent autonomo — può cliccare su pulsanti, compilare moduli, navigare sul web, scrivere codice, inviare messaggi e automatizzare interi workflow attraverso le tue app. È uno dei progetti open source a crescita più rapida della storia, con oltre 80K stelle su GitHub.

Immaginalo come : Avere un tirocinante super intelligente seduto davanti al tuo computer 24 ore su 24. Gli dici «prenotami un volo per Parigi» o «pulisci questo foglio di calcolo», e lui lo fa davvero — muove il mouse, digita sulla tastiera, passa da un'app all'altra — tutto da solo.

Utilizzo

Open Source vs. Closed Source

Chi può vedere il codice

Un modello di IA open source (come Llama di Meta o Mistral) condivide pubblicamente il proprio codice e i propri weights — chiunque può scaricarlo, modificarlo ed eseguirlo. Un modello closed source (come GPT-4 o Claude) viene mantenuto privato — puoi usarlo solo tramite l'API o l'app dell'azienda. L'open source ti dà più controllo e privacy; il closed source offre spesso prestazioni migliori e una messa in opera più semplice.

Immaginalo come : Una ricetta open source vs. la salsa segreta di un ristorante. Con la ricetta puoi cucinare da te, cambiare gli ingredienti e condividerla con gli amici. Con la salsa segreta la ordini e te la godi — ma non puoi prepararla a casa.

Training

Open Weights

Quando un modello condivide il cervello, ma non la ricetta

Open weights significa che un'azienda pubblica i weights addestrati del modello (il risultato finale del training) così che chiunque possa scaricarlo e usarlo, ma senza condividere il codice di training, i dati di training o l'intero processo. È diverso dal vero open source, dove tutto viene condiviso. Modelli come Llama di Meta o Mistral sono open weights — puoi usarli liberamente, ma non puoi riprodurre esattamente come sono stati creati.

Immaginalo come : Uno chef che ti dà la torta finita così che tu possa mangiarla, condividerla e decorarla come vuoi — ma senza darti la ricetta, le impostazioni del forno o la lista degli ingredienti. Hai il risultato, non il processo.

Training

Parameters

Le manopole di regolazione interne dell'IA

I parametri sono i numeri all'interno di un modello di IA che vengono regolati durante il training. Un modello come GPT-4 possiede centinaia di miliardi di parametri. Più parametri significa generalmente che il modello può imparare pattern più complessi e dare risposte migliori — ma ha anche bisogno di più potenza di calcolo per funzionare. Per esempio, un frontier model come Qwen3.5-397B (397 miliardi di parametri) supera nettamente le sue versioni ridotte (7B, 32B) sul ragionamento complesso e sull'analisi di documenti lunghi.

Immaginalo come : Le manopole di un'enorme console di mixaggio in studio di registrazione. Ogni manopola controlla una piccola parte del suono, e bisogna regolarle tutte alla perfezione per ottenere la musica giusta. Più manopole = più sfumature.

Utilizzo

Prompt

Quello che dici all'IA

Un prompt è il testo che digiti per dire all'IA cosa vuoi. Può essere una domanda, un'istruzione, o persino un intero documento su cui vuoi che l'IA lavori. Più il tuo prompt è buono e chiaro, migliore sarà la risposta dell'IA — ecco perché il «prompt engineering» è diventato una competenza importante.

Immaginalo come : Ordinare al ristorante. «Dammi qualcosa di buono» può funzionare, ma «vorrei una bistecca al sangue con patatine fritte senza cipolla» ti dà esattamente quello che vuoi.

Training

Quantization

Rendere i modelli di IA più piccoli e veloci

La quantization è una tecnica che riduce la dimensione di un modello di IA diminuendo la precisione dei suoi numeri. Invece di memorizzare ogni parametro come un numero molto preciso a 32 bit o 16 bit, lo si arrotonda a 8 bit o anche a 4 bit. Il modello diventa molto più piccolo (da 2x a 8x) e gira più in fretta, con solo un leggero calo di qualità. È ciò che rende possibile far girare modelli di IA potenti su un laptop o un telefono invece che dover ricorrere a un enorme server.

Immaginalo come : Comprimere una foto RAW in JPEG. Il file diventa molto più piccolo, si carica molto più in fretta e per la maggior parte delle persone ha lo stesso aspetto — noti una lieve perdita di qualità solo se zoomi molto.

Architettura

RAG

Retrieval-Augmented Generation

Il RAG è una tecnica in cui l'IA prima cerca in un database di documenti per trovare informazioni rilevanti, e poi usa quelle informazioni per generare una risposta più precisa. Invece di affidarsi solo a ciò che ha memorizzato durante il training, l'IA può consultare fonti reali e aggiornate. Questo riduce notevolmente le allucinazioni.

Immaginalo come : Invece di rispondere a un test solo a memoria, il professore ti lascia portare gli appunti. Puoi verificare la vera risposta prima di scriverla, quindi sei molto più preciso.

Sicurezza

Sovereign AI

Un'IA che possiedi e controlli interamente

La Sovereign AI consiste nel far girare la tua infrastruttura IA sui tuoi server o nei tuoi data center, invece di dipendere dal cloud di una grande azienda tech. In questo modo i tuoi dati non lasciano mai il tuo controllo, non dipendi dalla piattaforma di nessuno, e rispetti le normative locali. È particolarmente importante per governi, banche e aziende sanitarie.

Immaginalo come : La differenza tra affittare un appartamento ed essere proprietario di casa tua. Quando è casa tua, nessuno può cambiare le regole, alzare l'affitto o frugare nelle tue cose. Casa tua, regole tue.

Utilizzo

Temperature

Il cursore creatività vs. prevedibilità dell'IA

La temperature è un'impostazione (di solito tra 0 e 1) che controlla quanto le risposte dell'IA siano «casuali». Una temperature bassa (come 0,1) rende il modello molto prevedibile e fattuale — sceglie ogni volta la parola successiva più probabile. Una temperature alta (come 0,9) lo rende più creativo e sorprendente, ma anche più incline a fare errori.

Immaginalo come : Una playlist musicale. Temperature 0 riproduce sempre la tua canzone n°1, la più ascoltata. Temperature 1 mette tutto in modalità casuale — potresti scoprire qualcosa di geniale o sentire qualcosa di strano.

Linguaggio

Token

Il mattoncino base del testo IA

Un token è un piccolo pezzo di testo che un modello di IA legge e genera. Può essere una parola intera come «ciao», un frammento come «in» + «credi» + «bile», o persino un singolo carattere. Quando si dice che un modello gestisce «128K token», significa che può leggere e ricordare circa 100.000 parole di testo in una volta. I token sono anche il modo in cui le aziende di IA ti fatturano — paghi per token inviato (input) e per token generato (output). Quindi più la tua domanda è lunga e più lunga è la risposta dell'IA, più costa.

Immaginalo come : Mattoncini LEGO per il linguaggio — e ogni mattoncino ha un piccolo cartellino del prezzo. Le parole vengono spezzate in piccoli pezzi e l'IA li mette insieme per formare frasi. Più mattoncini usi (conversazioni lunghe), più il conto sale — come gli SMS che una volta si pagavano a unità.

Hardware

TPU

Tensor Processing Unit

Una TPU è un chip progettato da Google specificamente per i carichi di lavoro di IA. Mentre le GPU sono processori paralleli polivalenti riadattati per l'IA, le TPU sono costruite da zero per fare una cosa sola, estremamente bene: i calcoli tensoriali che alimentano le reti neurali. Vengono usate nei data center di Google per addestrare e far girare modelli come Gemini. Non puoi comprare una TPU — affitti l'accesso tramite Google Cloud.

Immaginalo come : Se la GPU è un coltellino svizzero (buono per tante cose), la TPU è un bisturi tagliato al laser — progettato espressamente per un solo lavoro e incredibilmente efficace. Ma puoi usarlo solo nell'ospedale di Google.

Training

Come impara un'IA

Il training è il processo che consiste nell'insegnare a un modello di IA mostrandogli enormi quantità di dati — miliardi di pagine di testo, codice, e altro ancora. Durante il training, il modello regola milioni (o miliardi) di impostazioni interne chiamate «parametri» finché non diventa bravo a prevedere ciò che viene dopo in una frase. Questo processo richiede un'enorme potenza di calcolo e può richiedere settimane o mesi.

Immaginalo come : Studiare per il più grande esame di sempre. L'IA legge miliardi di pagine e si allena finché non diventa davvero brava a comprendere e generare linguaggio. Una volta addestrata, non ha più bisogno di studiare — usa solo quello che ha imparato.

Architettura

Transformer

L'architettura dietro l'IA moderna

Il Transformer è il tipo di architettura di rete neurale che fa girare praticamente tutti i moderni modelli di linguaggio (ChatGPT, Claude, Gemini, ecc.). Inventato da Google nel 2017, la sua innovazione chiave è l'«attention» — la capacità di guardare tutte le parole di una frase contemporaneamente e di determinare quali sono più rilevanti tra loro, invece di leggerle una alla volta.

Immaginalo come : Invece di leggere un libro dalla pagina 1 alla 500 in ordine, immagina di poter vedere istantaneamente tutte le pagine contemporaneamente ed evidenziare le connessioni tra le idee in tutto il libro. È ciò che fa l'attention.

Hardware

VRAM

Video RAM

La VRAM è la memoria integrata direttamente nella GPU. Quando un modello di IA gira, ha bisogno di tenere in memoria contemporaneamente un'enorme quantità di dati. Più VRAM ha la tua GPU, più grande è il modello di IA che può eseguire. Per questo le GPU di fascia alta con 80 GB o più di VRAM sono così preziose per l'IA.

Immaginalo come : La dimensione della tua scrivania. Una scrivania più grande ti permette di stendere più libri e appunti contemporaneamente senza dover costantemente riporre cose per tirarne fuori altre.

API

Agent

Attention

Context Window

CPU

Embedding

Fine-Tuning

Frontier Model

GPU

Guardrails

Hallucination

Inference

Latency

LLM

MCP

Model Weights

Neural Network

OpenClaw

Open Source vs. Closed Source

Open Weights

Parameters

Prompt

Quantization

RAG

Sovereign AI

Temperature

Token

TPU

Training

Transformer

VRAM

Vuoi vedere l'IA in azione?