Interfaccia di Programmazione
Un'API è un modo per far comunicare tra loro software diversi. Nel mondo dell'IA, quando un'azienda come Anthropic o OpenAI offre un'API, significa che gli sviluppatori possono inviare testo al modello di IA e ricevere risposte indietro — il tutto tramite codice, senza passare da un'interfaccia di chat. È così che l'IA viene integrata in app, siti web e prodotti.
Un'IA che può agire in modo autonomo
Un Agent IA è un sistema in grado di pianificare, prendere decisioni e agire in modo autonomo per raggiungere un obiettivo — non si limita a rispondere a una singola domanda. Invece di aspettare che gli venga detto esattamente cosa fare a ogni passo, un agent può scomporre un'attività complessa, usare strumenti (come navigare sul web, scrivere codice o leggere file) e proseguire finché il lavoro non è completato. Gli agent sono costruiti sopra i grandi modelli di linguaggio, ma aggiungono un livello di autonomia e di uso di strumenti.
Come l'IA decide cosa conta
L'attention è il meccanismo che permette a un modello Transformer di stabilire quali parole in una frase sono più importanti rispetto alle altre. Nella frase «Il gatto era seduto sul tappeto perché era stanco», l'attention aiuta il modello a capire che «era stanco» si riferisce al «gatto», non al «tappeto». Questa capacità di collegare parole distanti tra loro è ciò che rende i Transformer così potenti.
Quanto l'IA può «vedere» in una volta
La context window è la quantità totale di testo che un modello di IA può tenere in considerazione durante una conversazione. Include tutto — la tua domanda, i documenti che condividi, e la risposta dell'IA stessa. Se la conversazione diventa troppo lunga, il modello inizia a «dimenticare» l'inizio.
Unità Centrale di Elaborazione
La CPU è il cervello principale di ogni computer. Gestisce le attività generali come far girare le tue app, navigare sul web e gestire il sistema operativo. È eccellente nel fare tante cose diverse, una dopo l'altra, molto velocemente.
Trasformare le parole in numeri
Un embedding è un modo per rappresentare una parola, una frase o un documento sotto forma di lista di numeri (un «vettore») che ne cattura il significato. Parole con significati simili finiscono per avere numeri simili. È così che l'IA capisce che «cane» e «cucciolo» sono correlati, o che «Parigi» sta alla «Francia» come «Tokyo» sta al «Giappone».
Specializzare un modello pre-addestrato
Il fine-tuning consiste nel prendere un modello di IA già addestrato su dati generali e dargli un training aggiuntivo su un argomento o un'attività specifica. Per esempio, puoi fare fine-tuning di un modello di linguaggio generico su testi medici così che diventi molto più bravo a rispondere a domande sulla salute. È più veloce ed economico che addestrare un modello da zero.
Il modello più potente di una famiglia
Un frontier model indica la versione più grande e performante di una famiglia di modelli di IA — quella con il maggior numero di parametri. Per esempio, Qwen3.5-397B è il frontier model della famiglia Qwen 3.5, con 397 miliardi di parametri. A differenza delle versioni più piccole (7B, 32B, 72B), spesso sufficienti per attività semplici, il frontier model eccelle nelle attività complesse: ragionamento multi-step, analisi di documenti lunghi, generazione di codice multi-file. La maggior parte dei provider API non offre il frontier model perché richiede molte più GPU — IG1 AI mette in comune questa infrastruttura per darti accesso.
Unità di Elaborazione Grafica
La GPU è nata originariamente per renderizzare la grafica dei videogiochi, ma si è rivelata incredibilmente efficace anche per l'IA. A differenza della CPU che elabora le attività una alla volta, la GPU può eseguire migliaia di piccoli calcoli contemporaneamente — esattamente ciò di cui i modelli di IA hanno bisogno.
Limiti di sicurezza sul comportamento dell'IA
I guardrails sono le regole e le restrizioni integrate nei sistemi di IA per impedire loro di produrre contenuti dannosi, pericolosi o inappropriati. Vengono applicati durante e dopo il training per garantire che l'IA rifiuti di aiutare in attività illegali, non generi discorsi d'odio e rimanga utile e onesta.
Quando l'IA si inventa le cose
Un'allucinazione si verifica quando un modello di IA genera con sicurezza un'informazione che sembra corretta ma che in realtà è falsa o inventata. Succede perché il modello prevede ciò che «suona bene» basandosi su pattern, non perché «sa» davvero dei fatti. Può inventare articoli di ricerca falsi, statistiche fabbricate o persone inesistenti.
Quando l'IA ti risponde davvero
L'inferenza è ciò che accade ogni volta che fai una domanda a un'IA e questa genera una risposta. Il modello usa tutto ciò che ha imparato durante il training per prevedere la migliore risposta, un token alla volta. Per questo vedi spesso le risposte dell'IA comparire parola dopo parola — sta letteralmente generando ogni pezzo uno dopo l'altro.
La velocità di risposta dell'IA
La latenza è il ritardo tra il momento in cui invii una richiesta a un'IA e il momento in cui inizi a ricevere una risposta. Meno latenza = risposta più veloce. Dipende dalla dimensione del modello, dall'hardware su cui gira, dalla distanza dal server e dal numero di persone che lo usano contemporaneamente.
Large Language Model
Un LLM è un modello di IA molto grande (di solito basato sull'architettura Transformer) che è stato addestrato su enormi quantità di testo per comprendere e generare il linguaggio umano. «Large» si riferisce sia alla quantità di dati di training sia al numero di parametri. Modelli come Claude, GPT-4 e Llama sono tutti LLM.
Model Context Protocol
MCP è uno standard aperto (creato da Anthropic) che permette ai modelli di IA di connettersi a strumenti esterni e fonti di dati in modo universale. Invece di costruire un'integrazione su misura per ogni strumento (Google Drive, Slack, un database, ecc.), MCP fornisce un'unica «presa» standard che funziona ovunque. Qualsiasi IA compatibile con MCP può parlare con qualsiasi strumento compatibile con MCP — senza codice specifico ogni volta.
Il sapere appreso dall'IA, sotto forma di file
I weights (pesi) sono i numeri che compongono un modello di IA addestrato — sono il risultato di tutto quel training. Quando «scarichi un modello», stai scaricando i suoi weights. Questi file possono essere enormi (decine o centinaia di gigabyte) e rappresentano tutto ciò che il modello ha imparato.
La struttura che fa «ragionare» l'IA
Una rete neurale è un sistema matematico ispirato al cervello umano. È composta da strati di «neuroni» connessi (piccole funzioni matematiche) che si scambiano informazioni. I dati entrano da un lato, vengono elaborati attraverso molti strati e un risultato esce dall'altro. Tutta l'IA moderna — riconoscimento di immagini, modelli di linguaggio, auto autonome — è costruita su reti neurali.
Un agent IA che controlla il tuo computer
OpenClaw (anche chiamato Claw) è un assistente IA gratuito e open source che vive sul tuo computer e può effettivamente vedere il tuo schermo, usare le tue applicazioni e fare lavoro vero per te. A differenza di un chatbot che si limita a rispondere a domande, OpenClaw è un agent autonomo — può cliccare su pulsanti, compilare moduli, navigare sul web, scrivere codice, inviare messaggi e automatizzare interi workflow attraverso le tue app. È uno dei progetti open source a crescita più rapida della storia, con oltre 80K stelle su GitHub.
Chi può vedere il codice
Un modello di IA open source (come Llama di Meta o Mistral) condivide pubblicamente il proprio codice e i propri weights — chiunque può scaricarlo, modificarlo ed eseguirlo. Un modello closed source (come GPT-4 o Claude) viene mantenuto privato — puoi usarlo solo tramite l'API o l'app dell'azienda. L'open source ti dà più controllo e privacy; il closed source offre spesso prestazioni migliori e una messa in opera più semplice.
Quando un modello condivide il cervello, ma non la ricetta
Open weights significa che un'azienda pubblica i weights addestrati del modello (il risultato finale del training) così che chiunque possa scaricarlo e usarlo, ma senza condividere il codice di training, i dati di training o l'intero processo. È diverso dal vero open source, dove tutto viene condiviso. Modelli come Llama di Meta o Mistral sono open weights — puoi usarli liberamente, ma non puoi riprodurre esattamente come sono stati creati.
Le manopole di regolazione interne dell'IA
I parametri sono i numeri all'interno di un modello di IA che vengono regolati durante il training. Un modello come GPT-4 possiede centinaia di miliardi di parametri. Più parametri significa generalmente che il modello può imparare pattern più complessi e dare risposte migliori — ma ha anche bisogno di più potenza di calcolo per funzionare. Per esempio, un frontier model come Qwen3.5-397B (397 miliardi di parametri) supera nettamente le sue versioni ridotte (7B, 32B) sul ragionamento complesso e sull'analisi di documenti lunghi.
Quello che dici all'IA
Un prompt è il testo che digiti per dire all'IA cosa vuoi. Può essere una domanda, un'istruzione, o persino un intero documento su cui vuoi che l'IA lavori. Più il tuo prompt è buono e chiaro, migliore sarà la risposta dell'IA — ecco perché il «prompt engineering» è diventato una competenza importante.
Rendere i modelli di IA più piccoli e veloci
La quantization è una tecnica che riduce la dimensione di un modello di IA diminuendo la precisione dei suoi numeri. Invece di memorizzare ogni parametro come un numero molto preciso a 32 bit o 16 bit, lo si arrotonda a 8 bit o anche a 4 bit. Il modello diventa molto più piccolo (da 2x a 8x) e gira più in fretta, con solo un leggero calo di qualità. È ciò che rende possibile far girare modelli di IA potenti su un laptop o un telefono invece che dover ricorrere a un enorme server.
Retrieval-Augmented Generation
Il RAG è una tecnica in cui l'IA prima cerca in un database di documenti per trovare informazioni rilevanti, e poi usa quelle informazioni per generare una risposta più precisa. Invece di affidarsi solo a ciò che ha memorizzato durante il training, l'IA può consultare fonti reali e aggiornate. Questo riduce notevolmente le allucinazioni.
Un'IA che possiedi e controlli interamente
La Sovereign AI consiste nel far girare la tua infrastruttura IA sui tuoi server o nei tuoi data center, invece di dipendere dal cloud di una grande azienda tech. In questo modo i tuoi dati non lasciano mai il tuo controllo, non dipendi dalla piattaforma di nessuno, e rispetti le normative locali. È particolarmente importante per governi, banche e aziende sanitarie.
Il cursore creatività vs. prevedibilità dell'IA
La temperature è un'impostazione (di solito tra 0 e 1) che controlla quanto le risposte dell'IA siano «casuali». Una temperature bassa (come 0,1) rende il modello molto prevedibile e fattuale — sceglie ogni volta la parola successiva più probabile. Una temperature alta (come 0,9) lo rende più creativo e sorprendente, ma anche più incline a fare errori.
Il mattoncino base del testo IA
Un token è un piccolo pezzo di testo che un modello di IA legge e genera. Può essere una parola intera come «ciao», un frammento come «in» + «credi» + «bile», o persino un singolo carattere. Quando si dice che un modello gestisce «128K token», significa che può leggere e ricordare circa 100.000 parole di testo in una volta. I token sono anche il modo in cui le aziende di IA ti fatturano — paghi per token inviato (input) e per token generato (output). Quindi più la tua domanda è lunga e più lunga è la risposta dell'IA, più costa.
Tensor Processing Unit
Una TPU è un chip progettato da Google specificamente per i carichi di lavoro di IA. Mentre le GPU sono processori paralleli polivalenti riadattati per l'IA, le TPU sono costruite da zero per fare una cosa sola, estremamente bene: i calcoli tensoriali che alimentano le reti neurali. Vengono usate nei data center di Google per addestrare e far girare modelli come Gemini. Non puoi comprare una TPU — affitti l'accesso tramite Google Cloud.
Come impara un'IA
Il training è il processo che consiste nell'insegnare a un modello di IA mostrandogli enormi quantità di dati — miliardi di pagine di testo, codice, e altro ancora. Durante il training, il modello regola milioni (o miliardi) di impostazioni interne chiamate «parametri» finché non diventa bravo a prevedere ciò che viene dopo in una frase. Questo processo richiede un'enorme potenza di calcolo e può richiedere settimane o mesi.
L'architettura dietro l'IA moderna
Il Transformer è il tipo di architettura di rete neurale che fa girare praticamente tutti i moderni modelli di linguaggio (ChatGPT, Claude, Gemini, ecc.). Inventato da Google nel 2017, la sua innovazione chiave è l'«attention» — la capacità di guardare tutte le parole di una frase contemporaneamente e di determinare quali sono più rilevanti tra loro, invece di leggerle una alla volta.
Video RAM
La VRAM è la memoria integrata direttamente nella GPU. Quando un modello di IA gira, ha bisogno di tenere in memoria contemporaneamente un'enorme quantità di dati. Più VRAM ha la tua GPU, più grande è il modello di IA che può eseguire. Per questo le GPU di fascia alta con 80 GB o più di VRAM sono così preziose per l'IA.
Scopri come IG1 costruisce infrastruttura IA sovrana e soluzioni IA su misura per aziende di tutto il mondo.