Glosario de IA

Uso

API

Interfaz de Programación de Aplicaciones

Una API es una forma de que el software se comunique entre sí. En el mundo de la IA, cuando una empresa como Anthropic u OpenAI ofrece una API, significa que las personas desarrolladoras pueden enviar texto al modelo y recibir respuestas, todo a través de código, sin pasar por una interfaz de chat. Así es como la IA se integra en aplicaciones, webs y productos.

Imagínatelo así: La ventanilla de un autoservicio. No entras a la cocina: solo pasas el pedido por la ventanilla (envías una petición) y te devuelven la comida (la respuesta). La API es esa ventanilla.

Uso

Agente

Una IA que puede actuar de forma autónoma

Un Agente de IA es un sistema capaz de planificar, tomar decisiones y actuar de forma autónoma para alcanzar un objetivo, no solo responder a una pregunta puntual. En lugar de esperar a que se le diga exactamente qué hacer en cada paso, un agente puede descomponer una tarea compleja, usar herramientas (como navegar por la web, escribir código o leer archivos) y continuar hasta que el trabajo esté hecho. Los agentes se construyen sobre grandes modelos de lenguaje, pero añaden una capa de autonomía y uso de herramientas.

Imagínatelo así: La diferencia entre preguntarle a alguien cómo llegar a un sitio (un chatbot) y contratar a un asistente personal que organiza todo tu viaje, reserva los vuelos y te envía el itinerario (un agente). Tú das el objetivo y el agente averigua los pasos.

Arquitectura

Attention

Cómo decide la IA qué importa

La atención es el mecanismo que permite a un modelo Transformer determinar qué palabras de una frase son más importantes unas respecto a otras. En la frase «El gato estaba sentado en la alfombra porque estaba cansado», la atención ayuda al modelo a entender que «él» se refiere al «gato», no a la «alfombra». Esta capacidad de relacionar palabras lejanas es lo que hace tan potentes a los Transformers.

Imagínatelo así: En una sala llena de gente, consigues concentrarte en una sola conversación aunque haya muchas personas hablando a la vez. Tu cerebro «presta atención» a lo relevante y filtra el ruido. Eso mismo hace el mecanismo de atención de la IA con las palabras.

Lenguaje

Context Window

Cuánto puede «ver» la IA de una vez

La ventana de contexto es la cantidad total de texto que un modelo de IA puede tener en cuenta durante una conversación. Incluye todo: tu pregunta, los documentos que compartes y la propia respuesta de la IA. Si la conversación se alarga demasiado, el modelo empieza a «olvidar» lo del principio.

Imagínatelo así: Una pizarra en un aula. Solo puedes escribir cierta cantidad de cosas antes de quedarte sin sitio y tener que borrar las notas más antiguas para seguir escribiendo.

Hardware

CPU

Unidad Central de Procesamiento

La CPU es el cerebro principal de cualquier ordenador. Se encarga de tareas generales como ejecutar tus aplicaciones, navegar por la web y gestionar el sistema operativo. Es excelente haciendo muchas cosas distintas, una tras otra, a gran velocidad.

Imagínatelo así: Un estudiante superdotado que puede resolver cualquier tipo de problema — matemáticas, ciencias, redacción — pero los aborda de uno en uno.

Lenguaje

Embedding

Transformar palabras en números

Un embedding es una forma de representar una palabra, una frase o un documento como una lista de números (un «vector») que captura su significado. Las palabras con significados parecidos acaban con números parecidos. Así es como la IA entiende que «perro» y «cachorro» están relacionados, o que «París» es a «Francia» lo que «Tokio» es a «Japón».

Imagínatelo así: Coordenadas GPS para el significado de las palabras. Igual que las ciudades cercanas tienen coordenadas parecidas, las palabras cercanas tienen secuencias de números parecidas. «Contento» y «feliz» están cerca, mientras que «contento» y «frigorífico» están muy lejos.

Entrenamiento

Fine-Tuning

Especializar un modelo preentrenado

El fine-tuning consiste en coger un modelo de IA ya entrenado con datos generales y darle entrenamiento adicional sobre un tema o tarea específicos. Por ejemplo, podrías hacer fine-tuning a un modelo de lenguaje general con textos médicos para que se vuelva mucho mejor respondiendo a preguntas de salud. Es más rápido y más barato que entrenar un modelo desde cero.

Imagínatelo así: Un médico que ya ha estudiado medicina (entrenamiento general) y después hace la residencia en cardiología (fine-tuning). Ya sabe medicina; ahora se especializa.

Arquitectura

Frontier Model

El modelo más potente de una familia

Un frontier model es la versión más grande y más capaz de una familia de modelos de IA — la que tiene más parámetros. Por ejemplo, Qwen3.5-397B es el frontier model de la familia Qwen 3.5, con 397 mil millones de parámetros. A diferencia de las versiones más pequeñas (7B, 32B, 72B), que suelen bastar para tareas simples, el frontier model destaca en tareas complejas: razonamiento multi-paso, análisis de documentos largos, generación de código multi-archivo. La mayoría de proveedores de API no ofrecen el frontier model porque requiere muchísimas más GPU — IG1 AI mutualiza esa infraestructura para darte acceso.

Imagínatelo así: La diferencia entre una orquesta de cámara y una orquesta sinfónica completa. El cuarteto de cuerda toca bien las piezas sencillas, pero para una sinfonía de Mahler con toda su complejidad hacen falta los 100 músicos.

Hardware

GPU

Unidad de Procesamiento Gráfico

La GPU se creó originalmente para mostrar los gráficos de los videojuegos, pero resulta que también es increíblemente eficaz para la IA. A diferencia de la CPU, que procesa las tareas una por una, la GPU puede hacer miles de cálculos pequeños a la vez — justo lo que necesitan los modelos de IA.

Imagínatelo así: En lugar de un único estudiante brillante, imagina una clase de 1.000 estudiantes que pueden resolver cada uno un problema sencillo de matemáticas exactamente al mismo tiempo. Juntos terminan mucho antes.

Seguridad

Guardrails

Límites de seguridad sobre el comportamiento de la IA

Los guardrails son las reglas y restricciones integradas en los sistemas de IA para evitar que produzcan contenido dañino, peligroso o inapropiado. Se incorporan durante y después del entrenamiento para asegurarse de que la IA se niega a ayudar con actividades ilegales, no genera discurso de odio y se mantiene útil y honesta.

Imagínatelo así: Las barreras de las pistas de bolos. Mantienen la bola dentro de la calle para evitar las canaletas. Los guardrails evitan que la IA se desvíe hacia zonas peligrosas.

Seguridad

Hallucination

Cuando la IA se inventa cosas

Una alucinación es cuando un modelo de IA genera con seguridad una información que parece correcta pero que en realidad es falsa o inventada. Ocurre porque el modelo predice lo que «suena bien» basándose en patrones, no porque «sepa» hechos reales. Puede inventarse artículos de investigación falsos, estadísticas trucadas o personas inexistentes.

Imagínatelo así: Un estudiante que no ha estudiado para el examen pero escribe muy bien. Redacta una respuesta convincente que parece seria, pero los hechos están completamente inventados.

Uso

Inference

Cuando la IA realmente te responde

La inferencia es lo que ocurre cada vez que le haces una pregunta a una IA y esta genera una respuesta. El modelo usa todo lo que ha aprendido durante el entrenamiento para predecir la mejor respuesta, un token cada vez. Por eso muchas veces ves las respuestas de la IA aparecer palabra a palabra: literalmente está generando cada fragmento uno tras otro.

Imagínatelo así: Presentarte al examen tras meses estudiando. Ya no estás aprendiendo: aplicas lo que sabes para responder a nuevas preguntas.

Hardware

Latency

La rapidez de respuesta de la IA

La latencia es el tiempo que pasa entre que envías una petición a una IA y que empiezas a recibir la respuesta. Menos latencia = respuesta más rápida. Depende del tamaño del modelo, del hardware sobre el que se ejecuta, de la distancia hasta el servidor y del número de personas que lo usan al mismo tiempo.

Imagínatelo así: El tiempo de espera en una cafetería. A veces tienes tu bebida en 30 segundos, otras hay mucha cola y tardas 5 minutos. La bebida es la misma; la espera es la latencia.

Arquitectura

LLM

Modelo de Lenguaje a Gran Escala

Un LLM es un modelo de IA muy grande (normalmente basado en la arquitectura Transformer) entrenado con cantidades enormes de texto para entender y generar lenguaje humano. «Large» se refiere tanto a la cantidad de datos de entrenamiento como al número de parámetros. Modelos como Claude, GPT-4 y Llama son todos LLM.

Imagínatelo así: Un estudiante que ha leído todo Internet y ahora puede escribir redacciones, responder preguntas, resumir artículos, escribir código e incluso contar chistes, todo gracias a los patrones que ha detectado leyendo.

Arquitectura

MCP

Model Context Protocol

MCP es un estándar abierto (creado por Anthropic) que permite a los modelos de IA conectarse a herramientas externas y fuentes de datos de forma universal. En lugar de construir una integración a medida para cada herramienta (Google Drive, Slack, una base de datos, etc.), MCP proporciona un único «enchufe» estándar que funciona en todas partes. Cualquier IA compatible con MCP puede hablar con cualquier herramienta compatible con MCP, sin código específico cada vez.

Imagínatelo así: El USB-C para la IA. Antes del USB-C, cada teléfono tenía un cargador distinto. MCP es el conector universal: en cuanto una herramienta habla MCP, cualquier IA puede usarla, igual que cualquier dispositivo puede usar un cable USB-C.

Entrenamiento

Model Weights

El conocimiento aprendido por la IA, en forma de archivo

Los pesos (weights) son los números que componen un modelo de IA entrenado: son el resultado de todo ese entrenamiento. Cuando «descargas un modelo», estás descargando sus pesos. Estos archivos pueden ser enormes (decenas o cientos de gigabytes) y representan todo lo que el modelo ha aprendido.

Imagínatelo así: Si el entrenamiento de la IA fueran años de escuela, los pesos son el título más todo lo que hay en la cabeza del estudiante, guardado en un archivo. Puedes copiar ese archivo y darle el mismo «conocimiento» a otro ordenador.

Arquitectura

Neural Network

La estructura que hace «pensar» a la IA

Una red neuronal es un sistema matemático inspirado en el cerebro humano. Está formado por capas de «neuronas» conectadas (pequeñas funciones matemáticas) que se pasan información entre sí. Los datos entran por un lado, se procesan a través de muchas capas y sale un resultado por el otro. Toda la IA moderna — reconocimiento de imágenes, modelos de lenguaje, coches autónomos — se construye sobre redes neuronales.

Imagínatelo así: Un juego del teléfono escacharrado. La persona A dice algo a 3 personas, que se lo repiten cada una a otras 3, y así sucesivamente. Al final, el mensaje se ha ido transformando a través de muchos turnos para dar una respuesta final.

Uso

OpenClaw

Un agente de IA que controla tu ordenador

OpenClaw (también llamado Claw) es un asistente de IA gratuito y open source que vive en tu ordenador y puede ver tu pantalla, usar tus aplicaciones y hacer trabajo real por ti. A diferencia de un chatbot, que solo responde a preguntas, OpenClaw es un agente autónomo: puede hacer clic en botones, rellenar formularios, navegar por la web, escribir código, enviar mensajes y automatizar workflows enteros a través de tus apps. Es uno de los proyectos open source de crecimiento más rápido de la historia, con más de 80K estrellas en GitHub.

Imagínatelo así: Tener un becario superdotado sentado frente a tu ordenador 24 horas al día. Le dices «resérvame un vuelo a París» o «limpia esta hoja de cálculo» y lo hace de verdad: mueve el ratón, escribe en el teclado, salta de una app a otra, él solo.

Uso

Open Source vs. Closed Source

Quién puede ver el código

Un modelo de IA open source (como Llama de Meta o Mistral) comparte públicamente su código y sus pesos: cualquiera puede descargarlo, modificarlo y ejecutarlo. Un modelo closed source (como GPT-4 o Claude) se mantiene privado: solo puedes usarlo a través de la API o la aplicación de la empresa. El open source te da más control y privacidad; el closed source suele ofrecer mejor rendimiento y una puesta en marcha más sencilla.

Imagínatelo así: Una receta open source frente a la salsa secreta de un restaurante. Con la receta puedes cocinar tú, cambiar ingredientes y compartirla con tus amigos. Con la salsa secreta la pides y la disfrutas, pero no puedes prepararla en casa.

Entrenamiento

Open Weights

Cuando un modelo comparte su cerebro pero no su receta

Open weights significa que una empresa publica los pesos entrenados del modelo (el resultado final del entrenamiento) para que cualquiera pueda descargarlos y usarlos, pero sin compartir el código de entrenamiento, los datos de entrenamiento ni el proceso completo. Es distinto del verdadero open source, donde se comparte todo. Modelos como Llama de Meta o Mistral son open weights: puedes usarlos libremente, pero no puedes reproducir exactamente cómo se crearon.

Imagínatelo así: Un chef te da la tarta terminada para que la comas, la compartas y la decores como quieras, pero no te da la receta, los ajustes del horno ni la lista de ingredientes. Tienes el resultado, no el proceso.

Entrenamiento

Parameters

Los mandos internos de la IA

Los parámetros son los números dentro de un modelo de IA que se ajustan durante el entrenamiento. Un modelo como GPT-4 tiene cientos de miles de millones de parámetros. Más parámetros suele significar que el modelo puede aprender patrones más complejos y dar mejores respuestas, pero también necesita más potencia de cálculo para funcionar. Por ejemplo, un frontier model como Qwen3.5-397B (397 mil millones de parámetros) supera con claridad a sus versiones reducidas (7B, 32B) en razonamiento complejo y análisis de documentos largos.

Imagínatelo así: Los mandos de una enorme mesa de mezclas en un estudio de grabación. Cada mando controla una pequeña parte del sonido y hay que ajustarlos todos a la perfección para conseguir la música adecuada. Más mandos = más matices.

Uso

Prompt

Lo que le dices a la IA

Un prompt es el texto que escribes para decirle a la IA lo que quieres. Puede ser una pregunta, una instrucción o incluso un documento entero sobre el que quieres que trabaje la IA. Cuanto mejor y más claro sea tu prompt, mejor será la respuesta de la IA: por eso el «prompt engineering» se ha convertido en una habilidad importante.

Imagínatelo así: Pedir en un restaurante. «Tráeme algo bueno» puede funcionar, pero «quiero un filete poco hecho con patatas fritas y sin cebolla» te da exactamente lo que quieres.

Entrenamiento

Quantization

Hacer los modelos de IA más pequeños y rápidos

La quantization es una técnica que reduce el tamaño de un modelo de IA disminuyendo la precisión de sus números. En lugar de almacenar cada parámetro como un número muy preciso en 32 bits o 16 bits, se redondea a 8 bits o incluso a 4 bits. El modelo se vuelve mucho más pequeño (de 2× a 8×) y se ejecuta más rápido, con solo una ligera pérdida de calidad. Esto es lo que permite ejecutar modelos de IA potentes en un portátil o un teléfono en lugar de necesitar un servidor enorme.

Imagínatelo así: Comprimir una foto RAW en JPEG. El archivo se vuelve mucho más pequeño, carga mucho más rápido y, para la mayoría de la gente, tiene el mismo aspecto: solo notas una ligera pérdida de calidad si haces mucho zoom.

Arquitectura

RAG

Retrieval-Augmented Generation

El RAG es una técnica en la que la IA busca primero en una base de datos de documentos para encontrar información relevante y, después, usa esa información para generar una respuesta más precisa. En lugar de fiarse únicamente de lo que memorizó durante el entrenamiento, la IA puede consultar fuentes reales y actualizadas. Esto reduce notablemente las alucinaciones.

Imagínatelo así: En lugar de responder a un examen solo de memoria, el profesor te deja llevar tus apuntes. Puedes verificar la respuesta real antes de escribirla, así que eres mucho más preciso.

Seguridad

Sovereign AI

Una IA que controlas por completo

La Sovereign AI consiste en ejecutar tu infraestructura de IA en tus propios servidores o en tus propios centros de datos, en lugar de depender del cloud de una gran tech. Así, tus datos nunca salen de tu control, no dependes de la plataforma de nadie y cumples las regulaciones locales. Esto es especialmente importante para gobiernos, bancos y empresas sanitarias.

Imagínatelo así: La diferencia entre alquilar un piso y ser propietario de tu casa. Cuando es tu casa, nadie puede cambiar las reglas, subir el alquiler ni rebuscar en tus cosas. Tu casa, tus reglas.

Uso

Temperature

El control creatividad vs. previsibilidad de la IA

La temperatura es un ajuste (normalmente entre 0 y 1) que controla hasta qué punto son «aleatorias» las respuestas de la IA. Una temperatura baja (como 0,1) hace que el modelo sea muy predecible y factual: elige la palabra siguiente más probable cada vez. Una temperatura alta (como 0,9) lo vuelve más creativo y sorprendente, pero también más propenso a cometer errores.

Imagínatelo así: Una lista de reproducción musical. Temperatura 0 pone siempre tu canción n.º 1, la más escuchada. Temperatura 1 lo pone todo en aleatorio: puede que descubras algo genial o que escuches algo raro.

Lenguaje

Token

El ladrillo básico del texto en IA

Un token es un pequeño fragmento de texto que un modelo de IA lee y genera. Puede ser una palabra entera como «hola», un trozo de palabra como «in» + «creí» + «ble», o incluso un único carácter. Cuando se dice que un modelo gestiona «128K tokens», significa que puede leer y retener unas 100.000 palabras de texto a la vez. Los tokens son también la unidad con la que las empresas de IA te facturan: pagas por token enviado (entrada) y por token generado (salida). Por eso, cuanto más larga sea tu pregunta y la respuesta de la IA, más cuesta.

Imagínatelo así: Piezas LEGO para el lenguaje, y cada pieza lleva su etiqueta de precio. Las palabras se trocean en pequeños fragmentos y la IA los ensambla para formar frases. Cuantas más piezas uses (conversaciones largas), más alta es la factura, como aquellos SMS que se pagaban por unidad.

Hardware

TPU

Tensor Processing Unit

Una TPU es un chip diseñado por Google específicamente para cargas de trabajo de IA. Mientras que las GPU son procesadores paralelos de uso general reutilizados para IA, las TPU se construyen desde cero para hacer una sola cosa extremadamente bien: los cálculos tensoriales que alimentan las redes neuronales. Se usan en los centros de datos de Google para entrenar y ejecutar modelos como Gemini. No puedes comprar una TPU: alquilas acceso a través de Google Cloud.

Imagínatelo así: Si la GPU es una navaja suiza (buena para muchas cosas), la TPU es un bisturí de precisión, diseñado específicamente para un único trabajo e increíblemente eficiente. Pero solo puedes usarlo dentro del «hospital» de Google.

Entrenamiento

Training

Cómo aprende una IA

El entrenamiento es el proceso de enseñar a un modelo de IA mostrándole enormes cantidades de datos: miles de millones de páginas de texto, código y más. Durante el entrenamiento, el modelo ajusta millones (o miles de millones) de ajustes internos llamados «parámetros» hasta que se le da bien predecir lo que viene a continuación en una frase. Este proceso requiere una potencia de cálculo enorme y puede llevar semanas o meses.

Imagínatelo así: Estudiar para el examen más grande de tu vida. La IA lee miles de millones de páginas y practica hasta volverse muy buena entendiendo y generando lenguaje. Una vez entrenada, ya no necesita estudiar: simplemente usa lo que aprendió.

Arquitectura

Transformer

La arquitectura detrás de la IA moderna

El Transformer es el tipo de arquitectura de red neuronal que hace funcionar prácticamente todos los modelos de lenguaje modernos (ChatGPT, Claude, Gemini, etc.). Inventado por Google en 2017, su innovación clave es la «atención»: la capacidad de mirar todas las palabras de una frase a la vez y determinar cuáles son más relevantes unas respecto a otras, en lugar de leerlas una por una.

Imagínatelo así: En lugar de leer un libro de la página 1 a la 500 en orden, imagina poder ver al instante todas las páginas a la vez y resaltar las conexiones entre las ideas a lo largo de todo el libro. Eso es lo que hace la atención.

Hardware

VRAM

Memoria de Vídeo de Acceso Aleatorio

La VRAM es la memoria integrada directamente en la GPU. Cuando un modelo de IA se ejecuta, necesita mantener en memoria una cantidad enorme de datos al mismo tiempo. Cuanta más VRAM tenga tu GPU, más grande podrá ser el modelo de IA que ejecute. Por eso las GPU de gama alta con 80 GB o más de VRAM son tan valiosas para la IA.

Imagínatelo así: El tamaño de tu escritorio. Un escritorio más grande te permite extender más libros y notas a la vez sin tener que estar guardando cosas constantemente para sacar otras.

API

Agente

Attention

Context Window

CPU

Embedding

Fine-Tuning

Frontier Model

GPU

Guardrails

Hallucination

Inference

Latency

LLM

MCP

Model Weights

Neural Network

OpenClaw

Open Source vs. Closed Source

Open Weights

Parameters

Prompt

Quantization

RAG

Sovereign AI

Temperature

Token

TPU

Training

Transformer

VRAM

¿Quieres ver la IA en acción?