Interfaz de Programación de Aplicaciones
Una API es una forma de que el software se comunique entre sí. En el mundo de la IA, cuando una empresa como Anthropic u OpenAI ofrece una API, significa que las personas desarrolladoras pueden enviar texto al modelo y recibir respuestas, todo a través de código, sin pasar por una interfaz de chat. Así es como la IA se integra en aplicaciones, webs y productos.
Una IA que puede actuar de forma autónoma
Un Agente de IA es un sistema capaz de planificar, tomar decisiones y actuar de forma autónoma para alcanzar un objetivo, no solo responder a una pregunta puntual. En lugar de esperar a que se le diga exactamente qué hacer en cada paso, un agente puede descomponer una tarea compleja, usar herramientas (como navegar por la web, escribir código o leer archivos) y continuar hasta que el trabajo esté hecho. Los agentes se construyen sobre grandes modelos de lenguaje, pero añaden una capa de autonomía y uso de herramientas.
Cómo decide la IA qué importa
La atención es el mecanismo que permite a un modelo Transformer determinar qué palabras de una frase son más importantes unas respecto a otras. En la frase «El gato estaba sentado en la alfombra porque estaba cansado», la atención ayuda al modelo a entender que «él» se refiere al «gato», no a la «alfombra». Esta capacidad de relacionar palabras lejanas es lo que hace tan potentes a los Transformers.
Cuánto puede «ver» la IA de una vez
La ventana de contexto es la cantidad total de texto que un modelo de IA puede tener en cuenta durante una conversación. Incluye todo: tu pregunta, los documentos que compartes y la propia respuesta de la IA. Si la conversación se alarga demasiado, el modelo empieza a «olvidar» lo del principio.
Unidad Central de Procesamiento
La CPU es el cerebro principal de cualquier ordenador. Se encarga de tareas generales como ejecutar tus aplicaciones, navegar por la web y gestionar el sistema operativo. Es excelente haciendo muchas cosas distintas, una tras otra, a gran velocidad.
Transformar palabras en números
Un embedding es una forma de representar una palabra, una frase o un documento como una lista de números (un «vector») que captura su significado. Las palabras con significados parecidos acaban con números parecidos. Así es como la IA entiende que «perro» y «cachorro» están relacionados, o que «París» es a «Francia» lo que «Tokio» es a «Japón».
Especializar un modelo preentrenado
El fine-tuning consiste en coger un modelo de IA ya entrenado con datos generales y darle entrenamiento adicional sobre un tema o tarea específicos. Por ejemplo, podrías hacer fine-tuning a un modelo de lenguaje general con textos médicos para que se vuelva mucho mejor respondiendo a preguntas de salud. Es más rápido y más barato que entrenar un modelo desde cero.
El modelo más potente de una familia
Un frontier model es la versión más grande y más capaz de una familia de modelos de IA — la que tiene más parámetros. Por ejemplo, Qwen3.5-397B es el frontier model de la familia Qwen 3.5, con 397 mil millones de parámetros. A diferencia de las versiones más pequeñas (7B, 32B, 72B), que suelen bastar para tareas simples, el frontier model destaca en tareas complejas: razonamiento multi-paso, análisis de documentos largos, generación de código multi-archivo. La mayoría de proveedores de API no ofrecen el frontier model porque requiere muchísimas más GPU — IG1 AI mutualiza esa infraestructura para darte acceso.
Unidad de Procesamiento Gráfico
La GPU se creó originalmente para mostrar los gráficos de los videojuegos, pero resulta que también es increíblemente eficaz para la IA. A diferencia de la CPU, que procesa las tareas una por una, la GPU puede hacer miles de cálculos pequeños a la vez — justo lo que necesitan los modelos de IA.
Límites de seguridad sobre el comportamiento de la IA
Los guardrails son las reglas y restricciones integradas en los sistemas de IA para evitar que produzcan contenido dañino, peligroso o inapropiado. Se incorporan durante y después del entrenamiento para asegurarse de que la IA se niega a ayudar con actividades ilegales, no genera discurso de odio y se mantiene útil y honesta.
Cuando la IA se inventa cosas
Una alucinación es cuando un modelo de IA genera con seguridad una información que parece correcta pero que en realidad es falsa o inventada. Ocurre porque el modelo predice lo que «suena bien» basándose en patrones, no porque «sepa» hechos reales. Puede inventarse artículos de investigación falsos, estadísticas trucadas o personas inexistentes.
Cuando la IA realmente te responde
La inferencia es lo que ocurre cada vez que le haces una pregunta a una IA y esta genera una respuesta. El modelo usa todo lo que ha aprendido durante el entrenamiento para predecir la mejor respuesta, un token cada vez. Por eso muchas veces ves las respuestas de la IA aparecer palabra a palabra: literalmente está generando cada fragmento uno tras otro.
La rapidez de respuesta de la IA
La latencia es el tiempo que pasa entre que envías una petición a una IA y que empiezas a recibir la respuesta. Menos latencia = respuesta más rápida. Depende del tamaño del modelo, del hardware sobre el que se ejecuta, de la distancia hasta el servidor y del número de personas que lo usan al mismo tiempo.
Modelo de Lenguaje a Gran Escala
Un LLM es un modelo de IA muy grande (normalmente basado en la arquitectura Transformer) entrenado con cantidades enormes de texto para entender y generar lenguaje humano. «Large» se refiere tanto a la cantidad de datos de entrenamiento como al número de parámetros. Modelos como Claude, GPT-4 y Llama son todos LLM.
Model Context Protocol
MCP es un estándar abierto (creado por Anthropic) que permite a los modelos de IA conectarse a herramientas externas y fuentes de datos de forma universal. En lugar de construir una integración a medida para cada herramienta (Google Drive, Slack, una base de datos, etc.), MCP proporciona un único «enchufe» estándar que funciona en todas partes. Cualquier IA compatible con MCP puede hablar con cualquier herramienta compatible con MCP, sin código específico cada vez.
El conocimiento aprendido por la IA, en forma de archivo
Los pesos (weights) son los números que componen un modelo de IA entrenado: son el resultado de todo ese entrenamiento. Cuando «descargas un modelo», estás descargando sus pesos. Estos archivos pueden ser enormes (decenas o cientos de gigabytes) y representan todo lo que el modelo ha aprendido.
La estructura que hace «pensar» a la IA
Una red neuronal es un sistema matemático inspirado en el cerebro humano. Está formado por capas de «neuronas» conectadas (pequeñas funciones matemáticas) que se pasan información entre sí. Los datos entran por un lado, se procesan a través de muchas capas y sale un resultado por el otro. Toda la IA moderna — reconocimiento de imágenes, modelos de lenguaje, coches autónomos — se construye sobre redes neuronales.
Un agente de IA que controla tu ordenador
OpenClaw (también llamado Claw) es un asistente de IA gratuito y open source que vive en tu ordenador y puede ver tu pantalla, usar tus aplicaciones y hacer trabajo real por ti. A diferencia de un chatbot, que solo responde a preguntas, OpenClaw es un agente autónomo: puede hacer clic en botones, rellenar formularios, navegar por la web, escribir código, enviar mensajes y automatizar workflows enteros a través de tus apps. Es uno de los proyectos open source de crecimiento más rápido de la historia, con más de 80K estrellas en GitHub.
Quién puede ver el código
Un modelo de IA open source (como Llama de Meta o Mistral) comparte públicamente su código y sus pesos: cualquiera puede descargarlo, modificarlo y ejecutarlo. Un modelo closed source (como GPT-4 o Claude) se mantiene privado: solo puedes usarlo a través de la API o la aplicación de la empresa. El open source te da más control y privacidad; el closed source suele ofrecer mejor rendimiento y una puesta en marcha más sencilla.
Cuando un modelo comparte su cerebro pero no su receta
Open weights significa que una empresa publica los pesos entrenados del modelo (el resultado final del entrenamiento) para que cualquiera pueda descargarlos y usarlos, pero sin compartir el código de entrenamiento, los datos de entrenamiento ni el proceso completo. Es distinto del verdadero open source, donde se comparte todo. Modelos como Llama de Meta o Mistral son open weights: puedes usarlos libremente, pero no puedes reproducir exactamente cómo se crearon.
Los mandos internos de la IA
Los parámetros son los números dentro de un modelo de IA que se ajustan durante el entrenamiento. Un modelo como GPT-4 tiene cientos de miles de millones de parámetros. Más parámetros suele significar que el modelo puede aprender patrones más complejos y dar mejores respuestas, pero también necesita más potencia de cálculo para funcionar. Por ejemplo, un frontier model como Qwen3.5-397B (397 mil millones de parámetros) supera con claridad a sus versiones reducidas (7B, 32B) en razonamiento complejo y análisis de documentos largos.
Lo que le dices a la IA
Un prompt es el texto que escribes para decirle a la IA lo que quieres. Puede ser una pregunta, una instrucción o incluso un documento entero sobre el que quieres que trabaje la IA. Cuanto mejor y más claro sea tu prompt, mejor será la respuesta de la IA: por eso el «prompt engineering» se ha convertido en una habilidad importante.
Hacer los modelos de IA más pequeños y rápidos
La quantization es una técnica que reduce el tamaño de un modelo de IA disminuyendo la precisión de sus números. En lugar de almacenar cada parámetro como un número muy preciso en 32 bits o 16 bits, se redondea a 8 bits o incluso a 4 bits. El modelo se vuelve mucho más pequeño (de 2× a 8×) y se ejecuta más rápido, con solo una ligera pérdida de calidad. Esto es lo que permite ejecutar modelos de IA potentes en un portátil o un teléfono en lugar de necesitar un servidor enorme.
Retrieval-Augmented Generation
El RAG es una técnica en la que la IA busca primero en una base de datos de documentos para encontrar información relevante y, después, usa esa información para generar una respuesta más precisa. En lugar de fiarse únicamente de lo que memorizó durante el entrenamiento, la IA puede consultar fuentes reales y actualizadas. Esto reduce notablemente las alucinaciones.
Una IA que controlas por completo
La Sovereign AI consiste en ejecutar tu infraestructura de IA en tus propios servidores o en tus propios centros de datos, en lugar de depender del cloud de una gran tech. Así, tus datos nunca salen de tu control, no dependes de la plataforma de nadie y cumples las regulaciones locales. Esto es especialmente importante para gobiernos, bancos y empresas sanitarias.
El control creatividad vs. previsibilidad de la IA
La temperatura es un ajuste (normalmente entre 0 y 1) que controla hasta qué punto son «aleatorias» las respuestas de la IA. Una temperatura baja (como 0,1) hace que el modelo sea muy predecible y factual: elige la palabra siguiente más probable cada vez. Una temperatura alta (como 0,9) lo vuelve más creativo y sorprendente, pero también más propenso a cometer errores.
El ladrillo básico del texto en IA
Un token es un pequeño fragmento de texto que un modelo de IA lee y genera. Puede ser una palabra entera como «hola», un trozo de palabra como «in» + «creí» + «ble», o incluso un único carácter. Cuando se dice que un modelo gestiona «128K tokens», significa que puede leer y retener unas 100.000 palabras de texto a la vez. Los tokens son también la unidad con la que las empresas de IA te facturan: pagas por token enviado (entrada) y por token generado (salida). Por eso, cuanto más larga sea tu pregunta y la respuesta de la IA, más cuesta.
Tensor Processing Unit
Una TPU es un chip diseñado por Google específicamente para cargas de trabajo de IA. Mientras que las GPU son procesadores paralelos de uso general reutilizados para IA, las TPU se construyen desde cero para hacer una sola cosa extremadamente bien: los cálculos tensoriales que alimentan las redes neuronales. Se usan en los centros de datos de Google para entrenar y ejecutar modelos como Gemini. No puedes comprar una TPU: alquilas acceso a través de Google Cloud.
Cómo aprende una IA
El entrenamiento es el proceso de enseñar a un modelo de IA mostrándole enormes cantidades de datos: miles de millones de páginas de texto, código y más. Durante el entrenamiento, el modelo ajusta millones (o miles de millones) de ajustes internos llamados «parámetros» hasta que se le da bien predecir lo que viene a continuación en una frase. Este proceso requiere una potencia de cálculo enorme y puede llevar semanas o meses.
La arquitectura detrás de la IA moderna
El Transformer es el tipo de arquitectura de red neuronal que hace funcionar prácticamente todos los modelos de lenguaje modernos (ChatGPT, Claude, Gemini, etc.). Inventado por Google en 2017, su innovación clave es la «atención»: la capacidad de mirar todas las palabras de una frase a la vez y determinar cuáles son más relevantes unas respecto a otras, en lugar de leerlas una por una.
Memoria de Vídeo de Acceso Aleatorio
La VRAM es la memoria integrada directamente en la GPU. Cuando un modelo de IA se ejecuta, necesita mantener en memoria una cantidad enorme de datos al mismo tiempo. Cuanta más VRAM tenga tu GPU, más grande podrá ser el modelo de IA que ejecute. Por eso las GPU de gama alta con 80 GB o más de VRAM son tan valiosas para la IA.
Descubre cómo IG1 construye infraestructura de IA soberana y soluciones de IA a medida para empresas de todo el mundo.