Requisitos para instalar LLM de OpenAI en Mac

  • gpt‑oss‑20b funciona en Mac con 16 GB; 120b requiere 60–80 GB.
  • Ollama y LM Studio simplifican la descarga, carga y servidor local.
  • Apple On‑Device OpenAI expone modelos nativos vía endpoints OpenAI.

Requisitos para instalar LLM de OpenAI en Mac

Si estás pensando en correr modelos de OpenAI en tu Mac de forma local, te interesará saber que la compañía ha liberado GPT‑OSS en dos tamaños que cambian las reglas del juego para el uso en casa y en equipos de desarrollo. La clave está en entender bien los requisitos de hardware y software, así como las rutas de instalación más sencillas con herramientas como Ollama, LM Studio o el puente “Apple On-Device OpenAI API”.

Esta guía reúne y reescribe de forma unificada toda la información práctica disponible para que puedas valorar qué modelo te conviene, qué Mac es suficiente y cómo ponerlo a funcionar con el menor dolor posible. Verás opciones para usuarios y para desarrolladores, trucos de rendimiento en Apple Silicon, y ejemplos de uso con endpoints compatibles con la API de OpenAI sin tocar la nube.

Qué es GPT‑OSS y por qué importa

OpenAI ha publicado dos modelos de pesos abiertos, gpt‑oss‑20b y gpt‑oss‑120b, los primeros desde GPT‑2. Ambos llegan con licencia Apache 2.0, lo que te permite usarlos comercialmente, modificarlos, afinarlos y redistribuirlos sin peajes de API. El propio Sam Altman presume de que el 20b es hoy el modelo abierto más utilizable y que el razonamiento está a la altura de referencias como GPT‑4o‑mini u o3‑mini según la configuración.

Los modelos gpt‑oss incluyen funciones modernas como razonamiento paso a paso, llamada a funciones y ejecución de código, lo que abre la puerta a agentes locales, asistentes sin conexión y flujos altamente personalizados. OpenAI ha publicado tarjetas de modelo y ejemplos y, además, hay soporte de ejecución en PyTorch, Transformers, Triton, vLLM y Apple Metal Performance Shaders (MPS), así como integración lista para usar en Ollama y LM Studio.

Para uso en Mac destaca especialmente gpt‑oss‑20b, ya que se distribuye en formatos comprimidos (cuantización a 4 bits) que reducen memoria y mejoran velocidad sin degradar de forma apreciable la calidad en tareas comunes. El 120b queda como referencia de gama alta para investigación o entornos con GPUs grandes o infraestructura en la nube.

Instalar GPT-OSS en Mac con Apple Silicon

Requisitos de hardware en Mac: memoria y ancho de banda mandan

El factor crítico para ejecutar LLMs locales es la memoria (cantidad efectiva y cómo se gestiona), seguida de la velocidad de esa memoria. OpenAI sugiere estos mínimos orientativos para sus modelos abiertos: gpt‑oss‑20b se siente cómodo a partir de 16 GB (memoria unificada o VRAM), mientras que gpt‑oss‑120b apunta a 60–80 GB, un perfil que excede lo que trae la mayoría de equipos domésticos.

En Apple Silicon la memoria es unificada, así que se “reparte” dinámicamente entre CPU y GPU. Esto es una ventaja práctica frente al PC tradicional con RAM + VRAM separadas, pero también significa que si tienes muchas apps abiertas (navegadores con decenas de pestañas, Slack, etc.) puedes quedarte sin margen y bloquear el sistema al cargar un modelo grande. Con 16 GB, cerrar todo lo posible antes de arrancar gpt‑oss‑20b es una buena idea.

El ancho de banda de la memoria también influye. En Apple Silicon, incluso equipos “no Ultra” superan con claridad a la RAM DDR5 estándar de PC, y modelos Pro/Max/Ultra elevan aún más esa cifra. Esto se traduce en tasas de tokens por segundo más estables al ejecutar LLMs, sobre todo cuando parte del modelo o la caché KV usan la GPU.

Requisitos de software y compatibilidad

Si vas a ejecutar gpt‑oss por tu cuenta, tienes varias vías: lanzarlo con Ollama, gestionarlo con LM Studio o usar las bibliotecas de ejecución (PyTorch/Transformers/vLLM/MPS) cuando necesites integración más fina. Para la mayoría de usuarios de Mac, Ollama o LM Studio simplifican al máximo la descarga, cuantización y puesta en marcha.

Existe además una alternativa específica para Apple Intelligence: el proyecto “Apple On-Device OpenAI API” crea un servidor local que expone los Modelos Fundacionales de Apple con endpoints compatibles con OpenAI. Este puente requiere macOS 26 beta (o posterior), Apple Intelligence activado y, si compilas desde código, Xcode 26 beta o superior.

Instalar y ejecutar con Ollama

ollama

Ollama es la forma más directa para descargar y correr gpt‑oss en Mac, ofreciendo comandos sencillos y un servidor local para clientes que hablen “API OpenAI”. Instalación rápida en macOS con Homebrew:

brew install ollama

brew services start ollama

Si ya lo tienes, actualiza con: brew reinstall ollama y brew services start ollama. Para lanzar el modelo de 20B usa:

ollama run gpt-oss:20b

Ten en cuenta que la descarga ronda los ~13 GB para la variante cuantizada de 20B y que la primera carga mueve ese modelo a memoria, por lo que puede tardar un minuto o dos según tu equipo. Si notas lentitud o el sistema se congestiona, cierra apps pesadas y vuelve a intentarlo con el modelo ya en caché.

Usar LM Studio: interfaz gráfica y “modo servidor”

LM Studio es perfecto si prefieres una interfaz amigable tipo ChatGPT y, además, te permite habilitar un servidor local para consumir el modelo desde tus aplicaciones. Descárgalo para macOS, instala y abre. Desde “Model Search”, busca gpt‑oss‑20b u otros LLMs compatibles y descárgalos; la app te avisará con “Likely too large for this machine” si tu equipo no puede con un modelo concreto.

Antes de cargar, ajusta el rendimiento si vas justo de memoria: reduce el número de capas en “GPU Offload”, desactiva “Offload KV Cache to GPU Memory” si te quedas sin VRAM y baja el “Evaluation Batch Size” de 512 a 256 o 128. Estos cambios alivian la huella a costa de algo de velocidad, pero permiten que el modelo arranque y sea usable.

Para exponer un endpoint local entra en “Local Server” y pulsa “Start Server”. Obtendrás una URL y puerto locales para apuntar tus clientes. Esto te permite chatear en la UI y, a la vez, integrar el modelo en tus scripts con la misma estructura de llamadas que usarías contra OpenAI.

Apple On-Device OpenAI API: Apple Intelligence con endpoints OpenAI

Apple Intelligence con GPT-5

Si tu objetivo es aprovechar los Modelos Fundacionales de Apple (la base de Apple Intelligence) con tus herramientas existentes, el proyecto “apple-on-device-openai” actúa como traductor y crea un servidor compatible con OpenAI. Requisitos previos:

  • macOS 26 beta o posterior con frameworks de Apple Intelligence.
  • Apple Intelligence habilitado en Ajustes > Apple Intelligence y Siri.
  • Xcode 26 beta o posterior si vas a compilar desde código.

Instalación recomendada (app precompilada): descarga el .zip desde “Releases” en el repo de GitHub, arrastra la app a Aplicaciones e iníciala. En segundos tendrás un servidor local escuchando en 127.0.0.1:11535 por defecto.

¿Por qué es una app con GUI y no una CLI? Según un ingeniero de DTS de Apple, las apps con interfaz en primer plano no sufren límites de velocidad al usar los Modelos Fundacionales, mientras que las herramientas de línea de comandos sí. Empaquetar el servidor como GUI evita ese “throttling” y asegura una experiencia fluida.

Endpoints principales del servidor:

  • GET /health (estado básico) y GET /status (disponibilidad de modelos).
  • GET /v1/models (lista de modelos, devuelve «apple-on-device»).
  • POST /v1/chat/completions (equivalente a OpenAI para generar texto).

Ejemplo rápido con curl:

curl -X POST http://127.0.0.1:11535/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"apple-on-device","messages":[{"role":"user","content":"Dame 3 ventajas de la IA en el dispositivo."}],"temperature":0.7,"stream":false}'

Ejemplo con el cliente oficial de Python apuntando al servidor local:

from openai import OpenAI\nclient = OpenAI(base_url="http://127.0.0.1:11535/v1", api_key="not-needed")\nresp = client.chat.completions.create(model="apple-on-device", messages=[{"role":"user","content":"Escribe un haiku sobre programar en Mac."}], stream=False)\nprint(resp.choices[0].message.content)

Pruebas incluidas: ejecuta python3 test_server.py en el repo tras iniciar el servidor para validar estado, modelo y streaming. Parámetros soportados: model («apple-on-device»), messages, temperature, max_tokens y stream.

Rendimiento práctico en Mac con Apple Silicon

M4, M4 Pro y M4 Max

La experiencia real con gpt‑oss‑20b en un Mac con 16 GB puede variar según lo “limpio” que esté el sistema. Con muchas pestañas de navegador y apps abiertas, puedes llegar a colgar el equipo durante la primera carga por presión de memoria. En cambio, con el sistema despejado, el modelo responde de forma razonable, aunque no tan veloz como un servicio en la nube con GPU potente.

Si usas LM Studio y te falla por VRAM insuficiente, prueba a reducir “GPU Offload” a un número de capas menor (por ejemplo, 10), desactivar el “Offload KV Cache” y bajar “Evaluation Batch Size” a 256 o 128. Son ajustes que permiten arrancar y trabajar con cierta agilidad sin cambiar de máquina.

Recuerda que gpt‑oss‑20b es un modelo orientado al razonamiento. Eso significa mejores respuestas en tareas lógicas y de análisis, pero también más cómputo por token y consumo de recursos. Si vas muy justo, usa prompts más acotados y limita la longitud de salida (max_tokens) para mantener una interacción fluida.

Privacidad, coste y cuándo elegir local vs. nube

Trabajar en local te da tres ventajas claras: privacidad (tus datos no salen del equipo), latencia mínima (no hay ida y vuelta a servidores) y coste marginal (no pagas por tokens). Con Apple empujando la IA en el dispositivo en macOS e iOS, esta vía encaja con la tendencia de realizar cada vez más tareas sin conexión.

La nube sigue siendo práctica cuando necesitas modelos gigantes (120B) o cargas intensivas que exceden tu hardware. Para trabajo diario en texto, prototipos, programar, documentación y soporte a pequeños proyectos, gpt‑oss‑20b en un Mac moderno es perfectamente válido con los ajustes adecuados.

Flujos de desarrollo: bibliotecas, servidores locales y compatibilidad

La compatibilidad con la API de OpenAI es un puente clave. Tanto el servidor de LM Studio como el de “apple-on-device-openai” emulan los endpoints de OpenAI, lo que permite reutilizar clientes y SDKs existentes (Python, JavaScript, etc.) apuntando a base_url local y con una api_key ficticia si hace falta.

macbook pro m4 pro-1

Si prefieres control total de la pila, puedes ejecutar los modelos con PyTorch, Transformers, Triton o vLLM usando backends acelerados por Metal Performance Shaders en Apple Silicon. Esta ruta es ideal para investigación y despliegues a medida, aunque requiere más tiempo de ingeniería y conocimiento de inferencia.

Ollama añade valor como “Docker de LLMs”: contenedores de modelos, cuantizaciones listas, perfiles por hardware y un servidor HTTP en el puerto 11434 que puedes “envolver” con clientes OpenAI estándar. Ejemplo de uso con cliente Python de OpenAI contra Ollama:

from openai import OpenAI\nclient = OpenAI(base_url="http://localhost:11434/v1", api_key="local")\nres = client.chat.completions.create(model="gpt-oss:20b", messages=[{"role":"user","content":"Salúdame de forma divertida"}])\nprint(res.choices[0].message.content)

Consejos de instalación y buenas prácticas

Planifica el espacio en disco: aunque uses cuantización a 4 bits, gpt‑oss‑20b pesa del orden de decenas de GB. Asegúrate de que hay margen en SSD y evita volúmenes casi llenos que ralenticen la carga inicial.

Minimiza procesos residentes (navegadores con muchas pestañas, apps de mensajería, indexadores). Cuanta más memoria libre, mejor para cargar el modelo y evitar swapping. Si vas a usarlo a diario, valora ampliar a 32 GB en tu próxima compra de Mac.

Ajusta temperatura y límites: usa temperature bajos (0.2–0.7) para respuestas más estables y limita max_tokens si notas lag. Prompts bien acotados mejoran velocidad y calidad sin necesidad de más hardware.

Ten expectativas realistas: los LLMs pueden alucinar o equivocarse en datos concretos (fechas, cifras). Valida la información sensible y complementa con búsquedas o herramientas si es crítico.

¿Y el modelo grande de 120B?

macbook pro m4-3

gpt‑oss‑120b es un escaparate de lo que es posible, pero su huella de memoria (60–80 GB) lo sitúa en la liga de estaciones de trabajo con múltiples GPUs o entornos cloud. Para la inmensa mayoría de usuarios de Mac, el 20b es el punto dulce entre calidad, consumo y facilidad de despliegue.

No obstante, el hecho de que 120b esté bajo Apache 2.0 es importante a nivel de transparencia, reproducibilidad y soberanía tecnológica. Sirve como referencia y banco de pruebas para investigadores y equipos con acceso a hardware especializado.

Más allá de OpenAI: descargar y probar otros LLMs

El ecosistema local no se limita a GPT‑OSS. Con LM Studio puedes descargar modelos muy eficientes (por ejemplo, DeepSeek R1 Distill Qwen 7B ~4.7 GB) para tareas de razonamiento ligero. La app te avisa si un modelo es demasiado grande para tu máquina y puedes cambiar parámetros de contexto, hilos de CPU y políticas de memoria antes de cargarlo.

Para casos de uso muy modestos (resúmenes, borradores, aclaraciones técnicas) modelos de 7–8B bien afinados rinden sorprendentemente bien en Mac con 8–16 GB, sin necesidad de GPU dedicada. Para programación, QA y análisis, gpt‑oss‑20b sube el listón con razonamiento superior y herramientas modernas.

Con OpenAI reabriendo la puerta a modelos de pesos abiertos, Apple apostando por la IA en el dispositivo y herramientas como Ollama, LM Studio y el puente Apple On‑Device OpenAI API, el panorama para ejecutar LLMs en Mac nunca había sido tan prometedor: requisitos claros, instalaciones asequibles y rendimiento suficiente para trabajar con fluidez en el día a día sin depender de la nube.