Local-AI: Como gastar un gritón de dolares.
Imagina que tienes un Mac Studio M3 Ultra con 512 GiB de RAM unificada. 512. No es un portátil — es un bloque de aluminio con 28 núcleos de CPU, 80 de GPU y tanta memoria que puedes cargar un modelo de 70B parámetros sin que le tiemble el pelo.
¿Y si te digo que con eso puedes tener tu propio Claude Code en casa, sin enviar ni una línea de código a servidores de nadie?
Esto es lo que cambia cuando pasas de “probar un modelo ligero” a “montar una IA local de verdad”.
¿Qué es un LLM local?
Un LLM local es un modelo de lenguaje que corre en tu máquina. En vez de enviar cada pregunta a AWS o Google, le preguntas a tu propio ordenador. Descargas el modelo, lo ejecutas, todo se queda ahí.
La herramientas más simple: Ollama. Un comando, un modelo, funciona.
# Instalar ollama (una vez)
brew install ollama
# Descargar y correr qwen3.6 (una vez, ~40GB en Q4)
ollama run qwen3.6
# Desde ahí, preguntas como de costumbre
# >> "Explica cómo funciona un channel en Go"
# >> "Revisa este código y dime si tiene race conditions"
Sin APIs, sin suscripciones, sin que nadie vea lo que escribes.
El salto: 512 GiB no es un juego de palabras
Esto no es un MacBook de 16 GiB donde cargas un modelo de 7B y rezas. Con 512 GiB puedes:
Cargar modelos de 70B+ sin quantización agresiva.
Un modelo de 70B en FP16 ocupa ~140 GiB. En Q4 (quantización 4-bit, la que usa Ollama por defecto) ocupa ~40 GiB. Con 512 GiB tienes el modelo + el SO + tus apps y sobra ram para todo.
Contexto largo de verdad.
Un portátil típico se queda corto con 8K-32K tokens. Con 512 GiB puedes dar a tu modelo local 128K-200K tokens sin problemas. Cientos de miles de líneas de código, un libro entero, un mes de logs.
Múltiples modelos a la vez.
¿qwen3.6 para code review y gemma4 para resumir docs? En un portátil con 16 GiB, imposible. En un M3 Ultra, dos modelos de 27B corriendo en paralelo sin que el sistema se queje.
Comparativa: LLM local (M3 Ultra) vs Claude Code
| LLM local (M3 Ultra) | Claude Code | |
|---|---|---|
| Hardware | M3 Ultra, 512 GiB RAM | Servidores Anthropic |
| Velocidad | ~30-50 t/s (70B Q4) | ~200 t/s |
| Privacidad | 100% local | Tus datos van a Anthropic |
| Coste | Hardware (pago único) | $20-200/mes |
| Internet | No necesario | Necesario |
| Code tools | Solo texto/API | Edit, Read, Bash, Glob, Task |
| Razonamiento | Bueno (70B es potente) | Excelente (SOTA) |
Un M3 Ultra genera texto a 30-50 tokens/seg con un modelo de 70B quantizado. No es instantáneo — pero tampoco es lento. Es como leer un libro en voz alta, no como que te lo dicten.
¿Para qué usarías tu propia IA local?
Código privado que no subes a la nube
¿Tienes código con datos de clientes, claves, lógica de negocio? Con Claude o ChatGPT, eso viaja por internet. Con un LLM local, se queda en tu máquina. Punto.
Logs de producción sin filtrar nada
tail -n 500 /var/log/app.log | ollama run qwen3.6 "Clasifica los errores por severidad y sugiere causas"
Directo. Sin APIs. Sin que nadie vea lo que analizas.
Working offline, siempre
¿Vuelo? ¿Sin conexión? ¿Internet caído? El modelo local funciona siempre. No depende de nadie.
Acceso remoto con OpenCode
Esto es importante: no necesitas el Mac Studio pegado a tu escritorio. Puedes tenerlo en casa, en la oficina, en un servidor colgado de un rack. Y desde cualquier sitio, abres OpenCode en tu portátil, lo conectas al modelo remoto, y lanzas queries. El modelo corre en el M3 Ultra — el procesamiento se queda donde tú lo pongas. Los datos viajan cifrados entre tu portátil y el servidor, pero la IA no los envía a ningún tercero.
Es como tener un asistente de código propio, accesible desde cualquier dispositivo, que nunca comparte tu información.
El detalle técnico clave: RAM unificada
En Apple Silicon, la RAM unificada es lo que importa, no la GPU.
Un modelo de 70B en Q4 necesita ~40 GiB. En un PC con RTX 4090 (24 GiB VRAM), no cabe. Tendrías que quantizar agresivamente o usar CPU offloading. En un M3 Ultra con 512 GiB, esos 40 GiB son un grano de arena. El modelo carga completo, la GPU accede sin copias, rendimiento consistente.
Ollama lo detecta automáticamente. No configuras nada.
¿Local o cloud? La respuesta es ambos
Esto no es un “o lo uno o lo otro”. Ambas cosas tienen sentido:
Claude Code (la nube):
- Code review donde necesitas editar código directamente
- Debuggear issues complejos con tool calling (Bash, Glob, Task)
- Situaciones donde necesitas el mejor razonamiento posible y la máxima velocidad
Tu LLM local (M3 Ultra u otro hardware):
- Código privado / datos sensibles que no salen de tu red
- Automatizaciones con scripts (
git diff | ollama "resume esto") - Cuando no quieres depender de internet ni de proveedores
- Cuando quieres experimentar sin límite de tokens
La idea es tener ambos. Claude para lo que puede hacer mejor. Tu máquina para lo que no quieres que nadie más haga.
Y eso, en un mundo donde cada día más trabajo pasa por chatboxes de IA… mola saber que puedes cerrar la puerta, conectar con tu propio modelo, y hablar con una IA sin que nadie escuche.