Local-AI: Como gastar un gritón de dolares.

Imagina que tienes un Mac Studio M3 Ultra con 512 GiB de RAM unificada. 512. No es un portátil — es un bloque de aluminio con 28 núcleos de CPU, 80 de GPU y tanta memoria que puedes cargar un modelo de 70B parámetros sin que le tiemble el pelo.

¿Y si te digo que con eso puedes tener tu propio Claude Code en casa, sin enviar ni una línea de código a servidores de nadie?

Esto es lo que cambia cuando pasas de “probar un modelo ligero” a “montar una IA local de verdad”.

¿Qué es un LLM local?

Un LLM local es un modelo de lenguaje que corre en tu máquina. En vez de enviar cada pregunta a AWS o Google, le preguntas a tu propio ordenador. Descargas el modelo, lo ejecutas, todo se queda ahí.

La herramientas más simple: Ollama. Un comando, un modelo, funciona.

# Instalar ollama (una vez)
brew install ollama

# Descargar y correr qwen3.6 (una vez, ~40GB en Q4)
ollama run qwen3.6

# Desde ahí, preguntas como de costumbre
# >> "Explica cómo funciona un channel en Go"
# >> "Revisa este código y dime si tiene race conditions"

Sin APIs, sin suscripciones, sin que nadie vea lo que escribes.

El salto: 512 GiB no es un juego de palabras

Esto no es un MacBook de 16 GiB donde cargas un modelo de 7B y rezas. Con 512 GiB puedes:

Cargar modelos de 70B+ sin quantización agresiva.

Un modelo de 70B en FP16 ocupa ~140 GiB. En Q4 (quantización 4-bit, la que usa Ollama por defecto) ocupa ~40 GiB. Con 512 GiB tienes el modelo + el SO + tus apps y sobra ram para todo.

Contexto largo de verdad.

Un portátil típico se queda corto con 8K-32K tokens. Con 512 GiB puedes dar a tu modelo local 128K-200K tokens sin problemas. Cientos de miles de líneas de código, un libro entero, un mes de logs.

Múltiples modelos a la vez.

¿qwen3.6 para code review y gemma4 para resumir docs? En un portátil con 16 GiB, imposible. En un M3 Ultra, dos modelos de 27B corriendo en paralelo sin que el sistema se queje.

Comparativa: LLM local (M3 Ultra) vs Claude Code

	LLM local (M3 Ultra)	Claude Code
Hardware	M3 Ultra, 512 GiB RAM	Servidores Anthropic
Velocidad	~30-50 t/s (70B Q4)	~200 t/s
Privacidad	100% local	Tus datos van a Anthropic
Coste	Hardware (pago único)	$20-200/mes
Internet	No necesario	Necesario
Code tools	Solo texto/API	Edit, Read, Bash, Glob, Task
Razonamiento	Bueno (70B es potente)	Excelente (SOTA)

Un M3 Ultra genera texto a 30-50 tokens/seg con un modelo de 70B quantizado. No es instantáneo — pero tampoco es lento. Es como leer un libro en voz alta, no como que te lo dicten.

¿Para qué usarías tu propia IA local?

Código privado que no subes a la nube

¿Tienes código con datos de clientes, claves, lógica de negocio? Con Claude o ChatGPT, eso viaja por internet. Con un LLM local, se queda en tu máquina. Punto.

Logs de producción sin filtrar nada

tail -n 500 /var/log/app.log | ollama run qwen3.6 "Clasifica los errores por severidad y sugiere causas"

Directo. Sin APIs. Sin que nadie vea lo que analizas.

Working offline, siempre

¿Vuelo? ¿Sin conexión? ¿Internet caído? El modelo local funciona siempre. No depende de nadie.

Acceso remoto con OpenCode

Esto es importante: no necesitas el Mac Studio pegado a tu escritorio. Puedes tenerlo en casa, en la oficina, en un servidor colgado de un rack. Y desde cualquier sitio, abres OpenCode en tu portátil, lo conectas al modelo remoto, y lanzas queries. El modelo corre en el M3 Ultra — el procesamiento se queda donde tú lo pongas. Los datos viajan cifrados entre tu portátil y el servidor, pero la IA no los envía a ningún tercero.

Es como tener un asistente de código propio, accesible desde cualquier dispositivo, que nunca comparte tu información.

El detalle técnico clave: RAM unificada

En Apple Silicon, la RAM unificada es lo que importa, no la GPU.

Un modelo de 70B en Q4 necesita ~40 GiB. En un PC con RTX 4090 (24 GiB VRAM), no cabe. Tendrías que quantizar agresivamente o usar CPU offloading. En un M3 Ultra con 512 GiB, esos 40 GiB son un grano de arena. El modelo carga completo, la GPU accede sin copias, rendimiento consistente.

Ollama lo detecta automáticamente. No configuras nada.

¿Local o cloud? La respuesta es ambos

Esto no es un “o lo uno o lo otro”. Ambas cosas tienen sentido:

Claude Code (la nube):

Code review donde necesitas editar código directamente
Debuggear issues complejos con tool calling (Bash, Glob, Task)
Situaciones donde necesitas el mejor razonamiento posible y la máxima velocidad

Tu LLM local (M3 Ultra u otro hardware):

Código privado / datos sensibles que no salen de tu red
Automatizaciones con scripts (git diff | ollama "resume esto")
Cuando no quieres depender de internet ni de proveedores
Cuando quieres experimentar sin límite de tokens

La idea es tener ambos. Claude para lo que puede hacer mejor. Tu máquina para lo que no quieres que nadie más haga.

Y eso, en un mundo donde cada día más trabajo pasa por chatboxes de IA… mola saber que puedes cerrar la puerta, conectar con tu propio modelo, y hablar con una IA sin que nadie escuche.