Correr modelos de linguagem localmente — sem subscrições, sem dados a sair da rede, sem limites de tokens — tornou-se uma realidade acessível em 2026. O hardware evoluiu, os modelos quantizados ficaram mais eficientes e as ferramentas como Ollama e LM Studio eliminaram toda a complexidade de configuração. Mas a escolha do equipamento certo ainda confunde: não é só RAM, não é só GPU, e a diferença entre gastar 700€ e gastar 2.000€ é enorme em termos do que consegues correr.

Este artigo parte de uma experiência concreta com o Lenovo Legion 5 (GTX 1650 Ti, 4 GB VRAM, 64 GB RAM) — hardware que demonstrou as limitações do modelo tradicional GPU+RAM separada — e explora o que funciona melhor para LLM local em 2026, com foco no Mac Mini M4 como a escolha mais equilibrada para a maioria dos perfis.

1. Porquê correr LLM local — privacidade, custo e latência

Os modelos cloud (Claude, GPT-4, Gemini) são excelentes — mas têm limitações que modelos locais resolvem directamente:

Vantagem local Detalhe prático
Privacidade total Código, documentos internos, dados de clientes — nada sai da máquina. Relevante para RGPD e ambientes com NDA
Custo zero por token Sem subscrições mensais, sem limites de mensagens, sem rate limits — o hardware paga-se e passa a ser gratuito a usar
Latência local Sem depender de conectividade à Internet — funciona em VPN, redes corporativas ou mesmo offline
Controlo total do modelo System prompts persistentes, context window configurável, fine-tuning possível, sem filtros impostos pelo fornecedor
Integração com ferramentas locais API compatível OpenAI — qualquer ferramenta que suporte OpenAI (VS Code, n8n, Claude Code) pode usar o modelo local como backend

ℹ Modelo local não substitui modelo cloud para tudo — para raciocínio complexo multi-passo, os modelos cloud continuam superiores. O equilíbrio ideal para a maioria é: modelo local para tarefas rotineiras (código, documentos, pesquisa interna) + modelo cloud para tarefas de alta complexidade.

2. O que determina a performance — memória, largura de banda e quantização

A inferência LLM (gerar tokens) é fundamentalmente diferente do treino. Não é limitada pela velocidade de cálculo (TFLOPS) — é limitada pela velocidade de transferência de dados entre memória e processador. A fórmula é simples:

# Regras fundamentais para LLM local

1. O modelo tem de caber em memória
   # Se não couber → usa swap em disco → performance cai para 1-2 t/s → inutilizável

2. Largura de banda de memória = tokens por segundo
   # Mais GB/s de memória → mais tokens/segundo, independentemente da velocidade do CPU/GPU

3. Quantização reduz o tamanho do modelo em memória
   # Q4_K_M ≈ 4 bits por parâmetro → modelo 32B ocupa ~18 GB em vez de 64 GB (FP32)
   # Perda de qualidade mínima em Q4_K_M para modelos > 13B parâmetros
Quantização Bits/parâmetro Modelo 7B Modelo 32B Qualidade
FP16 16 ~14 GB ~64 GB Máxima
Q8_0 8 ~7 GB ~32 GB Muito alta
Q4_K_M ~4.5 ~4.1 GB ~18 GB Alta — sweet spot recomendado
Q2_K ~2.5 ~2.7 GB ~10 GB Baixa — perda notável de qualidade

3. O problema do hardware tradicional — GPU discreta com VRAM limitada

A experiência com o Lenovo Legion 5 (Ryzen 5 4600H + GTX 1650 Ti 4 GB VRAM + 64 GB RAM) ilustra bem o problema do modelo tradicional. Apesar dos 64 GB de RAM do sistema — mais que suficientes para carregar modelos de 26B — a VRAM de apenas 4 GB cria um bottleneck severo.

Componente Especificação Impacto LLM
GTX 1650 Ti VRAM 4 GB GDDR6 Apenas 10–12 camadas offloaded para GPU — o resto vai para RAM via CPU
RAM sistema 64 GB DDR4 Largura de banda ~50 GB/s — muito lenta para inferência eficiente
Gemma 4 26B Q4_K_M ~15 GB em memória 4–8 tokens/segundo — utilizável mas lento para uso diário
Modelo 7B Q4_K_M ~4 GB Cabe na VRAM — 15–25 t/s (GPU-only) — adequado para uso diário

⚠ A lição do Legion 5: Ter 64 GB de RAM do sistema não ajuda quando a GPU tem apenas 4 GB de VRAM — a RAM do sistema tem largura de banda ~10x menor que a VRAM. O modelo fica rápido apenas nas camadas que cabem na VRAM; o resto é processado pelo CPU com velocidade muito inferior. Para LLM local, VRAM é o factor mais crítico em hardware Windows/Linux com GPU discreta.

4. Por que o Apple Silicon muda as regras — memória unificada

O Apple Silicon (M1, M2, M3, M4) usa uma arquitectura de memória unificada (UMA — Unified Memory Architecture) — CPU, GPU e Neural Engine partilham o mesmo pool de memória física de alta velocidade. Não existe separação entre “RAM do sistema” e “VRAM da GPU”.

PC Tradicional (GPU discreta) Apple Silicon (UMA)
Memória disponível para modelo Limitado pela VRAM (4–24 GB típico) Toda a memória unificada (16–64+ GB)
Largura de banda GPU: alta (GDDR6) / CPU: baixa (DDR5)
Comunicação PCIe entre GPU↔CPU: gargalo
M4: 120 GB/s | M4 Pro: 273 GB/s — uniforme para todos os processadores
Consumo energético 150–450 W sob carga de inferência Mac Mini: 30–40 W sob carga total
Ruído Ventoinha activa, audível Praticamente silencioso sob inferência normal
Configuração Drivers CUDA, CUDA toolkit, versões Python, conflitos frequentes brew install ollama → ollama run llama3 — instalação em <10 minutos

✓ Caso real documentado: Um utilizador com servidor dual RTX 3090 (48 GB VRAM total, 936 GB/s por placa) testou o Mac Mini M4 com Qwen3 32B — o Mac Mini foi 27% mais rápido. A razão: dois RTX 3090 em multi-GPU comunicam via PCIe, criando um gargalo que a memória unificada do M4 não tem.

5. Mac Mini M4 — configurações e o que cada uma consegue correr

Configuração Memória / BW Preço PT (Apple) Modelos adequados Performance típica
M4 16 GB 16 GB / 120 GB/s ~729€ 7B–8B Q4_K_M confortável; 14B possível mas com pressão de memória 28–35 t/s em 7B (Ollama)
M4 24 GB 24 GB / 120 GB/s ~999€ 7B–14B Q4 confortável; 22B possível 25–30 t/s em 14B
M4 Pro 24 GB ⭐ 24 GB / 273 GB/s ~1.679€ 7B–32B Q4 excelente; sweet spot para a maioria 95–100 t/s em 7B; 45 t/s em 32B
M4 Pro 48 GB 48 GB / 273 GB/s ~2.299€ Modelos até 32B com Q8; múltiplos modelos simultâneos 40–50 t/s em 32B Q4
M4 Pro 64 GB 64 GB / 273 GB/s ~2.729€ 70B Q4 possível; modelos 32B em Q8; servidor multi-utilizador 11–14 t/s em 32B Q4; 2 modelos 32B simultâneos

ℹ A diferença crítica entre M4 e M4 Pro não é só o preço

O M4 Pro tem largura de banda de memória 2.3x superior (273 GB/s vs 120 GB/s). Como a velocidade de inferência é directamente proporcional à largura de banda, um M4 Pro 24 GB é significativamente mais rápido que um M4 24 GB — não só para modelos maiores, mas também para modelos 7B–14B.

6. Guia de compra por perfil de utilização

Perfil Casos de uso Recomendação Preço aprox. PT
Experimentação / aprendizagem Testar LLMs, chatbot básico, curiosidade técnica Mac Mini M4 16 GB — ou usar o hardware Windows já existente com modelos 7B ~729€
Uso diário sysadmin / dev ⭐ Assistente de código, análise de logs, documentação, PowerShell, scripts Mac Mini M4 Pro 24 GB — Qwen2.5 14B ou 32B para uso diário fluido ~1.679€
Servidor LLM partilhado (equipa) Múltiplos utilizadores em simultâneo, API OpenAI-compatible para ferramentas internas Mac Mini M4 Pro 48 GB — dois modelos em memória simultâneos ~2.299€
Produção / privacidade máxima Dados muito sensíveis, modelos 70B, fine-tuning ligeiro, uso intensivo contínuo Mac Mini M4 Pro 64 GB — ou considerar Mac Studio quando disponível com M4 Max ~2.729€

⚠ Regra de ouro: RAM não se pode actualizar depois da compra

No Mac Mini (como em todos os Macs com Apple Silicon) a memória é soldada na placa. A escolha feita no momento da compra é definitiva. Se tens dúvida entre 24 GB e 48 GB, escolhe 48 GB — modelos melhores surgem a cada poucos meses e a memória disponível vai ser sempre usada.

7. Alternativas PC com NVIDIA — quando faz sentido

O Mac Mini não é a única opção — GPUs NVIDIA com VRAM suficiente são mais rápidas por token em modelos que cabem inteiramente na VRAM, e dominam para treino e fine-tuning (CUDA). A questão é o custo e a VRAM necessária.

GPU VRAM Preço aprox. Modelos que corre em GPU Nota
RTX 4060 Ti 16 GB ~500€ 7B–13B Q4 em GPU Boa opção budget com PC já existente
RTX 3090 ⭐ budget 24 GB ~800–1.000€ (usado) Modelos até 13B Q8 ou 32B Q2 Consenso budget LLM para PC. Barulhento, 350 W
RTX 4090 24 GB ~2.000€ Modelos até 13B Q8 na GPU — mais rápido que Apple Silicon nesta gama 450 W, barulhento, VRAM igual ao 3090
RTX 5090 32 GB ~3.500€+ Modelos até 32B Q4 totalmente em GPU — muito rápido Melhor desempenho bruto; custo e consumo muito elevados

A GPU NVIDIA faz sentido quando: já tens um PC Windows potente e só precisas de adicionar a GPU; fazes treino ou fine-tuning (CUDA é essencial); precisas de velocidade máxima para modelos que cabem inteiramente na VRAM; ou já tens infraestrutura Linux com toolchain CUDA configurado. Para uso como assistente diário silencioso, o Mac Mini M4 Pro ganha na equação custo/benefício/consumo.

8. Ferramentas — Ollama, LM Studio e MLX

Ferramenta Plataformas Melhor para API compatível
Ollama macOS, Linux, Windows Instalação em 1 comando, servidor local automático, integração com ferramentas (VS Code, n8n, Claude Code) OpenAI ✓
LM Studio macOS, Windows, Linux Interface gráfica intuitiva, gestão de modelos, configuração de offload GPU, chat integrado OpenAI ✓
MLX (Apple) macOS Apple Silicon apenas Performance máxima no Apple Silicon — 30–50% mais rápido que llama.cpp via Ollama no mesmo hardware OpenAI ✓ (via mlx-lm server)
# Instalação Ollama no Mac (menos de 10 minutos do zero ao primeiro modelo)
brew install ollama

# Iniciar o servidor Ollama
ollama serve

# Descarregar e correr um modelo
ollama run qwen2.5:14b      # Para M4 Pro 24 GB — excelente para uso diário
ollama run qwen2.5:7b       # Para M4 16 GB — rápido e fluido
ollama run qwen2.5-coder:14b # Especializado em código

# Ver modelos disponíveis localmente
ollama list

# Testar performance (tokens por segundo)
ollama run qwen2.5:14b --verbose "Escreve um guia sobre DNS em 500 palavras"

9. Modelos recomendados por configuração de hardware

Hardware Modelo recomendado Quantização Caso de uso ideal
Mac Mini M4 16 GB
M4 16 GB Qwen2.5 7B / Llama 3.2 8B Q4_K_M Chat geral, resumos, respostas simples
Mac Mini M4 Pro 24 GB — sweet spot
M4 Pro 24 GB Qwen2.5 14B (padrão) Q4_K_M Uso geral diário — assistente código, documentação, análise
M4 Pro 24 GB Qwen2.5-Coder 14B Q4_K_M Código — PowerShell, Python, Bash, debug
M4 Pro 24 GB Gemma 4 26B (MoE) Q4_K_M Raciocínio mais complexo — activa só 4B parâmetros por token
Mac Mini M4 Pro 48–64 GB
M4 Pro 48 GB Qwen2.5 32B Q4_K_M Raciocínio avançado, análise de documentos longos, tarefas complexas
M4 Pro 64 GB Dois modelos 32B em simultâneo Q4_K_M Servidor multi-utilizador, pipeline de modelos especializados

Este artigo foi útil?

Duarte Spínola

Deixe um Comentário