Correr modelos de linguagem localmente — sem subscrições, sem dados a sair da rede, sem limites de tokens — tornou-se uma realidade acessível em 2026. O hardware evoluiu, os modelos quantizados ficaram mais eficientes e as ferramentas como Ollama e LM Studio eliminaram toda a complexidade de configuração. Mas a escolha do equipamento certo ainda confunde: não é só RAM, não é só GPU, e a diferença entre gastar 700€ e gastar 2.000€ é enorme em termos do que consegues correr.
Este artigo parte de uma experiência concreta com o Lenovo Legion 5 (GTX 1650 Ti, 4 GB VRAM, 64 GB RAM) — hardware que demonstrou as limitações do modelo tradicional GPU+RAM separada — e explora o que funciona melhor para LLM local em 2026, com foco no Mac Mini M4 como a escolha mais equilibrada para a maioria dos perfis.
Neste artigo
- Porquê correr LLM local — privacidade, custo e latência
- O que determina a performance — memória, largura de banda e quantização
- O problema do hardware tradicional — GPU discreta com VRAM limitada
- Por que o Apple Silicon muda as regras — memória unificada
- Mac Mini M4 — configurações e o que cada uma consegue correr
- Guia de compra por perfil de utilização
- Alternativas PC com NVIDIA — quando faz sentido
- Ferramentas — Ollama, LM Studio e MLX
- Modelos recomendados por configuração de hardware
1. Porquê correr LLM local — privacidade, custo e latência
Os modelos cloud (Claude, GPT-4, Gemini) são excelentes — mas têm limitações que modelos locais resolvem directamente:
| Vantagem local | Detalhe prático |
|---|---|
| Privacidade total | Código, documentos internos, dados de clientes — nada sai da máquina. Relevante para RGPD e ambientes com NDA |
| Custo zero por token | Sem subscrições mensais, sem limites de mensagens, sem rate limits — o hardware paga-se e passa a ser gratuito a usar |
| Latência local | Sem depender de conectividade à Internet — funciona em VPN, redes corporativas ou mesmo offline |
| Controlo total do modelo | System prompts persistentes, context window configurável, fine-tuning possível, sem filtros impostos pelo fornecedor |
| Integração com ferramentas locais | API compatível OpenAI — qualquer ferramenta que suporte OpenAI (VS Code, n8n, Claude Code) pode usar o modelo local como backend |
ℹ Modelo local não substitui modelo cloud para tudo — para raciocínio complexo multi-passo, os modelos cloud continuam superiores. O equilíbrio ideal para a maioria é: modelo local para tarefas rotineiras (código, documentos, pesquisa interna) + modelo cloud para tarefas de alta complexidade.
2. O que determina a performance — memória, largura de banda e quantização
A inferência LLM (gerar tokens) é fundamentalmente diferente do treino. Não é limitada pela velocidade de cálculo (TFLOPS) — é limitada pela velocidade de transferência de dados entre memória e processador. A fórmula é simples:
# Regras fundamentais para LLM local 1. O modelo tem de caber em memória # Se não couber → usa swap em disco → performance cai para 1-2 t/s → inutilizável 2. Largura de banda de memória = tokens por segundo # Mais GB/s de memória → mais tokens/segundo, independentemente da velocidade do CPU/GPU 3. Quantização reduz o tamanho do modelo em memória # Q4_K_M ≈ 4 bits por parâmetro → modelo 32B ocupa ~18 GB em vez de 64 GB (FP32) # Perda de qualidade mínima em Q4_K_M para modelos > 13B parâmetros
| Quantização | Bits/parâmetro | Modelo 7B | Modelo 32B | Qualidade |
|---|---|---|---|---|
| FP16 | 16 | ~14 GB | ~64 GB | Máxima |
| Q8_0 | 8 | ~7 GB | ~32 GB | Muito alta |
| Q4_K_M | ~4.5 | ~4.1 GB | ~18 GB | Alta — sweet spot recomendado |
| Q2_K | ~2.5 | ~2.7 GB | ~10 GB | Baixa — perda notável de qualidade |
3. O problema do hardware tradicional — GPU discreta com VRAM limitada
A experiência com o Lenovo Legion 5 (Ryzen 5 4600H + GTX 1650 Ti 4 GB VRAM + 64 GB RAM) ilustra bem o problema do modelo tradicional. Apesar dos 64 GB de RAM do sistema — mais que suficientes para carregar modelos de 26B — a VRAM de apenas 4 GB cria um bottleneck severo.
| Componente | Especificação | Impacto LLM |
|---|---|---|
| GTX 1650 Ti VRAM | 4 GB GDDR6 | Apenas 10–12 camadas offloaded para GPU — o resto vai para RAM via CPU |
| RAM sistema | 64 GB DDR4 | Largura de banda ~50 GB/s — muito lenta para inferência eficiente |
| Gemma 4 26B Q4_K_M | ~15 GB em memória | 4–8 tokens/segundo — utilizável mas lento para uso diário |
| Modelo 7B Q4_K_M | ~4 GB | Cabe na VRAM — 15–25 t/s (GPU-only) — adequado para uso diário |
⚠ A lição do Legion 5: Ter 64 GB de RAM do sistema não ajuda quando a GPU tem apenas 4 GB de VRAM — a RAM do sistema tem largura de banda ~10x menor que a VRAM. O modelo fica rápido apenas nas camadas que cabem na VRAM; o resto é processado pelo CPU com velocidade muito inferior. Para LLM local, VRAM é o factor mais crítico em hardware Windows/Linux com GPU discreta.
4. Por que o Apple Silicon muda as regras — memória unificada
O Apple Silicon (M1, M2, M3, M4) usa uma arquitectura de memória unificada (UMA — Unified Memory Architecture) — CPU, GPU e Neural Engine partilham o mesmo pool de memória física de alta velocidade. Não existe separação entre “RAM do sistema” e “VRAM da GPU”.
| PC Tradicional (GPU discreta) | Apple Silicon (UMA) | |
|---|---|---|
| Memória disponível para modelo | Limitado pela VRAM (4–24 GB típico) | Toda a memória unificada (16–64+ GB) |
| Largura de banda | GPU: alta (GDDR6) / CPU: baixa (DDR5) Comunicação PCIe entre GPU↔CPU: gargalo |
M4: 120 GB/s | M4 Pro: 273 GB/s — uniforme para todos os processadores |
| Consumo energético | 150–450 W sob carga de inferência | Mac Mini: 30–40 W sob carga total |
| Ruído | Ventoinha activa, audível | Praticamente silencioso sob inferência normal |
| Configuração | Drivers CUDA, CUDA toolkit, versões Python, conflitos frequentes | brew install ollama → ollama run llama3 — instalação em <10 minutos |
✓ Caso real documentado: Um utilizador com servidor dual RTX 3090 (48 GB VRAM total, 936 GB/s por placa) testou o Mac Mini M4 com Qwen3 32B — o Mac Mini foi 27% mais rápido. A razão: dois RTX 3090 em multi-GPU comunicam via PCIe, criando um gargalo que a memória unificada do M4 não tem.
5. Mac Mini M4 — configurações e o que cada uma consegue correr
| Configuração | Memória / BW | Preço PT (Apple) | Modelos adequados | Performance típica |
|---|---|---|---|---|
| M4 16 GB | 16 GB / 120 GB/s | ~729€ | 7B–8B Q4_K_M confortável; 14B possível mas com pressão de memória | 28–35 t/s em 7B (Ollama) |
| M4 24 GB | 24 GB / 120 GB/s | ~999€ | 7B–14B Q4 confortável; 22B possível | 25–30 t/s em 14B |
| M4 Pro 24 GB ⭐ | 24 GB / 273 GB/s | ~1.679€ | 7B–32B Q4 excelente; sweet spot para a maioria | 95–100 t/s em 7B; 45 t/s em 32B |
| M4 Pro 48 GB | 48 GB / 273 GB/s | ~2.299€ | Modelos até 32B com Q8; múltiplos modelos simultâneos | 40–50 t/s em 32B Q4 |
| M4 Pro 64 GB | 64 GB / 273 GB/s | ~2.729€ | 70B Q4 possível; modelos 32B em Q8; servidor multi-utilizador | 11–14 t/s em 32B Q4; 2 modelos 32B simultâneos |
ℹ A diferença crítica entre M4 e M4 Pro não é só o preço
O M4 Pro tem largura de banda de memória 2.3x superior (273 GB/s vs 120 GB/s). Como a velocidade de inferência é directamente proporcional à largura de banda, um M4 Pro 24 GB é significativamente mais rápido que um M4 24 GB — não só para modelos maiores, mas também para modelos 7B–14B.
6. Guia de compra por perfil de utilização
| Perfil | Casos de uso | Recomendação | Preço aprox. PT |
|---|---|---|---|
| Experimentação / aprendizagem | Testar LLMs, chatbot básico, curiosidade técnica | Mac Mini M4 16 GB — ou usar o hardware Windows já existente com modelos 7B | ~729€ |
| Uso diário sysadmin / dev ⭐ | Assistente de código, análise de logs, documentação, PowerShell, scripts | Mac Mini M4 Pro 24 GB — Qwen2.5 14B ou 32B para uso diário fluido | ~1.679€ |
| Servidor LLM partilhado (equipa) | Múltiplos utilizadores em simultâneo, API OpenAI-compatible para ferramentas internas | Mac Mini M4 Pro 48 GB — dois modelos em memória simultâneos | ~2.299€ |
| Produção / privacidade máxima | Dados muito sensíveis, modelos 70B, fine-tuning ligeiro, uso intensivo contínuo | Mac Mini M4 Pro 64 GB — ou considerar Mac Studio quando disponível com M4 Max | ~2.729€ |
⚠ Regra de ouro: RAM não se pode actualizar depois da compra
No Mac Mini (como em todos os Macs com Apple Silicon) a memória é soldada na placa. A escolha feita no momento da compra é definitiva. Se tens dúvida entre 24 GB e 48 GB, escolhe 48 GB — modelos melhores surgem a cada poucos meses e a memória disponível vai ser sempre usada.
7. Alternativas PC com NVIDIA — quando faz sentido
O Mac Mini não é a única opção — GPUs NVIDIA com VRAM suficiente são mais rápidas por token em modelos que cabem inteiramente na VRAM, e dominam para treino e fine-tuning (CUDA). A questão é o custo e a VRAM necessária.
| GPU | VRAM | Preço aprox. | Modelos que corre em GPU | Nota |
|---|---|---|---|---|
| RTX 4060 Ti | 16 GB | ~500€ | 7B–13B Q4 em GPU | Boa opção budget com PC já existente |
| RTX 3090 ⭐ budget | 24 GB | ~800–1.000€ (usado) | Modelos até 13B Q8 ou 32B Q2 | Consenso budget LLM para PC. Barulhento, 350 W |
| RTX 4090 | 24 GB | ~2.000€ | Modelos até 13B Q8 na GPU — mais rápido que Apple Silicon nesta gama | 450 W, barulhento, VRAM igual ao 3090 |
| RTX 5090 | 32 GB | ~3.500€+ | Modelos até 32B Q4 totalmente em GPU — muito rápido | Melhor desempenho bruto; custo e consumo muito elevados |
A GPU NVIDIA faz sentido quando: já tens um PC Windows potente e só precisas de adicionar a GPU; fazes treino ou fine-tuning (CUDA é essencial); precisas de velocidade máxima para modelos que cabem inteiramente na VRAM; ou já tens infraestrutura Linux com toolchain CUDA configurado. Para uso como assistente diário silencioso, o Mac Mini M4 Pro ganha na equação custo/benefício/consumo.
8. Ferramentas — Ollama, LM Studio e MLX
| Ferramenta | Plataformas | Melhor para | API compatível |
|---|---|---|---|
| Ollama | macOS, Linux, Windows | Instalação em 1 comando, servidor local automático, integração com ferramentas (VS Code, n8n, Claude Code) | OpenAI ✓ |
| LM Studio | macOS, Windows, Linux | Interface gráfica intuitiva, gestão de modelos, configuração de offload GPU, chat integrado | OpenAI ✓ |
| MLX (Apple) | macOS Apple Silicon apenas | Performance máxima no Apple Silicon — 30–50% mais rápido que llama.cpp via Ollama no mesmo hardware | OpenAI ✓ (via mlx-lm server) |
# Instalação Ollama no Mac (menos de 10 minutos do zero ao primeiro modelo) brew install ollama # Iniciar o servidor Ollama ollama serve # Descarregar e correr um modelo ollama run qwen2.5:14b # Para M4 Pro 24 GB — excelente para uso diário ollama run qwen2.5:7b # Para M4 16 GB — rápido e fluido ollama run qwen2.5-coder:14b # Especializado em código # Ver modelos disponíveis localmente ollama list # Testar performance (tokens por segundo) ollama run qwen2.5:14b --verbose "Escreve um guia sobre DNS em 500 palavras"
9. Modelos recomendados por configuração de hardware
| Hardware | Modelo recomendado | Quantização | Caso de uso ideal |
|---|---|---|---|
| Mac Mini M4 16 GB | |||
| M4 16 GB | Qwen2.5 7B / Llama 3.2 8B | Q4_K_M | Chat geral, resumos, respostas simples |
| Mac Mini M4 Pro 24 GB — sweet spot | |||
| M4 Pro 24 GB | Qwen2.5 14B (padrão) | Q4_K_M | Uso geral diário — assistente código, documentação, análise |
| M4 Pro 24 GB | Qwen2.5-Coder 14B | Q4_K_M | Código — PowerShell, Python, Bash, debug |
| M4 Pro 24 GB | Gemma 4 26B (MoE) | Q4_K_M | Raciocínio mais complexo — activa só 4B parâmetros por token |
| Mac Mini M4 Pro 48–64 GB | |||
| M4 Pro 48 GB | Qwen2.5 32B | Q4_K_M | Raciocínio avançado, análise de documentos longos, tarefas complexas |
| M4 Pro 64 GB | Dois modelos 32B em simultâneo | Q4_K_M | Servidor multi-utilizador, pipeline de modelos especializados |
