Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento
IA Local · Hardware · GPU · VRAM · Ollama · LM Studio · LLM · PC · Mac | ✎ Duarte Spínola | 27 de Abril de 2026
Correr modelos de linguagem localmente — sem API keys, sem custos por token, sem os teus dados a sair da máquina — está ao alcance de qualquer pessoa com o hardware certo. A pergunta não é “é possível?” mas sim “o que compro para o meu orçamento?”. Este guia responde exactamente a isso: explica a única especificação que realmente importa (VRAM), apresenta três níveis de configuração desde 1.200€ até 5.000€+, e esclarece as dúvidas mais comuns sobre formatos de modelos e ferramentas de inferência.
Neste artigo
- A única especificação que importa — VRAM
- Tabela de referência: VRAM vs modelos que correm
- Quantização a 4-bit — como modelos grandes cabem em menos VRAM
- Tier 1 — Entrada (1.000€–1.500€)
- Mac vs PC — memória unificada muda o jogo
- Tier 2 — Intermédio (2.000€–3.500€)
- Tier 3 — Avançado (3.500€–5.000€+)
- Ollama vs LM Studio — qual escolher
- GGUF vs AWQ — qual o formato de modelo certo
- IA Local vs IA na Cloud — comparação honesta
- Posso usar um Raspberry Pi?
1. A Única Especificação que Importa — VRAM
A maioria das pessoas compra a GPU errada para IA local. Olham para os núcleos CUDA, para a frequência do chip, para o desempenho em jogos — mas a única métrica que determina que modelos consegues correr é a VRAM (memória dedicada da GPU).
Pensa da seguinte forma: a VRAM é o balcão de trabalho da GPU. O modelo de IA tem de caber inteiramente nesse balcão para ser processado. Se o modelo for maior do que o balcão, parte vai para a RAM do sistema — e a velocidade de geração cai para valores inutilizáveis (menos de 2 tokens por segundo).
⚠ A regra de ouro — VRAM primeiro, tudo o resto depois
Uma GPU mais lenta com mais VRAM ganha sempre contra uma GPU mais rápida com pouca VRAM. Se o modelo não couber, não há velocidade de processamento que resolva. Para inferência local, mais VRAM ao melhor preço é sempre a escolha certa.
2. Tabela de Referência: VRAM vs Modelos que Correm
Esta tabela assume quantização Q4 (4-bit) — o formato mais comum para uso diário. Valores com precisão completa (Q8/FP16) requerem aproximadamente o dobro de VRAM.
| VRAM disponível | Modelos que correm (Q4) | Velocidade típica (tok/s em 8B Q4) | GPUs representativas |
|---|---|---|---|
| 6–8 GB | 7B apenas — com pouca margem para contexto longo | 20–40 t/s | RTX 4060 8GB, RTX 3060 8GB |
| 12 GB | 7B com conforto, 13B com alguma margem | 40–70 t/s | Intel Arc B580, RTX 4060 12GB |
| 16 GB | 13–20B confortável; MoE 30B (ex: Nemotron, Qwen3 30B-A3B) | 60–90 t/s | RTX 4060 Ti 16GB, RTX 4070 Super |
| 24 GB | Até 32B com conforto; 70B com CPU offload ligeiro | 80–130 t/s | RTX 4090 24GB, RTX 3090 (usado) |
| 32 GB | 70B Q4 sem offload; modelos grandes com contexto longo | 150–213 t/s (8B) | RTX 5090 32GB |
| 48–128 GB+ | 70B+ Q6/Q8 (qualidade próxima de FP16); modelos 100B+ | Depende da largura de banda | Mac Mini M4 Pro 48GB, Mac Studio M4 Max 128GB |
3. Quantização a 4-bit — Como Modelos Grandes Cabem em Menos VRAM
Os pesos de um modelo de IA são normalmente guardados a 16-bit (FP16) — ou seja, cada parâmetro ocupa 2 bytes. Um modelo de 7B parâmetros em FP16 ocupa ~14 GB. A quantização reduz a precisão de cada peso de 16-bit para 4-bit, reduzindo o tamanho para ~4 GB — o mesmo modelo, 3.5× mais pequeno.
| Nível de quantização | Bits por peso | Tamanho de um modelo 7B | Qualidade vs FP16 |
|---|---|---|---|
| FP16 | 16-bit | ~14 GB | Referência — qualidade máxima |
| Q8_0 | 8-bit | ~7 GB | Praticamente igual ao FP16 — imperceptível |
| Q4_K_M | 4-bit (mixed) | ~4–5 GB | Ligeira degradação — o equilíbrio recomendado para uso diário |
| Q2_K | 2-bit | ~2.5 GB | Degradação significativa — para hardware muito limitado |
ℹ A regra prática para escolher a quantização
Usar sempre Q4_K_M como ponto de partida — é o padrão do Ollama e o melhor equilíbrio entre qualidade e tamanho. Se a VRAM permitir, subir para Q8_0 para modelos até 13B. Evitar Q2 salvo em hardware extremamente limitado onde a alternativa é não correr o modelo.
4. Tier 1 — Entrada (1.000€–1.500€)
A configuração de entrada correcta para IA local não é a mais barata em termos absolutos — é a que oferece o melhor equilíbrio entre VRAM e preço para começar a usar modelos de 13-20B de forma fluída.
Configuração PC — Tier 1
| Componente | Recomendação | Porquê |
|---|---|---|
| GPU | NVIDIA RTX 4060 Ti 16GB (~400€) | 16GB VRAM — sweet spot para 13-20B. 89 tok/s em 8B Q4. Eficiente em consumo (165W TDP). CUDA para máxima compatibilidade. |
| CPU | AMD Ryzen 5 7600X ou Intel Core i5-13600K | Para inferência local, o CPU é secundário — qualquer CPU moderno chega |
| RAM | 32 GB DDR5 | Para offload parcial de modelos maiores quando a VRAM não chega |
| Armazenamento | 1 TB NVMe SSD + 2 TB HDD/SSD para modelos | Os modelos ocupam 4-25 GB cada — acumula rapidamente |
| PSU | 650W 80 Plus Gold | A RTX 4060 Ti tem TDP de 165W — 650W é suficiente e com margem |
| SO | Windows 11 ou Ubuntu 24.04 | Ollama funciona em ambos. Linux tem melhor desempenho em alguns cenários |
O que consegues correr com esta configuração:
| Modelo | Qualidade | Velocidade aprox. |
|---|---|---|
| qwen2.5:7b / gemma3:4b | Assistente rápido, coding, helpdesk IT | 80–100 t/s — muito fluído |
| qwen2.5:14b / qwen2.5-coder:14b | Scripts PowerShell, análise de logs, código | 45–60 t/s — confortável |
| nemotron-3-nano:30b / qwen3:30b-A3B | MoE 30B — qualidade alta com activação de 3B por token | 25–40 t/s — usável |
ℹ Alternativa budget: Intel Arc B580 12GB (~250€)
Para quem quer começar com o mínimo investimento, a Intel Arc B580 com 12GB oferece 62 tok/s em modelos 8B Q4 por cerca de 250€. Só recomendada para modelos até 13B e em sistemas Linux (suporte Ollama via oneAPI mais estável que Windows). Limitação: sem suporte CUDA — alguns agentes e frameworks podem ter menos compatibilidade.
5. Mac vs PC — Memória Unificada Muda o Jogo
O Apple Silicon (M1, M2, M3, M4) usa uma arquitectura de memória unificada — o CPU, a GPU e o Neural Engine partilham o mesmo pool de memória. Isto elimina o tecto de VRAM que limita as GPUs dedicadas. Um Mac Mini M4 com 48 GB tem efectivamente 48 GB disponíveis para modelos — nenhuma GPU de consumidor oferece isso a este preço.
| Critério | PC com GPU NVIDIA | Mac Apple Silicon |
|---|---|---|
| Tecto de memória | Limitado pela VRAM da GPU (máx. 32GB no RTX 5090) | Toda a RAM disponível (até 192GB no Mac Studio M4 Ultra) |
| Velocidade de geração | 2–4× mais rápido por token (RTX 4090 vs Mac M4 Pro no mesmo modelo) | Mais lento — mas usável para chat interactivo |
| Consumo energético | 350–500W sob carga | ~30W no Mac Mini — silencioso |
| Ecosistema de software | CUDA — compatibilidade máxima (PyTorch, llama.cpp, todos os agentes) | Metal/MLX — excelente para Ollama e LM Studio; alguns frameworks ML limitados |
| Facilidade de configuração | Instalar drivers CUDA, gerir versões | brew install ollama — 10 minutos do zero ao primeiro modelo |
| Modelos muito grandes (70B+) | Requer GPU profissional ($10k+) ou dual-GPU | Mac Mini M4 Pro 48GB corre 70B Q4 — solução de consumidor única |
⚠ Atenção: ultrapassar a memória no Mac é catastrófico
Se um modelo exceder a memória unificada do Mac, o macOS começa a usar swap para SSD. A velocidade de geração cai de ~15 tok/s para menos de 0.5 tok/s — inutilizável. Nunca tentar carregar um modelo maior do que a RAM disponível minus 3-4 GB para o sistema operativo.
6. Tier 2 — Intermédio (2.000€–3.500€)
Neste tier entram as configurações sérias — capazes de correr modelos de 70B de forma usável, com velocidades que rivalizam com APIs de cloud.
| Opção | Configuração | Preço aprox. | Ponto forte |
|---|---|---|---|
| PC com RTX 4090 | RTX 4090 24GB + Ryzen 9 7900X + 64GB RAM | ~2.800€ | Máxima velocidade: 128 t/s em 8B Q4, 50+ t/s em 70B. Ecosistema CUDA completo. |
| PC com RTX 3090 (usado) | RTX 3090 24GB (usado) + sistema médio | ~1.800€ | 24GB VRAM a metade do preço da 4090. 90% do desempenho. Risco de hardware usado. |
| Mac Mini M4 Pro 48GB | Mac Mini M4 Pro com 48GB RAM unificada | ~1.999€ | 48GB efectivos para modelos. 70B Q4 cabe. 30W de consumo. Zero configuração. |
| Mac Mini M4 Pro 64GB | Mac Mini M4 Pro com 64GB RAM unificada | ~2.199€ | 70B Q4 com folga para contexto longo. 12–18 tok/s em modelos 30B. 273GB/s de largura de banda. |
ℹ O Mac Mini M4 Pro 48GB é a opção mais versátil deste tier
Por menos de 2.000€, o Mac Mini M4 Pro 48GB oferece o que nenhuma GPU de consumidor consegue neste preço: 48GB de memória efectiva para modelos. Não é o mais rápido por token — uma RTX 4090 é 2-3× mais rápida — mas é o único dispositivo neste orçamento capaz de correr modelos 70B sem offload para CPU. Para quem quer silêncio, eficiência energética e simplicidade, é a escolha mais equilibrada.
7. Tier 3 — Avançado (3.500€–5.000€+)
| Opção | Configuração | Preço aprox. | Para quem |
|---|---|---|---|
| PC com RTX 5090 | RTX 5090 32GB + workstation topo de gama | ~5.000–6.000€ (preço de mercado em 2026) | 213 t/s em 8B. 70B Q4 sem offload. GDDR7. Mas o preço de mercado está muito acima do MSRP devido à escassez de DRAM. |
| Dual RTX 3090 | 2× RTX 3090 24GB (48GB total via NVLink/tensor parallelism) | ~3.500€ | 70B em Q5 com conforto. Mais complexo de configurar (llama.cpp tensor parallelism). |
| Mac Studio M4 Max 128GB | Mac Studio com M4 Max e 128GB RAM unificada | ~3.199€ | 70B em Q8 (quase FP16). Única opção de consumidor com 128GB. 546 GB/s de largura de banda — 2× o Mac Mini M4 Pro. |
| Minisforum MS-S1 Max 128GB | AMD Ryzen AI Max+ 395 com 128GB RAM unificada | ~2.300–2.960€ | Alternativa PC ao Mac com memória unificada. ROCm. Mais configuração necessária que Mac. |
⚠ RTX 5090 em 2026 — cuidado com o preço de mercado
O MSRP da RTX 5090 é 1.999 USD. Em Abril de 2026, o preço de mercado real está entre 3.700 e 4.800 USD devido à escassez de DRAM e ao scalping. A um preço de ~2.000€, seria uma escolha óbvia. A 4.000€+, a relação custo-benefício face ao RTX 4090 ou ao Mac Studio M4 Max é muito questionável.
8. Ollama vs LM Studio — Qual Escolher
| Critério | Ollama | LM Studio |
|---|---|---|
| Interface | Linha de comandos + API REST (sem UI própria) | Interface gráfica completa — chat, gestão de modelos, configuração visual |
| Plataformas | Linux, macOS, Windows — ideal para servidores | Windows, macOS (sem Linux nativo) |
| Integração com outros apps | API OpenAI-compatível — integra com Open WebUI, n8n, Hermes, qualquer app que suporte OpenAI API | API local disponível — boa integração mas mais orientado a uso standalone |
| Formatos suportados | GGUF (via llama.cpp internamente) | GGUF — com acesso directo às configurações avançadas de quantização e context |
| Facilidade inicial | Fácil para técnicos — ollama run modelo e pronto |
Mais fácil para utilizadores não técnicos — GUI intuitiva |
| Casos de uso ideais | Servidor, automação, agentes, Docker, integração com n8n/Open WebUI | Uso pessoal, experimentar modelos, desktop com interface gráfica |
✓ Recomendação prática
Para sysadmins e técnicos IT: Ollama — corre em background como serviço, tem API OpenAI-compatível, integra com Docker, Open WebUI, n8n e agentes. Para uso pessoal no desktop, experimentar modelos, ou para utilizadores menos técnicos: LM Studio — mais visual e intuitivo. As duas ferramentas podem coexistir na mesma máquina.
9. GGUF vs AWQ — Qual o Formato de Modelo Certo
| Formato | O que é | Melhor para | Onde usar |
|---|---|---|---|
| GGUF | Formato llama.cpp — suporta CPU offload (parte do modelo em RAM, parte em VRAM) | Hardware com menos VRAM, Mac (via Metal), uso geral — formato recomendado para começar | Ollama, LM Studio, llama.cpp — máxima compatibilidade |
| AWQ | Formato optimizado para GPU NVIDIA — requer que o modelo inteiro caiba na VRAM | GPU NVIDIA com VRAM suficiente — velocidade ligeiramente superior ao GGUF em GPU pura | vLLM, text-generation-webui — frameworks mais avançados |
ℹ Para 99% dos casos: usar GGUF
O GGUF funciona em qualquer hardware (CPU, GPU NVIDIA, GPU AMD, Apple Silicon), tem suporte CPU offload automático, e é o formato nativo do Ollama e do LM Studio. O AWQ é ligeiramente mais rápido em GPU NVIDIA pura, mas requer que o modelo inteiro caiba na VRAM e usa frameworks mais complexos. A menos que estejas a construir um servidor de produção com vLLM, fica com GGUF.
10. IA Local vs IA na Cloud — Comparação Honesta
| Critério | IA Local | IA Cloud (ChatGPT, Claude, Gemini) |
|---|---|---|
| Privacidade dos dados | ✅ Total — os dados nunca saem da máquina | Os dados são enviados para servidores externos |
| Custo a longo prazo | Custo único do hardware — sem subscrição | Custo recorrente (~20–100€/mês por utilizador) |
| Qualidade do modelo | Bom — modelos locais topo de gama (~70B) não atingem ainda o nível de GPT-4o ou Claude Opus | Melhor qualidade disponível (GPT-4o, Claude 3.7, Gemini Ultra) |
| Disponibilidade | Sempre disponível — sem dependência de internet ou do fornecedor | Depende da ligação e dos servidores do fornecedor (outages ocasionais) |
| Latência | Sem latência de rede — primeiro token imediato | Latência de rede variável — depende do servidor e do tráfego |
| Facilidade de uso | Requer configuração inicial e gestão de hardware | Pronto a usar num browser — sem configuração |
| Ideal para | Dados confidenciais, uso intensivo, ambientes sem internet, agentes autónomos, RGPD | Tarefas pontuais, máxima qualidade, utilizadores sem hardware adequado |
11. Posso Usar um Raspberry Pi?
Sim — o Ollama corre num Raspberry Pi 5 (8GB). Não — não é prático para uso diário.
| Hardware | Modelos que correm | Velocidade | Veredicto |
|---|---|---|---|
| Raspberry Pi 5 (8GB) | 1B–3B apenas (CPU ARM) | 1–3 tok/s — muito lento para uso interactivo | Para experimentação técnica apenas — não recomendado para uso real |
| Intel NUC / Mini PC CPU | 7B com 16–32GB RAM | 3–8 tok/s (CPU sem GPU) | Aceitável para uso não urgente; muito abaixo de uma GPU dedicada |
⚠ Abaixo de 10 tokens por segundo, a experiência degrada muito
Para chat interactivo, 15 tok/s é o mínimo aceitável — a velocidade a que um humano consegue ler confortavelmente. Abaixo disso, a espera entre respostas torna o uso frustrante para a maioria das tarefas do dia-a-dia. Para processamento em batch ou pipelines não interactivos, velocidades mais baixas podem ser aceitáveis.
Artigos relacionados no kbase.pt
- Como Instalar Ollama e Open WebUI com Docker Compose: Guia Passo a Passo
- Como Instalar o Hermes AI Agent com Ollama: Guia Passo a Passo (Grátis)
- DeepSeek vs Qwen vs Gemma: Qual o Melhor Modelo LLM Local para Tarefas IT em 2026
- Como Usar o Copilot e o ChatGPT para Escrever Scripts PowerShell: Guia para Sysadmins
