Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

IA Local · Hardware · GPU · VRAM · Ollama · LM Studio · LLM · PC · Mac  |  ✎ Duarte Spínola  |  27 de Abril de 2026

Correr modelos de linguagem localmente — sem API keys, sem custos por token, sem os teus dados a sair da máquina — está ao alcance de qualquer pessoa com o hardware certo. A pergunta não é “é possível?” mas sim “o que compro para o meu orçamento?”. Este guia responde exactamente a isso: explica a única especificação que realmente importa (VRAM), apresenta três níveis de configuração desde 1.200€ até 5.000€+, e esclarece as dúvidas mais comuns sobre formatos de modelos e ferramentas de inferência.

1. A Única Especificação que Importa — VRAM

A maioria das pessoas compra a GPU errada para IA local. Olham para os núcleos CUDA, para a frequência do chip, para o desempenho em jogos — mas a única métrica que determina que modelos consegues correr é a VRAM (memória dedicada da GPU).

Pensa da seguinte forma: a VRAM é o balcão de trabalho da GPU. O modelo de IA tem de caber inteiramente nesse balcão para ser processado. Se o modelo for maior do que o balcão, parte vai para a RAM do sistema — e a velocidade de geração cai para valores inutilizáveis (menos de 2 tokens por segundo).

⚠ A regra de ouro — VRAM primeiro, tudo o resto depois

Uma GPU mais lenta com mais VRAM ganha sempre contra uma GPU mais rápida com pouca VRAM. Se o modelo não couber, não há velocidade de processamento que resolva. Para inferência local, mais VRAM ao melhor preço é sempre a escolha certa.

2. Tabela de Referência: VRAM vs Modelos que Correm

Esta tabela assume quantização Q4 (4-bit) — o formato mais comum para uso diário. Valores com precisão completa (Q8/FP16) requerem aproximadamente o dobro de VRAM.

VRAM disponível Modelos que correm (Q4) Velocidade típica (tok/s em 8B Q4) GPUs representativas
6–8 GB 7B apenas — com pouca margem para contexto longo 20–40 t/s RTX 4060 8GB, RTX 3060 8GB
12 GB 7B com conforto, 13B com alguma margem 40–70 t/s Intel Arc B580, RTX 4060 12GB
16 GB 13–20B confortável; MoE 30B (ex: Nemotron, Qwen3 30B-A3B) 60–90 t/s RTX 4060 Ti 16GB, RTX 4070 Super
24 GB Até 32B com conforto; 70B com CPU offload ligeiro 80–130 t/s RTX 4090 24GB, RTX 3090 (usado)
32 GB 70B Q4 sem offload; modelos grandes com contexto longo 150–213 t/s (8B) RTX 5090 32GB
48–128 GB+ 70B+ Q6/Q8 (qualidade próxima de FP16); modelos 100B+ Depende da largura de banda Mac Mini M4 Pro 48GB, Mac Studio M4 Max 128GB

3. Quantização a 4-bit — Como Modelos Grandes Cabem em Menos VRAM

Os pesos de um modelo de IA são normalmente guardados a 16-bit (FP16) — ou seja, cada parâmetro ocupa 2 bytes. Um modelo de 7B parâmetros em FP16 ocupa ~14 GB. A quantização reduz a precisão de cada peso de 16-bit para 4-bit, reduzindo o tamanho para ~4 GB — o mesmo modelo, 3.5× mais pequeno.

Nível de quantização Bits por peso Tamanho de um modelo 7B Qualidade vs FP16
FP16 16-bit ~14 GB Referência — qualidade máxima
Q8_0 8-bit ~7 GB Praticamente igual ao FP16 — imperceptível
Q4_K_M 4-bit (mixed) ~4–5 GB Ligeira degradação — o equilíbrio recomendado para uso diário
Q2_K 2-bit ~2.5 GB Degradação significativa — para hardware muito limitado

ℹ A regra prática para escolher a quantização

Usar sempre Q4_K_M como ponto de partida — é o padrão do Ollama e o melhor equilíbrio entre qualidade e tamanho. Se a VRAM permitir, subir para Q8_0 para modelos até 13B. Evitar Q2 salvo em hardware extremamente limitado onde a alternativa é não correr o modelo.

4. Tier 1 — Entrada (1.000€–1.500€)

A configuração de entrada correcta para IA local não é a mais barata em termos absolutos — é a que oferece o melhor equilíbrio entre VRAM e preço para começar a usar modelos de 13-20B de forma fluída.

Configuração PC — Tier 1

Componente Recomendação Porquê
GPU NVIDIA RTX 4060 Ti 16GB (~400€) 16GB VRAM — sweet spot para 13-20B. 89 tok/s em 8B Q4. Eficiente em consumo (165W TDP). CUDA para máxima compatibilidade.
CPU AMD Ryzen 5 7600X ou Intel Core i5-13600K Para inferência local, o CPU é secundário — qualquer CPU moderno chega
RAM 32 GB DDR5 Para offload parcial de modelos maiores quando a VRAM não chega
Armazenamento 1 TB NVMe SSD + 2 TB HDD/SSD para modelos Os modelos ocupam 4-25 GB cada — acumula rapidamente
PSU 650W 80 Plus Gold A RTX 4060 Ti tem TDP de 165W — 650W é suficiente e com margem
SO Windows 11 ou Ubuntu 24.04 Ollama funciona em ambos. Linux tem melhor desempenho em alguns cenários

O que consegues correr com esta configuração:

Modelo Qualidade Velocidade aprox.
qwen2.5:7b / gemma3:4b Assistente rápido, coding, helpdesk IT 80–100 t/s — muito fluído
qwen2.5:14b / qwen2.5-coder:14b Scripts PowerShell, análise de logs, código 45–60 t/s — confortável
nemotron-3-nano:30b / qwen3:30b-A3B MoE 30B — qualidade alta com activação de 3B por token 25–40 t/s — usável

ℹ Alternativa budget: Intel Arc B580 12GB (~250€)

Para quem quer começar com o mínimo investimento, a Intel Arc B580 com 12GB oferece 62 tok/s em modelos 8B Q4 por cerca de 250€. Só recomendada para modelos até 13B e em sistemas Linux (suporte Ollama via oneAPI mais estável que Windows). Limitação: sem suporte CUDA — alguns agentes e frameworks podem ter menos compatibilidade.

5. Mac vs PC — Memória Unificada Muda o Jogo

O Apple Silicon (M1, M2, M3, M4) usa uma arquitectura de memória unificada — o CPU, a GPU e o Neural Engine partilham o mesmo pool de memória. Isto elimina o tecto de VRAM que limita as GPUs dedicadas. Um Mac Mini M4 com 48 GB tem efectivamente 48 GB disponíveis para modelos — nenhuma GPU de consumidor oferece isso a este preço.

Critério PC com GPU NVIDIA Mac Apple Silicon
Tecto de memória Limitado pela VRAM da GPU (máx. 32GB no RTX 5090) Toda a RAM disponível (até 192GB no Mac Studio M4 Ultra)
Velocidade de geração 2–4× mais rápido por token (RTX 4090 vs Mac M4 Pro no mesmo modelo) Mais lento — mas usável para chat interactivo
Consumo energético 350–500W sob carga ~30W no Mac Mini — silencioso
Ecosistema de software CUDA — compatibilidade máxima (PyTorch, llama.cpp, todos os agentes) Metal/MLX — excelente para Ollama e LM Studio; alguns frameworks ML limitados
Facilidade de configuração Instalar drivers CUDA, gerir versões brew install ollama — 10 minutos do zero ao primeiro modelo
Modelos muito grandes (70B+) Requer GPU profissional ($10k+) ou dual-GPU Mac Mini M4 Pro 48GB corre 70B Q4 — solução de consumidor única

⚠ Atenção: ultrapassar a memória no Mac é catastrófico

Se um modelo exceder a memória unificada do Mac, o macOS começa a usar swap para SSD. A velocidade de geração cai de ~15 tok/s para menos de 0.5 tok/s — inutilizável. Nunca tentar carregar um modelo maior do que a RAM disponível minus 3-4 GB para o sistema operativo.

6. Tier 2 — Intermédio (2.000€–3.500€)

Neste tier entram as configurações sérias — capazes de correr modelos de 70B de forma usável, com velocidades que rivalizam com APIs de cloud.

Opção Configuração Preço aprox. Ponto forte
PC com RTX 4090 RTX 4090 24GB + Ryzen 9 7900X + 64GB RAM ~2.800€ Máxima velocidade: 128 t/s em 8B Q4, 50+ t/s em 70B. Ecosistema CUDA completo.
PC com RTX 3090 (usado) RTX 3090 24GB (usado) + sistema médio ~1.800€ 24GB VRAM a metade do preço da 4090. 90% do desempenho. Risco de hardware usado.
Mac Mini M4 Pro 48GB Mac Mini M4 Pro com 48GB RAM unificada ~1.999€ 48GB efectivos para modelos. 70B Q4 cabe. 30W de consumo. Zero configuração.
Mac Mini M4 Pro 64GB Mac Mini M4 Pro com 64GB RAM unificada ~2.199€ 70B Q4 com folga para contexto longo. 12–18 tok/s em modelos 30B. 273GB/s de largura de banda.

ℹ O Mac Mini M4 Pro 48GB é a opção mais versátil deste tier

Por menos de 2.000€, o Mac Mini M4 Pro 48GB oferece o que nenhuma GPU de consumidor consegue neste preço: 48GB de memória efectiva para modelos. Não é o mais rápido por token — uma RTX 4090 é 2-3× mais rápida — mas é o único dispositivo neste orçamento capaz de correr modelos 70B sem offload para CPU. Para quem quer silêncio, eficiência energética e simplicidade, é a escolha mais equilibrada.

7. Tier 3 — Avançado (3.500€–5.000€+)

Opção Configuração Preço aprox. Para quem
PC com RTX 5090 RTX 5090 32GB + workstation topo de gama ~5.000–6.000€ (preço de mercado em 2026) 213 t/s em 8B. 70B Q4 sem offload. GDDR7. Mas o preço de mercado está muito acima do MSRP devido à escassez de DRAM.
Dual RTX 3090 2× RTX 3090 24GB (48GB total via NVLink/tensor parallelism) ~3.500€ 70B em Q5 com conforto. Mais complexo de configurar (llama.cpp tensor parallelism).
Mac Studio M4 Max 128GB Mac Studio com M4 Max e 128GB RAM unificada ~3.199€ 70B em Q8 (quase FP16). Única opção de consumidor com 128GB. 546 GB/s de largura de banda — 2× o Mac Mini M4 Pro.
Minisforum MS-S1 Max 128GB AMD Ryzen AI Max+ 395 com 128GB RAM unificada ~2.300–2.960€ Alternativa PC ao Mac com memória unificada. ROCm. Mais configuração necessária que Mac.

⚠ RTX 5090 em 2026 — cuidado com o preço de mercado

O MSRP da RTX 5090 é 1.999 USD. Em Abril de 2026, o preço de mercado real está entre 3.700 e 4.800 USD devido à escassez de DRAM e ao scalping. A um preço de ~2.000€, seria uma escolha óbvia. A 4.000€+, a relação custo-benefício face ao RTX 4090 ou ao Mac Studio M4 Max é muito questionável.

8. Ollama vs LM Studio — Qual Escolher

Critério Ollama LM Studio
Interface Linha de comandos + API REST (sem UI própria) Interface gráfica completa — chat, gestão de modelos, configuração visual
Plataformas Linux, macOS, Windows — ideal para servidores Windows, macOS (sem Linux nativo)
Integração com outros apps API OpenAI-compatível — integra com Open WebUI, n8n, Hermes, qualquer app que suporte OpenAI API API local disponível — boa integração mas mais orientado a uso standalone
Formatos suportados GGUF (via llama.cpp internamente) GGUF — com acesso directo às configurações avançadas de quantização e context
Facilidade inicial Fácil para técnicos — ollama run modelo e pronto Mais fácil para utilizadores não técnicos — GUI intuitiva
Casos de uso ideais Servidor, automação, agentes, Docker, integração com n8n/Open WebUI Uso pessoal, experimentar modelos, desktop com interface gráfica

✓ Recomendação prática

Para sysadmins e técnicos IT: Ollama — corre em background como serviço, tem API OpenAI-compatível, integra com Docker, Open WebUI, n8n e agentes. Para uso pessoal no desktop, experimentar modelos, ou para utilizadores menos técnicos: LM Studio — mais visual e intuitivo. As duas ferramentas podem coexistir na mesma máquina.

9. GGUF vs AWQ — Qual o Formato de Modelo Certo

Formato O que é Melhor para Onde usar
GGUF Formato llama.cpp — suporta CPU offload (parte do modelo em RAM, parte em VRAM) Hardware com menos VRAM, Mac (via Metal), uso geral — formato recomendado para começar Ollama, LM Studio, llama.cpp — máxima compatibilidade
AWQ Formato optimizado para GPU NVIDIA — requer que o modelo inteiro caiba na VRAM GPU NVIDIA com VRAM suficiente — velocidade ligeiramente superior ao GGUF em GPU pura vLLM, text-generation-webui — frameworks mais avançados

ℹ Para 99% dos casos: usar GGUF

O GGUF funciona em qualquer hardware (CPU, GPU NVIDIA, GPU AMD, Apple Silicon), tem suporte CPU offload automático, e é o formato nativo do Ollama e do LM Studio. O AWQ é ligeiramente mais rápido em GPU NVIDIA pura, mas requer que o modelo inteiro caiba na VRAM e usa frameworks mais complexos. A menos que estejas a construir um servidor de produção com vLLM, fica com GGUF.

10. IA Local vs IA na Cloud — Comparação Honesta

Critério IA Local IA Cloud (ChatGPT, Claude, Gemini)
Privacidade dos dados ✅ Total — os dados nunca saem da máquina Os dados são enviados para servidores externos
Custo a longo prazo Custo único do hardware — sem subscrição Custo recorrente (~20–100€/mês por utilizador)
Qualidade do modelo Bom — modelos locais topo de gama (~70B) não atingem ainda o nível de GPT-4o ou Claude Opus Melhor qualidade disponível (GPT-4o, Claude 3.7, Gemini Ultra)
Disponibilidade Sempre disponível — sem dependência de internet ou do fornecedor Depende da ligação e dos servidores do fornecedor (outages ocasionais)
Latência Sem latência de rede — primeiro token imediato Latência de rede variável — depende do servidor e do tráfego
Facilidade de uso Requer configuração inicial e gestão de hardware Pronto a usar num browser — sem configuração
Ideal para Dados confidenciais, uso intensivo, ambientes sem internet, agentes autónomos, RGPD Tarefas pontuais, máxima qualidade, utilizadores sem hardware adequado

11. Posso Usar um Raspberry Pi?

Sim — o Ollama corre num Raspberry Pi 5 (8GB). Não — não é prático para uso diário.

Hardware Modelos que correm Velocidade Veredicto
Raspberry Pi 5 (8GB) 1B–3B apenas (CPU ARM) 1–3 tok/s — muito lento para uso interactivo Para experimentação técnica apenas — não recomendado para uso real
Intel NUC / Mini PC CPU 7B com 16–32GB RAM 3–8 tok/s (CPU sem GPU) Aceitável para uso não urgente; muito abaixo de uma GPU dedicada

⚠ Abaixo de 10 tokens por segundo, a experiência degrada muito

Para chat interactivo, 15 tok/s é o mínimo aceitável — a velocidade a que um humano consegue ler confortavelmente. Abaixo disso, a espera entre respostas torna o uso frustrante para a maioria das tarefas do dia-a-dia. Para processamento em batch ou pipelines não interactivos, velocidades mais baixas podem ser aceitáveis.

Este artigo foi útil?

Duarte Spínola

Deixe um Comentário