Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

IA Local · Hardware · GPU · VRAM · Ollama · LM Studio · LLM · PC · Mac | ✎ Duarte Spínola | 27 de Abril de 2026

Correr modelos de linguagem localmente — sem API keys, sem custos por token, sem os teus dados a sair da máquina — está ao alcance de qualquer pessoa com o hardware certo. A pergunta não é “é possível?” mas sim “o que compro para o meu orçamento?”. Este guia responde exactamente a isso: explica a única especificação que realmente importa (VRAM), apresenta três níveis de configuração desde 1.200€ até 5.000€+, e esclarece as dúvidas mais comuns sobre formatos de modelos e ferramentas de inferência.

Neste artigo

A única especificação que importa — VRAM
Tabela de referência: VRAM vs modelos que correm
Quantização a 4-bit — como modelos grandes cabem em menos VRAM
Tier 1 — Entrada (1.000€–1.500€)
Mac vs PC — memória unificada muda o jogo
Tier 2 — Intermédio (2.000€–3.500€)
Tier 3 — Avançado (3.500€–5.000€+)
Ollama vs LM Studio — qual escolher
GGUF vs AWQ — qual o formato de modelo certo
IA Local vs IA na Cloud — comparação honesta
Posso usar um Raspberry Pi?

1. A Única Especificação que Importa — VRAM

A maioria das pessoas compra a GPU errada para IA local. Olham para os núcleos CUDA, para a frequência do chip, para o desempenho em jogos — mas a única métrica que determina que modelos consegues correr é a VRAM (memória dedicada da GPU).

Pensa da seguinte forma: a VRAM é o balcão de trabalho da GPU. O modelo de IA tem de caber inteiramente nesse balcão para ser processado. Se o modelo for maior do que o balcão, parte vai para a RAM do sistema — e a velocidade de geração cai para valores inutilizáveis (menos de 2 tokens por segundo).

⚠ A regra de ouro — VRAM primeiro, tudo o resto depois

Uma GPU mais lenta com mais VRAM ganha sempre contra uma GPU mais rápida com pouca VRAM. Se o modelo não couber, não há velocidade de processamento que resolva. Para inferência local, mais VRAM ao melhor preço é sempre a escolha certa.

2. Tabela de Referência: VRAM vs Modelos que Correm

Esta tabela assume quantização Q4 (4-bit) — o formato mais comum para uso diário. Valores com precisão completa (Q8/FP16) requerem aproximadamente o dobro de VRAM.

VRAM disponível	Modelos que correm (Q4)	Velocidade típica (tok/s em 8B Q4)	GPUs representativas
6–8 GB	7B apenas — com pouca margem para contexto longo	20–40 t/s	RTX 4060 8GB, RTX 3060 8GB
12 GB	7B com conforto, 13B com alguma margem	40–70 t/s	Intel Arc B580, RTX 4060 12GB
16 GB	13–20B confortável; MoE 30B (ex: Nemotron, Qwen3 30B-A3B)	60–90 t/s	RTX 4060 Ti 16GB, RTX 4070 Super
24 GB	Até 32B com conforto; 70B com CPU offload ligeiro	80–130 t/s	RTX 4090 24GB, RTX 3090 (usado)
32 GB	70B Q4 sem offload; modelos grandes com contexto longo	150–213 t/s (8B)	RTX 5090 32GB
48–128 GB+	70B+ Q6/Q8 (qualidade próxima de FP16); modelos 100B+	Depende da largura de banda	Mac Mini M4 Pro 48GB, Mac Studio M4 Max 128GB

3. Quantização a 4-bit — Como Modelos Grandes Cabem em Menos VRAM

Os pesos de um modelo de IA são normalmente guardados a 16-bit (FP16) — ou seja, cada parâmetro ocupa 2 bytes. Um modelo de 7B parâmetros em FP16 ocupa ~14 GB. A quantização reduz a precisão de cada peso de 16-bit para 4-bit, reduzindo o tamanho para ~4 GB — o mesmo modelo, 3.5× mais pequeno.

Nível de quantização	Bits por peso	Tamanho de um modelo 7B	Qualidade vs FP16
FP16	16-bit	~14 GB	Referência — qualidade máxima
Q8_0	8-bit	~7 GB	Praticamente igual ao FP16 — imperceptível
Q4_K_M	4-bit (mixed)	~4–5 GB	Ligeira degradação — o equilíbrio recomendado para uso diário
Q2_K	2-bit	~2.5 GB	Degradação significativa — para hardware muito limitado

ℹ A regra prática para escolher a quantização

Usar sempre Q4_K_M como ponto de partida — é o padrão do Ollama e o melhor equilíbrio entre qualidade e tamanho. Se a VRAM permitir, subir para Q8_0 para modelos até 13B. Evitar Q2 salvo em hardware extremamente limitado onde a alternativa é não correr o modelo.

4. Tier 1 — Entrada (1.000€–1.500€)

A configuração de entrada correcta para IA local não é a mais barata em termos absolutos — é a que oferece o melhor equilíbrio entre VRAM e preço para começar a usar modelos de 13-20B de forma fluída.

Configuração PC — Tier 1

Componente	Recomendação	Porquê
GPU	NVIDIA RTX 4060 Ti 16GB (~400€)	16GB VRAM — sweet spot para 13-20B. 89 tok/s em 8B Q4. Eficiente em consumo (165W TDP). CUDA para máxima compatibilidade.
CPU	AMD Ryzen 5 7600X ou Intel Core i5-13600K	Para inferência local, o CPU é secundário — qualquer CPU moderno chega
RAM	32 GB DDR5	Para offload parcial de modelos maiores quando a VRAM não chega
Armazenamento	1 TB NVMe SSD + 2 TB HDD/SSD para modelos	Os modelos ocupam 4-25 GB cada — acumula rapidamente
PSU	650W 80 Plus Gold	A RTX 4060 Ti tem TDP de 165W — 650W é suficiente e com margem
SO	Windows 11 ou Ubuntu 24.04	Ollama funciona em ambos. Linux tem melhor desempenho em alguns cenários

O que consegues correr com esta configuração:

Modelo	Qualidade	Velocidade aprox.
qwen2.5:7b / gemma3:4b	Assistente rápido, coding, helpdesk IT	80–100 t/s — muito fluído
qwen2.5:14b / qwen2.5-coder:14b	Scripts PowerShell, análise de logs, código	45–60 t/s — confortável
nemotron-3-nano:30b / qwen3:30b-A3B	MoE 30B — qualidade alta com activação de 3B por token	25–40 t/s — usável

ℹ Alternativa budget: Intel Arc B580 12GB (~250€)

Para quem quer começar com o mínimo investimento, a Intel Arc B580 com 12GB oferece 62 tok/s em modelos 8B Q4 por cerca de 250€. Só recomendada para modelos até 13B e em sistemas Linux (suporte Ollama via oneAPI mais estável que Windows). Limitação: sem suporte CUDA — alguns agentes e frameworks podem ter menos compatibilidade.

5. Mac vs PC — Memória Unificada Muda o Jogo

O Apple Silicon (M1, M2, M3, M4) usa uma arquitectura de memória unificada — o CPU, a GPU e o Neural Engine partilham o mesmo pool de memória. Isto elimina o tecto de VRAM que limita as GPUs dedicadas. Um Mac Mini M4 com 48 GB tem efectivamente 48 GB disponíveis para modelos — nenhuma GPU de consumidor oferece isso a este preço.

Critério	PC com GPU NVIDIA	Mac Apple Silicon
Tecto de memória	Limitado pela VRAM da GPU (máx. 32GB no RTX 5090)	Toda a RAM disponível (até 192GB no Mac Studio M4 Ultra)
Velocidade de geração	2–4× mais rápido por token (RTX 4090 vs Mac M4 Pro no mesmo modelo)	Mais lento — mas usável para chat interactivo
Consumo energético	350–500W sob carga	~30W no Mac Mini — silencioso
Ecosistema de software	CUDA — compatibilidade máxima (PyTorch, llama.cpp, todos os agentes)	Metal/MLX — excelente para Ollama e LM Studio; alguns frameworks ML limitados
Facilidade de configuração	Instalar drivers CUDA, gerir versões	brew install ollama — 10 minutos do zero ao primeiro modelo
Modelos muito grandes (70B+)	Requer GPU profissional ($10k+) ou dual-GPU	Mac Mini M4 Pro 48GB corre 70B Q4 — solução de consumidor única

⚠ Atenção: ultrapassar a memória no Mac é catastrófico

Se um modelo exceder a memória unificada do Mac, o macOS começa a usar swap para SSD. A velocidade de geração cai de ~15 tok/s para menos de 0.5 tok/s — inutilizável. Nunca tentar carregar um modelo maior do que a RAM disponível minus 3-4 GB para o sistema operativo.

6. Tier 2 — Intermédio (2.000€–3.500€)

Neste tier entram as configurações sérias — capazes de correr modelos de 70B de forma usável, com velocidades que rivalizam com APIs de cloud.

Opção	Configuração	Preço aprox.	Ponto forte
PC com RTX 4090	RTX 4090 24GB + Ryzen 9 7900X + 64GB RAM	~2.800€	Máxima velocidade: 128 t/s em 8B Q4, 50+ t/s em 70B. Ecosistema CUDA completo.
PC com RTX 3090 (usado)	RTX 3090 24GB (usado) + sistema médio	~1.800€	24GB VRAM a metade do preço da 4090. 90% do desempenho. Risco de hardware usado.
Mac Mini M4 Pro 48GB	Mac Mini M4 Pro com 48GB RAM unificada	~1.999€	48GB efectivos para modelos. 70B Q4 cabe. 30W de consumo. Zero configuração.
Mac Mini M4 Pro 64GB	Mac Mini M4 Pro com 64GB RAM unificada	~2.199€	70B Q4 com folga para contexto longo. 12–18 tok/s em modelos 30B. 273GB/s de largura de banda.

ℹ O Mac Mini M4 Pro 48GB é a opção mais versátil deste tier

Por menos de 2.000€, o Mac Mini M4 Pro 48GB oferece o que nenhuma GPU de consumidor consegue neste preço: 48GB de memória efectiva para modelos. Não é o mais rápido por token — uma RTX 4090 é 2-3× mais rápida — mas é o único dispositivo neste orçamento capaz de correr modelos 70B sem offload para CPU. Para quem quer silêncio, eficiência energética e simplicidade, é a escolha mais equilibrada.

7. Tier 3 — Avançado (3.500€–5.000€+)

Opção	Configuração	Preço aprox.	Para quem
PC com RTX 5090	RTX 5090 32GB + workstation topo de gama	~5.000–6.000€ (preço de mercado em 2026)	213 t/s em 8B. 70B Q4 sem offload. GDDR7. Mas o preço de mercado está muito acima do MSRP devido à escassez de DRAM.
Dual RTX 3090	2× RTX 3090 24GB (48GB total via NVLink/tensor parallelism)	~3.500€	70B em Q5 com conforto. Mais complexo de configurar (llama.cpp tensor parallelism).
Mac Studio M4 Max 128GB	Mac Studio com M4 Max e 128GB RAM unificada	~3.199€	70B em Q8 (quase FP16). Única opção de consumidor com 128GB. 546 GB/s de largura de banda — 2× o Mac Mini M4 Pro.
Minisforum MS-S1 Max 128GB	AMD Ryzen AI Max+ 395 com 128GB RAM unificada	~2.300–2.960€	Alternativa PC ao Mac com memória unificada. ROCm. Mais configuração necessária que Mac.

⚠ RTX 5090 em 2026 — cuidado com o preço de mercado

O MSRP da RTX 5090 é 1.999 USD. Em Abril de 2026, o preço de mercado real está entre 3.700 e 4.800 USD devido à escassez de DRAM e ao scalping. A um preço de ~2.000€, seria uma escolha óbvia. A 4.000€+, a relação custo-benefício face ao RTX 4090 ou ao Mac Studio M4 Max é muito questionável.

8. Ollama vs LM Studio — Qual Escolher

Critério	Ollama	LM Studio
Interface	Linha de comandos + API REST (sem UI própria)	Interface gráfica completa — chat, gestão de modelos, configuração visual
Plataformas	Linux, macOS, Windows — ideal para servidores	Windows, macOS (sem Linux nativo)
Integração com outros apps	API OpenAI-compatível — integra com Open WebUI, n8n, Hermes, qualquer app que suporte OpenAI API	API local disponível — boa integração mas mais orientado a uso standalone
Formatos suportados	GGUF (via llama.cpp internamente)	GGUF — com acesso directo às configurações avançadas de quantização e context
Facilidade inicial	Fácil para técnicos — `ollama run modelo` e pronto	Mais fácil para utilizadores não técnicos — GUI intuitiva
Casos de uso ideais	Servidor, automação, agentes, Docker, integração com n8n/Open WebUI	Uso pessoal, experimentar modelos, desktop com interface gráfica

✓ Recomendação prática

Para sysadmins e técnicos IT: Ollama — corre em background como serviço, tem API OpenAI-compatível, integra com Docker, Open WebUI, n8n e agentes. Para uso pessoal no desktop, experimentar modelos, ou para utilizadores menos técnicos: LM Studio — mais visual e intuitivo. As duas ferramentas podem coexistir na mesma máquina.

9. GGUF vs AWQ — Qual o Formato de Modelo Certo

Formato	O que é	Melhor para	Onde usar
GGUF	Formato llama.cpp — suporta CPU offload (parte do modelo em RAM, parte em VRAM)	Hardware com menos VRAM, Mac (via Metal), uso geral — formato recomendado para começar	Ollama, LM Studio, llama.cpp — máxima compatibilidade
AWQ	Formato optimizado para GPU NVIDIA — requer que o modelo inteiro caiba na VRAM	GPU NVIDIA com VRAM suficiente — velocidade ligeiramente superior ao GGUF em GPU pura	vLLM, text-generation-webui — frameworks mais avançados

ℹ Para 99% dos casos: usar GGUF

O GGUF funciona em qualquer hardware (CPU, GPU NVIDIA, GPU AMD, Apple Silicon), tem suporte CPU offload automático, e é o formato nativo do Ollama e do LM Studio. O AWQ é ligeiramente mais rápido em GPU NVIDIA pura, mas requer que o modelo inteiro caiba na VRAM e usa frameworks mais complexos. A menos que estejas a construir um servidor de produção com vLLM, fica com GGUF.

10. IA Local vs IA na Cloud — Comparação Honesta

Critério	IA Local	IA Cloud (ChatGPT, Claude, Gemini)
Privacidade dos dados	✅ Total — os dados nunca saem da máquina	Os dados são enviados para servidores externos
Custo a longo prazo	Custo único do hardware — sem subscrição	Custo recorrente (~20–100€/mês por utilizador)
Qualidade do modelo	Bom — modelos locais topo de gama (~70B) não atingem ainda o nível de GPT-4o ou Claude Opus	Melhor qualidade disponível (GPT-4o, Claude 3.7, Gemini Ultra)
Disponibilidade	Sempre disponível — sem dependência de internet ou do fornecedor	Depende da ligação e dos servidores do fornecedor (outages ocasionais)
Latência	Sem latência de rede — primeiro token imediato	Latência de rede variável — depende do servidor e do tráfego
Facilidade de uso	Requer configuração inicial e gestão de hardware	Pronto a usar num browser — sem configuração
Ideal para	Dados confidenciais, uso intensivo, ambientes sem internet, agentes autónomos, RGPD	Tarefas pontuais, máxima qualidade, utilizadores sem hardware adequado

11. Posso Usar um Raspberry Pi?

Sim — o Ollama corre num Raspberry Pi 5 (8GB). Não — não é prático para uso diário.

Hardware	Modelos que correm	Velocidade	Veredicto
Raspberry Pi 5 (8GB)	1B–3B apenas (CPU ARM)	1–3 tok/s — muito lento para uso interactivo	Para experimentação técnica apenas — não recomendado para uso real
Intel NUC / Mini PC CPU	7B com 16–32GB RAM	3–8 tok/s (CPU sem GPU)	Aceitável para uso não urgente; muito abaixo de uma GPU dedicada

⚠ Abaixo de 10 tokens por segundo, a experiência degrada muito

Para chat interactivo, 15 tok/s é o mínimo aceitável — a velocidade a que um humano consegue ler confortavelmente. Abaixo disso, a espera entre respostas torna o uso frustrante para a maioria das tarefas do dia-a-dia. Para processamento em batch ou pipelines não interactivos, velocidades mais baixas podem ser aceitáveis.

Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

Pesquisa Online

Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

1. A Única Especificação que Importa — VRAM

2. Tabela de Referência: VRAM vs Modelos que Correm

3. Quantização a 4-bit — Como Modelos Grandes Cabem em Menos VRAM

4. Tier 1 — Entrada (1.000€–1.500€)

Configuração PC — Tier 1

5. Mac vs PC — Memória Unificada Muda o Jogo

6. Tier 2 — Intermédio (2.000€–3.500€)

7. Tier 3 — Avançado (3.500€–5.000€+)

8. Ollama vs LM Studio — Qual Escolher

9. GGUF vs AWQ — Qual o Formato de Modelo Certo

10. IA Local vs IA na Cloud — Comparação Honesta

11. Posso Usar um Raspberry Pi?

Este artigo foi útil?

Duarte Spínola

Deixe um Comentário

Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

Pesquisa Online

Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento

1. A Única Especificação que Importa — VRAM

2. Tabela de Referência: VRAM vs Modelos que Correm

3. Quantização a 4-bit — Como Modelos Grandes Cabem em Menos VRAM

4. Tier 1 — Entrada (1.000€–1.500€)

Configuração PC — Tier 1

5. Mac vs PC — Memória Unificada Muda o Jogo

6. Tier 2 — Intermédio (2.000€–3.500€)

7. Tier 3 — Avançado (3.500€–5.000€+)

8. Ollama vs LM Studio — Qual Escolher

9. GGUF vs AWQ — Qual o Formato de Modelo Certo

10. IA Local vs IA na Cloud — Comparação Honesta

11. Posso Usar um Raspberry Pi?

Este artigo foi útil?

Artigos Relacionados

Duarte Spínola

Deixe um Comentário