RTX 5090, Mac Studio ou DGX Spark? Como Escolher o Teu PC de IA Pessoal em 2026
IA Local · Hardware · RTX 5090 · Mac Studio M4 Max · DGX Spark · LLM · PC Pessoal | ✎ Duarte Spínola | 2 de Maio de 2026
Estamos em 2026 e a questão já não é “consigo correr IA localmente?” — a resposta é sim, com hardware acessível. A questão certa é qual das três abordagens faz sentido para o teu caso de uso: um PC com uma RTX 5090 para máxima velocidade bruta, um Mac Studio M4 Max para os maiores modelos em silêncio total, ou um NVIDIA DGX Spark para quem quer o ecossistema CUDA completo numa caixa pequena? Este artigo baseia-se numa análise comparativa dos três sistemas com dados reais de benchmarks de Maio de 2026.
O argumento central deste comparativo vai além do hardware: a verdadeira vantagem de ter IA local não é a poupança em custos de API — é a acumulação de conhecimento ao longo do tempo. Quem aluga a camada de memória a serviços proprietários perde o conhecimento institucional quando fecha a aba. Quem controla o substrato, compõe.
Neste artigo
- O novo paradigma — PC de IA pessoal como sistema de routing
- Memória em primeiro lugar — o erro que a maioria comete
- RTX 5090 — velocidade máxima, mas com tecto
- Mac Studio M4 Max — modelos maiores, silêncio total
- NVIDIA DGX Spark — CUDA numa caixa pequena
- Comparativo completo — specs, preços e benchmarks
- Três perfis de comprador — qual é o teu?
- O stack de software — muitas superfícies, um runtime
- A cloud como visitante, não como proprietária
- Veredicto — o que comprar em 2026
1. O Novo Paradigma — PC de IA Pessoal como Sistema de Routing
A narrativa “local vs. cloud” está errada. O enquadramento correcto é o de um sistema de routing — a tua máquina local é o substrato, e a cloud é um recurso que visitas quando necessário, não a fundação sobre a qual assentas tudo.
Um PC de IA pessoal bem construído faz três coisas que a cloud não consegue replicar com o mesmo valor composto:
| Capacidade | O que significa na prática | Porque a cloud não chega |
|---|---|---|
| Memória cumulativa e auditável | RAG pessoal sobre as tuas notas, reuniões, código e documentos — tudo indexado localmente | Cada sessão cloud começa do zero. Os teus dados ficam nos servidores deles. |
| Muitas superfícies, um stack | Editor de código, notas, browser, voz — todos a chamar o mesmo runtime local via MCP ou API | Na cloud pagas por cada token em cada superfície. Localmente corres o mesmo modelo para tudo. |
| Dados que nunca saem | Captura de reuniões, código proprietário, dados de clientes — processados localmente, sem RGPD complicado | Qualquer dado enviado para um LLM cloud é, por definição, dados de terceiros. |
2. Memória em Primeiro Lugar — o Erro que a Maioria Comete
A maioria das pessoas que constrói um PC de IA pessoal erra ao optimizar o pipeline antes de resolver a camada de memória. Instalam Ollama, correm um modelo 7B, ficam impressionados com a velocidade — e nunca chegam a ter um sistema que realmente acumula conhecimento.
A camada de memória de um PC de IA pessoal tem quatro componentes, cada um com necessidades diferentes:
| Tipo de memória | Formato | Ferramenta | Nota |
|---|---|---|---|
| Notas e pensamentos | Markdown plain text + Git | Obsidian, Zettlr, VSCode | A versão “aborrecida e imortal” — funciona daqui a 20 anos sem qualquer cloud |
| Documentos e PDFs | Vector store local (RAG) | ChromaDB, Qdrant, Weaviate local | Indexar uma vez, consultar sempre — embeddings correm localmente |
| Reuniões e conversas | Transcrição local (Whisper) | Whisper.cpp, faster-whisper | Áudio nunca sai da máquina — capture de reuniões sem enviar para a cloud |
| Código e projectos | Repositório Git local + RAG | Continue.dev, Aider, coding agents locais | Loop de coding privado — sem o código sair para GitHub Copilot ou similar |
ℹ Markdown + Git é a base de tudo
Plain text em Markdown com versionamento Git é o formato mais durável que existe para notas pessoais e conhecimento acumulado. Não depende de nenhuma empresa, funciona com qualquer editor, e é indexável por qualquer RAG local. Antes de comprar hardware, estrutura o teu sistema de notas — o hardware serve a memória, não o contrário.
3. RTX 5090 — Velocidade Máxima, mas com Tecto
A NVIDIA RTX 5090 é a GPU de consumidor mais rápida disponível em 2026. Com a arquitectura Blackwell e 32 GB de GDDR7, entrega 1.792 GB/s de largura de banda de memória — o dobro da RTX 4090. Para modelos que cabem nos 32 GB, é imbatível em velocidade.
O que corre bem
| Modelo | Velocidade (tok/s) | Adequado para |
|---|---|---|
| Llama 3.3 8B Q4 | ~213 tok/s | Chat, assistente, helpdesk IT |
| Qwen 2.5 32B Q4 | ~55–70 tok/s | Coding, análise de logs, agents |
| Llama 3.3 70B Q4 | Não cabe — offload para RAM lento | Inutilizável sem dual GPU |
| ComfyUI / FLUX image gen | 2–5× mais rápido que Mac | Geração de imagem, vídeo — CUDA imbatível |
Prós e contras
| ✓ Prós | ⚠ Contras |
|---|---|
| Mais rápido em tokens/s para modelos até 32B | Tecto duro em 32 GB — 70B não corre sem dual GPU |
| Ecossistema CUDA completo — PyTorch, Fine-tuning, vLLM | Preço de mercado real: ~3.700–4.800€ (escassez de DRAM em 2026) |
| Geração de imagem e vídeo — CUDA 2–5× mais rápido que MPS | 450–600W sob carga — ~500–700€/ano em electricidade |
| Fine-tuning de modelos — muito mais rápido que Mac | Barulhento — ventoinhas audíveis sob carga de inferência |
⚠ O preço de mercado real da RTX 5090 em 2026
O MSRP da RTX 5090 é 1.999 USD. Em Maio de 2026, o preço de mercado real está entre 3.700 e 4.800 USD devido à escassez de GDDR7 e ao scalping. A este preço, a relação custo-benefício face ao Mac Studio M4 Max com 128 GB ou ao DGX Spark fica muito comprimida. Verificar o preço actual antes de decidir — a situação pode mudar.
4. Mac Studio M4 Max — Modelos Maiores, Silêncio Total
O Mac Studio M4 Max com 128 GB de memória unificada é a única opção de consumidor sub-5.000€ que corre modelos 70B sem quantização agressiva. A memória unificada elimina a separação entre RAM do sistema e VRAM — toda a memória está disponível para os modelos a largura de banda máxima.
Benchmarks reais (Mac Studio M4 Max 128 GB)
| Modelo | Velocidade (tok/s) | Nota |
|---|---|---|
| Qwen 2.5 8B Q4 | ~65 tok/s | 546 GB/s de largura de banda |
| Qwen 2.5 32B Q4 | ~20–28 tok/s | Confortável, 83.2% MMLU |
| Llama 3.3 70B Q4 | ~12 tok/s | Único desktop consumer sub-5k a correr 70B |
| DeepSeek R1 70B Q4 | ~12 tok/s | Raciocínio complexo, adequado para tarefas assíncronas |
| ✓ Prós | ⚠ Contras |
|---|---|
| 128 GB efectivos para modelos — único na sua categoria de preço | 2–3× mais lento que RTX 5090 em modelos até 32B |
| Completamente silencioso — adequado para escritório e casa | Fine-tuning limitado — PyTorch MPS não tem paridade com CUDA |
| ~60W sob carga — menos de 15€/mês em electricidade | Ultrapassar a memória é catastrófico — swap para SSD cai para <0.5 tok/s |
| brew install ollama — pronto em 10 minutos, zero configuração | Ecosistema ML menos maduro (Metal vs CUDA) |
ℹ MLX — o framework que a Apple não publicita o suficiente
O MLX é o framework de machine learning da Apple optimizado para memória unificada. Entrega 10–15% mais velocidade que o llama.cpp (que o Ollama usa internamente) através de acesso zero-copy à memória — os modelos carregam directamente sem transferência CPU→GPU. Para quem constrói aplicações em cima de IA local no Mac, MLX é a escolha certa em vez de Ollama.
5. NVIDIA DGX Spark — CUDA numa Caixa Pequena
O DGX Spark (anteriormente Project DIGITS) é a resposta da NVIDIA ao problema de memória unificada da Apple: um supercomputador de secretária com o chip GB10 Grace Blackwell, 128 GB de memória unificada LPDDR5x, e o stack completo CUDA/DGX OS pré-instalado. O preço inicial era 2.999 USD — em Fevereiro de 2026 subiu para 4.699 USD.
Especificações técnicas principais
| Componente | Especificação |
|---|---|
| Chip | NVIDIA GB10 Grace Blackwell Superchip (CPU ARM 20 cores + GPU Blackwell) |
| Memória | 128 GB LPDDR5x unificada (CPU + GPU partilham o mesmo pool) |
| Performance IA | 1 PetaFLOP em FP4 sparse (≈ 500 TFLOPS denso FP4) |
| Armazenamento | 4 TB NVMe Gen5 (Founder’s Edition) / 1–2 TB (versões OEM) |
| Rede | ConnectX-7 NIC — ligação directa entre dois DGX Spark a 200 Gbps para pool de 256 GB |
| SO | DGX OS (Ubuntu 24.04 + stack NVIDIA pré-configurado: CUDA 13, Docker, Ollama, TensorRT-LLM) |
| Consumo | 300W pico (mais do que Mac Studio, menos do que sistema RTX 5090) |
| Preço (Maio 2026) | 4.699 USD (Founder’s Edition NVIDIA) — versões OEM a partir de 3.999 USD |
O que o DGX Spark faz que os outros não conseguem
| ✓ Prós | ⚠ Contras |
|---|---|
| 128 GB unificados + CUDA completo — impossível em RTX 5090 | Mais caro que Mac Studio com 128 GB em muitas configurações |
| 70B em BF16 completo (sem quantização) — qualidade máxima | Arquitectura ARM — algumas ferramentas x86 não correm nativamente |
| Dois DGX Spark em cluster: 256 GB para modelos de 405B | Throttling térmico reportado em cargas sustentadas (melhorado com update de Fev 2026) |
| Stack NVIDIA pré-instalado — NIM, NeMo, TensorRT-LLM, Docker GPU out-of-the-box | Largura de banda de memória inferior ao Mac Studio M4 Max (LPDDR5x vs LPDDR5) |
ℹ A melhoria de 2.5× pós-lançamento
O update de software de Janeiro/Fevereiro 2026 entregou até 2.5× de melhoria de performance face ao lançamento, através de optimizações de TensorRT-LLM e decoding especulativo. Quem comprou o DGX Spark no lançamento tem hoje um sistema significativamente mais rápido apenas com actualizações de software — o que é incomum em hardware.
6. Comparativo Completo — Specs, Preços e Benchmarks
| Critério | RTX 5090 + PC | Mac Studio M4 Max 128GB | DGX Spark |
|---|---|---|---|
| Preço (Maio 2026) | ~4.500–6.000€ (GPU + sistema) | ~4.499€ | ~4.699 USD (~4.300€) |
| Memória efectiva para modelos | 32 GB VRAM | 128 GB unificada | 128 GB unificada |
| Largura de banda memória | 1.792 GB/s (GDDR7) | 546 GB/s | ~273 GB/s (LPDDR5x) |
| 8B Q4 — tok/s | ~213 | ~65 | ~30–50 (estimado) |
| 32B Q4 — tok/s | ~55–70 | ~20–28 | ~15–25 (estimado) |
| 70B Q4 — tok/s | Não corre | ~12 | ~10–15 |
| 70B BF16 completo | Impossível | Impossível (128GB cheio) | Sim — única opção |
| Fine-tuning | Excelente (CUDA) | Limitado (Metal) | Excelente (CUDA) |
| Geração de imagem | 2–5× mais rápido | MPS — mais lento | CUDA — rápido |
| Consumo energético | 450–600W | ~60W | ~300W |
| Ruído | Audível sob carga | Silencioso | Algum ruído |
| Facilidade de setup | Moderada (drivers CUDA) | Muito fácil (brew install) | Fácil (stack pré-instalado) |
| SO | Windows / Linux | macOS | DGX OS (Ubuntu 24.04) |
7. Três Perfis de Comprador — Qual é o Teu?
Perfil 1 — Knowledge Worker (Trabalhador do Conhecimento)
✓ Recomendação: Mac Studio M4 Max 64–128 GB
Sysadmin, consultor, gestor de projecto, técnico de helpdesk. Usa IA para resumir documentos, rascunhar comunicações, analisar logs, responder a tickets. Quer RAG sobre as suas notas e código. Não faz fine-tuning. Não gera imagens. Precisa de silêncio, de facilidade de uso, e que o sistema simplesmente funcione.
| Hardware ideal | Mac Mini M4 Pro 48 GB (~1.999€) para começar — Mac Studio M4 Max 128 GB (~4.499€) se precisar de 70B |
| Modelos ideais | Qwen 2.5 32B (uso diário), Llama 3.3 70B (análises complexas) |
| Stack de software | Ollama + Open WebUI para interface web; Obsidian + markdown para memória; Whisper.cpp para reuniões |
| Porquê não RTX 5090 | Barulhento, consome 10× mais electricidade, configuração mais complexa — sem benefício real para este perfil |
Perfil 2 — Maximalist (Tudo Local)
⚠ Recomendação: RTX 5090 + PC (se o preço normalizar) ou DGX Spark
Quer velocidade máxima, gera imagens com ComfyUI, experimenta fine-tuning, corre modelos de vídeo. Para ele, 32 GB de VRAM são suficientes porque os modelos que usa mais foram testados neste range. Não lhe interessa correr 70B. Quer CUDA, quer velocidade, aceita o ruído e a conta de luz.
| Hardware ideal | PC com RTX 5090 32 GB — esperar que o preço normalize ou comprar RTX 4090 usado (~800–1.000€) como alternativa imediata |
| Modelos ideais | Qwen 2.5 32B, Qwen 2.5-Coder 32B, FLUX para imagem, Whisper para voz |
| Stack de software | Ollama + Open WebUI + ComfyUI + n8n para automação + Continue.dev para coding |
| Porquê não Mac | Fine-tuning limitado em Metal, geração de imagem mais lenta, sem acesso às últimas optimizações CUDA |
Perfil 3 — Builder (Construtor)
ℹ Recomendação: DGX Spark (ou dual RTX 3090 como alternativa)
Developer, investigador, data scientist. Quer prototipar, fazer fine-tuning, construir agentes, usar o NIM ecosystem da NVIDIA. Precisa de 128 GB unificados + CUDA — algo que nem a RTX 5090 nem o Mac oferecem em simultâneo. O DGX Spark é a única opção de consumidor que combina os dois.
| Hardware ideal | DGX Spark (~4.700 USD) — ou dois DGX Spark em cluster para 256 GB e modelos de 405B |
| Modelos ideais | Llama 3.3 70B BF16, fine-tuning de modelos 7–32B, NIM containers da NVIDIA |
| Stack de software | DGX OS + TensorRT-LLM + NeMo + Docker GPU + NIM microservices |
| Porquê não Mac ou RTX 5090 | Mac não tem CUDA. RTX 5090 não tem 128 GB. O DGX Spark tem ambos numa caixa pequena. |
8. O Stack de Software — Muitas Superfícies, Um Runtime
O hardware é o substrato, mas o valor composto vem da arquitectura de software. O princípio é: muitas superfícies, um stack por baixo. O editor de código, as notas, o browser, a voz — todas devem chamar o mesmo runtime local via API.
| Superfície | Ferramenta | Como liga ao runtime local |
|---|---|---|
| Chat / interface web | Open WebUI | API Ollama em localhost:11434 — interface tipo ChatGPT |
| Editor de código | Continue.dev + VSCode | OpenAI-compatible API — aponta para Ollama local |
| Notas pessoais | Obsidian + plugin Copilot | Plugin Copilot usa OpenAI API configurável para Ollama |
| Voz | Whisper.cpp + Open WebUI voice | STT local — áudio nunca sai da máquina |
| Automação / agentes | n8n self-hosted | Node “Local AI” do n8n — chama Ollama via HTTP |
| Reuniões | Whisper.cpp + script de captura | Transcrição local, depois summarização com modelo local |
| RAG pessoal | Open WebUI RAG ou AnythingLLM | Embeddings locais + vector store — documentos indexados na tua máquina |
⚠ MCP servers não são magia
O Model Context Protocol (MCP) é uma forma padronizada de ligar ferramentas e fontes de dados a LLMs. É útil — mas apenas move a complexidade do código para a configuração. Antes de instalar 10 MCP servers, resolver primeiro a camada de memória (onde ficam os dados, em que formato, com que estrutura). O pipeline sem memória é uma correia de transmissão que não leva a lado nenhum.
9. A Cloud como Visitante, não como Proprietária
Ter um PC de IA pessoal não significa abandonar a cloud — significa mudar a relação com ela. A cloud é útil para tarefas específicas onde a qualidade máxima é crítica e os dados não são sensíveis. O local é o substrato permanente.
| Usar local para… | Usar cloud para… |
|---|---|
| RAG sobre documentos internos e código proprietário | Tarefas pontuais com dados não sensíveis onde qualidade máxima é crítica |
| Captura e summarização de reuniões | Raciocínio muito complexo onde o modelo local não chega |
| Assistente de coding com acesso ao repositório local | Processamento de grandes volumes em batch (cloud mais barato nestes picos) |
| Chat diário, drafts, análise de logs, suporte helpdesk | Consultas esporádicas de qualidade máxima — GPT-4o, Claude Opus |
10. Veredicto — O que Comprar em 2026
| Se a tua prioridade é… | Compra este | Porque |
|---|---|---|
| Velocidade máxima em modelos até 32B | RTX 5090 (quando o preço normalizar) | 1.792 GB/s — nada chega perto em velocidade bruta para modelos que cabem nos 32 GB |
| Silêncio, simplicidade e modelos grandes (70B) | Mac Studio M4 Max 128 GB | Único sub-5k a correr 70B, silencioso, 60W, pronto em 10 minutos |
| CUDA + 128 GB numa caixa small form factor | NVIDIA DGX Spark | O único dispositivo que combina 128 GB unificados com CUDA completo e stack NVIDIA pré-instalado |
| Melhor relação preço/qualidade para começar | Mac Mini M4 Pro 48 GB (~1.999€) | 70B Q4 cabe, silencioso, 30W, sem configuração — ponto de entrada mais inteligente |
| RTX 5090 a preço justo, já | RTX 4090 24 GB usado (~800–1.000€) | 90% da velocidade da 4090 nova, 24 GB VRAM — melhor relação custo/benefício em 2026 |
✓ A regra mais importante de todas
Começar hoje com hardware imperfeito é sempre melhor do que esperar pelo hardware perfeito. Um Mac Mini M4 Pro 48 GB hoje compõe conhecimento durante 6 meses enquanto esperas que o preço da RTX 5090 normalize. O valor está na utilização — não no hardware que está numa lista de desejos.
Artigos relacionados no kbase.pt
- Como Escolher o Hardware para Correr IA Local em 2026: Guia por Orçamento
- Como Instalar Ollama e Open WebUI com Docker Compose: Guia Passo a Passo
- DeepSeek vs Qwen vs Gemma: Qual o Melhor Modelo LLM Local para Tarefas IT em 2026
- Como Criar a Tua Própria Cloud Privada: FileCloud vs Nextcloud — Guia para PME
