DeepSeek vs Qwen vs Gemma: Qual o Melhor Modelo LLM Local para Tarefas IT em 2026
LLM Local · Ollama · DeepSeek · Qwen · Gemma · PowerShell · Sysadmin · IA para IT
Com o Ollama a facilitar a instalação de modelos locais em qualquer PC ou Mac, a questão já não é “consigo correr um LLM localmente?” mas sim “qual o modelo que devo usar para o meu caso de uso específico em IT?” Este comparativo foca-se em quatro famílias de modelos disponíveis gratuitamente via Ollama — DeepSeek-R1, Qwen2.5, Gemma3 e Llama 3.3 — avaliadas em tarefas concretas de sysadmin e helpdesk.
ℹ Como interpretar este comparativo
Estes resultados baseiam-se em testes práticos com prompts representativos de tarefas IT reais. Os benchmarks académicos (MMLU, HumanEval) nem sempre se traduzem em desempenho prático para tarefas específicas de sysadmin. O contexto do modelo, a quantização usada e o hardware disponível afectam significativamente os resultados.
Neste artigo
Visão Geral dos Modelos e Variantes Disponíveis
| Família | Desenvolvedor | Tamanhos disponíveis no Ollama | Destaque |
|---|---|---|---|
| Qwen2.5 | Alibaba Research | 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B | Melhor equilíbrio geral para tarefas IT; Qwen2.5-Coder especializado para código |
| Qwen2.5-Coder | Alibaba Research | 1.5B, 3B, 7B, 14B, 32B | Fine-tuned especificamente para código e scripts — o melhor para PowerShell/Bash |
| DeepSeek-R1 | DeepSeek AI | 1.5B, 7B, 14B, 32B, 70B | Reasoning avançado com “cadeia de pensamento” — excelente para diagnóstico complexo |
| Gemma3 | Google DeepMind | 1B, 4B, 12B, 27B | Muito bom para texto e documentação; contexto de 128K tokens nas versões maiores |
| Llama 3.3 | Meta AI | 70B | Muito capaz mas exige hardware significativo (40+ GB VRAM) |
Hardware Necessário por Tamanho de Modelo
| Tamanho | RAM/VRAM (Q4_K_M) | Velocidade típica | Adequado para |
|---|---|---|---|
| 7B | 6-8 GB | 15-30 t/s (GPU) | 3-8 t/s (CPU) | Respostas rápidas, tarefas simples, hardware limitado |
| 14B | 10-14 GB | 10-20 t/s (GPU) | 2-5 t/s (CPU) | Bom equilíbrio qualidade/velocidade para uso diário |
| 32B | 20-24 GB | 8-15 t/s (GPU RTX 3090/4090 ou Apple M-series 32 GB) | Tarefas complexas, scripts longos, análise de logs extensos |
| 70B | 40-48 GB | 5-10 t/s (multi-GPU ou Apple M-series 64+ GB) | Máxima qualidade local — equivalente a GPT-4-turbo em muitas tarefas |
Avaliação por Tarefa IT
Geração de Scripts PowerShell
| Modelo (14B) | Qualidade script | Tratamento de erros | Modernidade (módulos actuais) | Comentários em PT-PT |
|---|---|---|---|---|
| Qwen2.5-Coder:14b | ⭐⭐⭐⭐⭐ | Excelente — try/catch consistente | Microsoft.Graph v2, SPMT actual | Bom com instruções explícitas |
| Qwen2.5:14b | ⭐⭐⭐⭐ | Muito bom | Módulos actualizados | Bom com instruções explícitas |
| DeepSeek-R1:14b | ⭐⭐⭐⭐ | Bom — explica o raciocínio | Módulos actualizados | Pensamento visível útil para depuração |
| Gemma3:12b | ⭐⭐⭐ | Razoável — menos consistente | Alguns módulos desactualizados | Preferível para documentação dos scripts |
Vencedor para PowerShell: Qwen2.5-Coder:14b — foi treinado especificamente em código e produz scripts com try/catch, cmdlets actuais e estrutura mais próxima de código de produção. O Qwen2.5:14b é uma boa segunda opção se quiser um único modelo para todas as tarefas.
Resposta a Tickets de Helpdesk
Teste: pedir ao modelo para redigir uma resposta a um ticket de utilizador com o problema “O Outlook não abre após actualização do Windows” — em português europeu, tom profissional, com passos de diagnóstico.
| Modelo | Qualidade da resposta | PT-PT correcto | Passos de diagnóstico | Tom |
|---|---|---|---|---|
| Gemma3:12b | ⭐⭐⭐⭐⭐ | Excelente | Completos e ordenados | Profissional e claro |
| Qwen2.5:14b | ⭐⭐⭐⭐ | Muito bom | Completos | Profissional |
| DeepSeek-R1:14b | ⭐⭐⭐ | Bom mas prolixo | Completos mas excessivos | Académico — menos adequado para utilizador final |
| Qwen2.5-Coder:14b | ⭐⭐⭐ | Adequado | Correctos mas técnicos demais | Demasiado técnico para L1 |
Vencedor para tickets de helpdesk: Gemma3:12b — produz as respostas mais naturais em português europeu, com tom correcto para comunicação com utilizadores não técnicos.
Documentação Técnica
Teste: pedir ao modelo para documentar um script PowerShell existente com comentários, Get-Help, exemplos de uso e notas de segurança — em português europeu.
| Modelo | Qualidade doc | Precisão técnica | Formato |
|---|---|---|---|
| Gemma3:27b | ⭐⭐⭐⭐⭐ | Excelente | Muito bem estruturado, Get-Help correcto |
| Qwen2.5:32b | ⭐⭐⭐⭐⭐ | Excelente | Completo e bem organizado |
| DeepSeek-R1:14b | ⭐⭐⭐⭐ | Muito bom | Detalhado — por vezes demasiado extenso |
| Qwen2.5-Coder:14b | ⭐⭐⭐⭐ | Muito bom código, boa doc | Estruturado mas menos natural em texto corrido |
Análise de Logs e Diagnóstico
Teste: colar um excerto de log do Event Viewer (Event ID 4625, falha de login) e pedir ao modelo para interpretar, identificar a causa e sugerir resolução.
| Modelo | Qualidade análise | Identificação da causa | Acções sugeridas |
|---|---|---|---|
| DeepSeek-R1:14b | ⭐⭐⭐⭐⭐ | Excelente — raciocina passo a passo | Detalhadas e correctas — explica cada passo |
| Qwen2.5:32b | ⭐⭐⭐⭐⭐ | Excelente | Completas e práticas |
| Qwen2.5:14b | ⭐⭐⭐⭐ | Muito bom | Correctas e práticas |
| Gemma3:12b | ⭐⭐⭐ | Bom para logs simples | Adequadas mas menos detalhadas em logs complexos |
Vencedor para análise de logs: DeepSeek-R1 — o mecanismo de “cadeia de pensamento” é particularmente útil para diagnóstico, porque o modelo explica o raciocínio passo a passo, tornando mais fácil perceber onde a análise é sólida ou onde há incerteza.
Recomendação por Caso de Uso
| Caso de uso | Modelo recomendado | Alternativa |
|---|---|---|
| Geração de scripts PowerShell e Bash | Qwen2.5-Coder:14b ou :32b | Qwen2.5:14b |
| Resposta a tickets de helpdesk em PT-PT | Gemma3:12b ou :27b | Qwen2.5:14b |
| Documentação técnica | Gemma3:27b ou Qwen2.5:32b | Qwen2.5-Coder:14b |
| Diagnóstico e análise de logs | DeepSeek-R1:14b ou :32b | Qwen2.5:32b |
| Hardware limitado (8-16 GB RAM) | Qwen2.5:7b — o melhor dos 7B para IT | Gemma3:4b |
| Máxima qualidade sem limitação de hardware | Qwen2.5:72b ou Llama3.3:70b | DeepSeek-R1:70b |
| Um único modelo para tudo (sweet spot) | Qwen2.5:14b — melhor equilíbrio geral | Gemma3:12b |
# Sweet spot — um modelo para tudo
ollama pull qwen2.5:14b
# Melhor para scripts PowerShell
ollama pull qwen2.5-coder:14b
# Melhor para tickets e documentação em PT-PT
ollama pull gemma3:12b
# Melhor para diagnóstico e análise de logs
ollama pull deepseek-r1:14b
# Verificar modelos instalados
ollama list
