Capacidade · Custo · Desempenho

Dimensionador de GPUs
para LLM on-premise

Calcula a VRAM necessária, o número de placas, a velocidade por utilizador e o TCO a 3 anos para alojar um modelo localmente — em função do tamanho do modelo, quantização, contexto e concorrência.

Preços indicativos · EUR · jun 2026 · editáveis

01 Carga de trabalho

Bytes por parâmetro: FP16=2 · FP8/INT8=1 · INT4=0,5

02 Serviço

Prompt + geração somados, por sequência ativa.
Sequências ativas ao mesmo tempo (dimensiona a KV cache total).
0 = ignorar. Usado para escolher a placa recomendada.

03 Consumo por tipo de pedido

O contexto por pedido (prompt + geração) é o que dimensiona a KV cache. Clica no perfil mais próximo do teu caso para acertar o slider acima. Âncoras: ~1 token ≈ 0,7 palavras · 1 página ≈ 700 tok · 1 000 linhas de código ≈ 10–15k tok. Modelos que não suportam o contexto necessário ficam desativados na lista e o simulador seleciona automaticamente um compatível.

04 Pressupostos

05 Servidor por nó (chave na mão)

Cada nó GPU inclui o hardware abaixo. O simulador multiplica pelo n.º de servidores necessários e soma às placas. Com o dimensionamento automático, propõe RAM e disco a partir da carga.

06 VRAM necessária

Total estimado
GB
Pesos do modelo
Pesos
KV cache
Overhead
Recomendado
A calcular…

07 Comparação de placas

GPU VRAM/placa N.º placas Cabe? tok/s / util. CapEx TCO 3 anos Preço/placa (€)
CapEx inclui o hardware completo dos servidores (painel 05) mais as placas. TCO 3 anos = CapEx + 3 × energia. Edita o preço de cada placa na última coluna; o detalhe da configuração recomendada está na Proposta chave na mão, abaixo.

08 Proposta chave na mão

Pressupostos e método de cálculo

A ferramenta usa heurísticas aceites para inferência (não treino). São estimativas para planeamento — valide sempre contra benchmarks reais (vLLM/TRT-LLM) no seu workload.

1 · Pesos

pesos_GB = parâmetros(B) × bytes_por_parâmetro. Ex.: 70B em FP8 = 70 GB. Em MoE, todos os especialistas têm de estar carregados, por isso os pesos usam o total de parâmetros, não os ativos.

2 · KV cache

KV_por_token = 2 × camadas × kv_heads × dim_head × bytes_KV. O total multiplica por contexto × pedidos_simultâneos. Modelos com GQA (poucos kv_heads) consomem muito menos KV — daí a importância da arquitetura real e não só do nº de parâmetros. Modelos MLA (GLM-5.2, DeepSeek) usam KV comprimida: camadas × latente_KV × bytes_KV, dramaticamente menor.

3 · Overhead

Ativações, contexto CUDA, fragmentação e framework: total = (pesos + KV) × (1 + overhead%). 15% é conservador para serving estável.

4 · Número de placas

placas = teto( VRAM_total / (VRAM_placa × uso_máx%) ). Não se usa 100% da VRAM em produção. Acima do limite de GPUs/servidor, marca-se «não cabe».

5 · Velocidade por utilizador (decode)

A geração token-a-token é limitada pela largura de banda de memória: tok/s ≈ BW_efetiva × 0,7 / pesos_ativos_GB. Em multi-GPU, BW_efetiva = BW × N × ef. — ef. ≈ 0,8 com NVLink, ≈ 0,5 em PCIe. É a latência que o utilizador sente; o débito agregado com batching é superior.

6 · CapEx, energia e TCO

Servidores = teto( n.º de placas / GPUs por servidor ). Cada nó inclui plataforma base (chassis, motherboard, PSU, arrefecimento), CPUs, RAM, armazenamento NVMe e rede — tudo configurável no painel 05. CapEx = (servidores × hardware por nó) + (n.º de placas × preço por placa), com IVA opcional a 23%.

Com dimensionamento automático, a RAM por nó ≈ VRAM do nó × 1,5 (arredondada a 128 GB, regra prática para staging e carregamento) e o armazenamento cobre o checkpoint do modelo com folga. Desligando, os valores de RAM e disco passam a manuais.

Energia anual = potência das placas × 1,4 (fonte + arrefecimento) × horas/ano × €/kWh, com horas/ano = 8 760 × utilização. TCO 3 anos = CapEx + 3 × energia anual. A Proposta chave na mão (painel 08) detalha o BOM e o custo da configuração recomendada.

Não inclui: switching de datacenter dedicado, racks e PDUs, licenças de software, pessoal de operação, financiamento nem depreciação fiscal.

7 · Limitações

  • A KV de modelos MLA (GLM-5.2, DeepSeek) é modelada pelo latente comprimido; a atenção esparsa DSA reduz ainda mais o custo de compute (não a VRAM), não modelado aqui.
  • Em MoE grande multi-GPU (ex.: GLM-5.2) o tok/s por utilizador é um teto otimista — o routing de especialistas e o all-to-all reduzem-no na prática; em contrapartida, MTP/speculative decoding (que o GLM-5.2 traz) pode multiplicá-lo 3–5×.
  • O prefill (1.º token) é limitado por compute, não modelado aqui.
  • Preços EUR ex-IVA, indicativos jun/2026; placas enterprise (H100/H200/B200) são por cotação e variam muito.
  • RTX 5090 / RTX PRO 6000 não têm NVLink — multi-placa só por PCIe.

8 · Fontes dos valores

Especificações técnicas (VRAM, largura de banda de memória, TDP/potência) — autoritativas, das fichas técnicas oficiais dos fabricantes NVIDIA e AMD. Variantes SXM e PCIe diferem; usámos SXM onde aplicável: A100 80GB (400 W, 2,0 TB/s), H100 SXM (700 W, 3,35 TB/s), H200 (700 W, 4,8 TB/s), B200 (1000 W, 8,0 TB/s), MI300X (750 W, 5,3 TB/s), RTX 5090 (575 W, 1,79 TB/s), RTX PRO 6000 (600 W, 1,79 TB/s), L40S (350 W, 0,86 TB/s).

Preços (EUR, ex-IVA, jun/2026) — indicativos, não autoritativos. Compilados de listagens públicas de retalho/revenda e preços reportados no mercado. As placas de datacenter (A100, H100, H200, B200, MI300X) não têm preço de tabela público: são por cotação. As faixas reportadas que usámos como âncora: H100 80GB ≈ 25–30k USD, RTX PRO 6000 ≈ 7,5–13k USD, B200 ≈ 30–50k USD, RTX 5090 MSRP ≈ 2k USD (rua acima disso). A verdadeira fonte de verdade é a cotação do seu fornecedor — substitua os valores na última coluna da tabela antes de decidir.

Fator 1,4 de energia — regra prática que combina a eficiência da fonte (~90%) com o PUE do datacenter (~1,25–1,3). Ajuste ao PUE real da instalação.