Capacidade · Custo · Desempenho
Calcula a VRAM necessária, o número de placas, a velocidade por utilizador e o TCO a 3 anos para alojar um modelo localmente — em função do tamanho do modelo, quantização, contexto e concorrência.
O contexto por pedido (prompt + geração) é o que dimensiona a KV cache. Clica no perfil mais próximo do teu caso para acertar o slider acima. Âncoras: ~1 token ≈ 0,7 palavras · 1 página ≈ 700 tok · 1 000 linhas de código ≈ 10–15k tok. Modelos que não suportam o contexto necessário ficam desativados na lista e o simulador seleciona automaticamente um compatível.
Cada nó GPU inclui o hardware abaixo. O simulador multiplica pelo n.º de servidores necessários e soma às placas. Com o dimensionamento automático, propõe RAM e disco a partir da carga.
| GPU | VRAM/placa | N.º placas | Cabe? | tok/s / util. | CapEx | TCO 3 anos | Preço/placa (€) |
|---|
A ferramenta usa heurísticas aceites para inferência (não treino). São estimativas para planeamento — valide sempre contra benchmarks reais (vLLM/TRT-LLM) no seu workload.
pesos_GB = parâmetros(B) × bytes_por_parâmetro. Ex.: 70B em FP8 = 70 GB. Em MoE, todos os especialistas têm de estar carregados, por isso os pesos usam o total de parâmetros, não os ativos.
KV_por_token = 2 × camadas × kv_heads × dim_head × bytes_KV. O total multiplica por contexto × pedidos_simultâneos. Modelos com GQA (poucos kv_heads) consomem muito menos KV — daí a importância da arquitetura real e não só do nº de parâmetros. Modelos MLA (GLM-5.2, DeepSeek) usam KV comprimida: camadas × latente_KV × bytes_KV, dramaticamente menor.
Ativações, contexto CUDA, fragmentação e framework: total = (pesos + KV) × (1 + overhead%). 15% é conservador para serving estável.
placas = teto( VRAM_total / (VRAM_placa × uso_máx%) ). Não se usa 100% da VRAM em produção. Acima do limite de GPUs/servidor, marca-se «não cabe».
A geração token-a-token é limitada pela largura de banda de memória: tok/s ≈ BW_efetiva × 0,7 / pesos_ativos_GB. Em multi-GPU, BW_efetiva = BW × N × ef. — ef. ≈ 0,8 com NVLink, ≈ 0,5 em PCIe. É a latência que o utilizador sente; o débito agregado com batching é superior.
Servidores = teto( n.º de placas / GPUs por servidor ). Cada nó inclui plataforma base (chassis, motherboard, PSU, arrefecimento), CPUs, RAM, armazenamento NVMe e rede — tudo configurável no painel 05. CapEx = (servidores × hardware por nó) + (n.º de placas × preço por placa), com IVA opcional a 23%.
Com dimensionamento automático, a RAM por nó ≈ VRAM do nó × 1,5 (arredondada a 128 GB, regra prática para staging e carregamento) e o armazenamento cobre o checkpoint do modelo com folga. Desligando, os valores de RAM e disco passam a manuais.
Energia anual = potência das placas × 1,4 (fonte + arrefecimento) × horas/ano × €/kWh, com horas/ano = 8 760 × utilização. TCO 3 anos = CapEx + 3 × energia anual. A Proposta chave na mão (painel 08) detalha o BOM e o custo da configuração recomendada.
Não inclui: switching de datacenter dedicado, racks e PDUs, licenças de software, pessoal de operação, financiamento nem depreciação fiscal.
Especificações técnicas (VRAM, largura de banda de memória, TDP/potência) — autoritativas, das fichas técnicas oficiais dos fabricantes NVIDIA e AMD. Variantes SXM e PCIe diferem; usámos SXM onde aplicável: A100 80GB (400 W, 2,0 TB/s), H100 SXM (700 W, 3,35 TB/s), H200 (700 W, 4,8 TB/s), B200 (1000 W, 8,0 TB/s), MI300X (750 W, 5,3 TB/s), RTX 5090 (575 W, 1,79 TB/s), RTX PRO 6000 (600 W, 1,79 TB/s), L40S (350 W, 0,86 TB/s).
Preços (EUR, ex-IVA, jun/2026) — indicativos, não autoritativos. Compilados de listagens públicas de retalho/revenda e preços reportados no mercado. As placas de datacenter (A100, H100, H200, B200, MI300X) não têm preço de tabela público: são por cotação. As faixas reportadas que usámos como âncora: H100 80GB ≈ 25–30k USD, RTX PRO 6000 ≈ 7,5–13k USD, B200 ≈ 30–50k USD, RTX 5090 MSRP ≈ 2k USD (rua acima disso). A verdadeira fonte de verdade é a cotação do seu fornecedor — substitua os valores na última coluna da tabela antes de decidir.
Fator 1,4 de energia — regra prática que combina a eficiência da fonte (~90%) com o PUE do datacenter (~1,25–1,3). Ajuste ao PUE real da instalação.