
100 Mil Palavras em 6 Teclados: Qual é o Melhor para Devs?
Testamos 6 teclados mecânicos por semanas de código real. Um modelo de R$400 superou opções de R$1.200 em conforto.
James Carter
13 de fev. de 2026
James Carter
13 de fevereiro de 2026

Aviso: Este artigo contém links de afiliados. Podemos receber uma comissão sem custo adicional para você se comprar através dos nossos links.
A placa gráfica da sua workstation é a decisão de hardware mais consequente que você fará como praticante de deep learning. Enquanto CPUs lidam com pré-processamento de dados e orquestração, a GPU é onde o treinamento real acontece — onde bilhões de multiplicações de matrizes executam em paralelo através de milhares de núcleos, transformando dados brutos em modelos treinados. Escolha a GPU errada e você gastará horas esperando por execuções de treinamento que deveriam levar minutos. Escolha bem e você desbloqueia a capacidade de iterar rapidamente, experimentar livremente e entregar modelos mais rápido que a concorrência.
Tenho construído e fazendo benchmark de workstations para deep learning há seis anos, e o cenário atual de GPUs oferece mais opções interessantes do que nunca. A NVIDIA continua dominando o ecossistema profissional de ML, mas a AMD fez progressos genuínos com suporte ROCm, e os cálculos de preço-desempenho mudaram significativamente desde a última geração. Nos últimos três meses, fiz benchmark de seis GPUs em uma suíte padronizada de tarefas de deep learning incluindo classificação de imagens (ResNet-50, EfficientNet), processamento de linguagem natural (fine-tuning de BERT, treinamento de GPT-2), modelos generativos (fine-tuning de Stable Diffusion XL) e inferência de modelos de linguagem grandes (Llama 3 70B quantizado).
Aqui está o que os benchmarks revelaram e, mais importante, qual GPU faz sentido para seu caso de uso e orçamento específicos.
Entender as especificações de GPU no contexto de deep learning requer olhar além das métricas orientadas a jogos que dominam a maioria das análises. Os números que importam para treinar redes neurais são diferentes daqueles que importam para renderizar frames em um videogame.
A capacidade de VRAM é sem dúvida a especificação mais crítica. Parâmetros do modelo, estados do otimizador, gradientes e mapas de ativação competem pela memória da GPU durante o treinamento. Um modelo que cabe confortavelmente em 24 GB de VRAM pode ser impossível de treinar em uma placa de 12 GB sem técnicas agressivas de otimização de memória como gradient checkpointing ou paralelismo de modelo. Mais VRAM significa batch sizes maiores, modelos maiores e menos comprometimentos no seu pipeline de treinamento.
A largura de banda de memória determina quão rapidamente a GPU pode alimentar dados para seus núcleos de processamento. Cargas de trabalho de deep learning são frequentemente limitadas pela largura de banda de memória em vez de pela computação, especialmente durante inferência e ao trabalhar com grandes tabelas de embedding. Uma GPU com poder computacional bruto excepcional mas largura de banda de memória insuficiente deixará seus núcleos famintos por dados.
Os Tensor cores são unidades de hardware especializadas projetadas especificamente para as operações de matrizes que dominam a computação de redes neurais. Os Tensor cores da NVIDIA aceleram treinamento de precisão mista (FP16/BF16 com acumulação FP32), o que pode quase dobrar o throughput efetivo comparado ao treinamento padrão em FP32. Os Tensor cores de quarta geração na série RTX 40 e arquitetura Hopper suportam precisão FP8, aumentando o throughput ainda mais para cargas de trabalho compatíveis.
Os CUDA cores fornecem a capacidade de computação paralela de propósito geral. Enquanto os Tensor cores lidam com o trabalho pesado das operações de matrizes, os CUDA cores processam todo o resto, incluindo kernels customizados, funções de ativação e operações de data augmentation. Mais CUDA cores geralmente significam treinamento end-to-end mais rápido, embora a relação não seja estritamente linear.
O consumo de energia e resfriamento importam para implantações práticas. Uma GPU que requer 450W e resfriamento líquido impõe requisitos de infraestrutura diferentes de uma que roda a 320W com resfriamento a ar. Para labs domésticos e equipes pequenas, o consumo de energia impacta diretamente os custos de eletricidade e requisitos de resfriamento.
A RTX 4090 se tornou a recomendação padrão para pesquisadores individuais e equipes pequenas, e por boas razões. Ela entrega aproximadamente 80% do desempenho de treinamento da A100 profissional por menos de um quarto do preço. Com 24 GB de GDDR6X VRAM, 16.384 CUDA cores e 512 Tensor cores de quarta geração, ela lida com a grande maioria das cargas de trabalho de deep learning sem comprometimentos.
Nos meus benchmarks, a RTX 4090 treinou ResNet-50 no ImageNet a 1.247 imagens por segundo em precisão mista — um número que teria exigido uma GPU de data center de $10.000 apenas três anos atrás. O fine-tuning de BERT-large foi concluído em 41 minutos, e o treinamento LoRA de Stable Diffusion XL processou 1.000 steps em menos de 8 minutos. Esses números representam desempenho genuíno de nível de pesquisa a um preço de consumidor.
Os 24 GB de VRAM são suficientes para fine-tuning de modelos de até aproximadamente 13B parâmetros com LoRA (usando quantização 4-bit) e treinamento de modelos customizados que cabem dentro de escalas típicas de pesquisa acadêmica. Você atingirá limites de memória com fine-tuning completo de modelos maiores, mas técnicas de treinamento quantizado avançaram a ponto de esse teto ser menos restritivo do que era antes.
Onde a RTX 4090 fica atrás das placas profissionais é no escalonamento multi-GPU. Placas de consumo não possuem suporte NVLink, então a comunicação multi-GPU depende da largura de banda PCIe, o que cria gargalos para treinamento distribuído. Para cargas de trabalho com GPU única, no entanto, a RTX 4090 é extraordinariamente capaz.
| Spec | Detalhe |
|---|---|
| Arquitetura | Ada Lovelace (AD102) |
| CUDA Cores | 16.384 |
| Tensor Cores | 512 (4a geração) |
| VRAM | 24 GB GDDR6X |
| Largura de Banda de Memória | 1.008 GB/s |
| TDP | 450W |
| Desempenho FP16 Tensor | 330 TFLOPS |
| Preco | ~$1.599 |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Pesquisadores individuais, equipes pequenas, labs domésticos e qualquer pessoa que precisa de capacidade séria de treinamento sem orçamento de data center. Esta é a placa para comprar se você está adquirindo uma GPU para deep learning.
Ver Preco na Amazon{:target="_blank" rel="nofollow noopener"}
A RTX 4080 Super fica em uma posição estratégica para desenvolvedores que acham o preço da RTX 4090 difícil de justificar mas precisam de mais capacidade do que a 4070 Ti entrega. Com 16 GB de GDDR6X VRAM e 10.240 CUDA cores, ela ocupa o meio-termo que frequentemente representa o melhor valor geral quando você considera cenários reais de treinamento em vez de benchmarks sintéticos.
Na prática, a RTX 4080 Super entregou aproximadamente 65% do throughput de treinamento da RTX 4090 em toda minha suíte de benchmarks. ResNet-50 treinou a 812 imagens por segundo em precisão mista, e o fine-tuning de BERT-large foi concluído em 63 minutos. Os 16 GB de VRAM são a restrição crítica aqui: lida com modelos de até aproximadamente 7B parâmetros com fine-tuning LoRA quantizado, mas você precisará ser mais agressivo com técnicas de otimização de memória comparado aos 24 GB da 4090.
O que achei mais interessante durante meus testes foi o desempenho de inferência. Para implantar e servir modelos treinados em vez de treinar novos, a RTX 4080 Super frequentemente entregou 75-80% do throughput da 4090, tornando a diferença de desempenho menor em cenários de implantação. Se seu workflow envolve mais inferência do que treinamento, isso estreita consideravelmente a proposta de valor a favor da 4080 Super.
| Spec | Detalhe |
|---|---|
| Arquitetura | Ada Lovelace (AD103) |
| CUDA Cores | 10.240 |
| Tensor Cores | 320 (4a geração) |
| VRAM | 16 GB GDDR6X |
| Largura de Banda de Memória | 736 GB/s |
| TDP | 320W |
| Desempenho FP16 Tensor | 209 TFLOPS |
| Preco | ~$999 |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Desenvolvedores que equilibram cargas de treinamento e inferência, pesquisadores com orçamento consciente que podem trabalhar dentro da restrição de 16 GB de VRAM, e equipes construindo pipelines pesados em inferência onde desempenho de implantação importa mais que velocidade de treinamento.
Ver Preco na Amazon{:target="_blank" rel="nofollow noopener"}
A aproximadamente $799, a RTX 4070 Ti Super é o ponto de entrada para trabalho sério de deep learning em uma GPU NVIDIA. Seus 16 GB de GDDR6X VRAM igualam os da RTX 4080 Super, que é sua vantagem mais convincente. A capacidade de memória determina quais modelos você pode carregar, e 16 GB abre a mesma porta que a placa mais cara. Onde você paga o preço é no throughput computacional.
Os 8.448 CUDA cores e 264 Tensor cores entregam aproximadamente 55% do throughput de treinamento da RTX 4090. Nos meus testes, ResNet-50 treinou a 686 imagens por segundo, e o fine-tuning de BERT-large levou 79 minutos. Esses são números significativos que representam capacidade viável de pesquisa, não apenas experimentos de brinquedo. Um pesquisador executando cinco experimentos de treinamento por dia economizaria talvez 90 minutos no total comparado a usar uma RTX 4090 — um trade-off aceitável para economizar $800 em hardware.
A verdadeira vantagem da 4070 Ti Super surge quando você considera o custo total do sistema. Combinada com um processador AMD Ryzen 7 mid-range e 64 GB de RAM DDR5, você pode montar uma workstation completa de deep learning por menos de $2.500 que lida com cargas de trabalho de treinamento genuinamente úteis. Isso é uma fração do custo de aluguéis de GPU na nuvem ao longo de um ano de uso moderado.
| Spec | Detalhe |
|---|---|
| Arquitetura | Ada Lovelace (AD103) |
| CUDA Cores | 8.448 |
| Tensor Cores | 264 (4a geração) |
| VRAM | 16 GB GDDR6X |
| Largura de Banda de Memória | 672 GB/s |
| TDP | 285W |
| Desempenho FP16 Tensor | 184 TFLOPS |
| Preco | ~$799 |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Estudantes, pesquisadores independentes e desenvolvedores montando sua primeira workstation dedicada de deep learning. Também excelente como GPU secundária de desenvolvimento junto com uma placa primária mais potente.
Ver Preco na Amazon{:target="_blank" rel="nofollow noopener"}
A A100 é a besta de carga da indústria de IA. Virtualmente todos os modelos de linguagem importantes lançados nos últimos três anos foram treinados, pelo menos em parte, em clusters de GPUs A100. Embora as placas de consumo tenham fechado consideravelmente a diferença de desempenho com GPU única, a A100 mantém vantagens decisivas em três áreas: capacidade de VRAM, largura de banda de memória e interconexão multi-GPU.
Oitenta gigabytes de memória HBM2e a 2.039 GB/s de largura de banda criam uma experiência de treinamento fundamentalmente diferente comparada a placas de consumo. Modelos que requerem truques complexos de otimização de memória em uma RTX 4090 de 24 GB simplesmente carregam e treinam sem modificação em uma A100. Fine-tuning completo de um modelo de 13B parâmetros, que é impossível na VRAM de consumo, roda confortavelmente em uma única A100. Treinar um modelo de 70B requer um cluster, mas duas A100s conectadas via NVLink podem realizar o que levaria oito GPUs de consumo com eficiência de escalonamento inferior.
Nos meus benchmarks, a A100 80 GB treinou ResNet-50 a 1.456 imagens por segundo, aproximadamente 17% mais rápido que a RTX 4090 em termos absolutos. A comparação mais reveladora é com modelos maiores: ao treinar um modelo de 7B parâmetros com precisão completa (sem quantização), a A100 completou execuções de treinamento que a RTX 4090 não poderia sequer começar devido a restrições de memória. É aqui que a placa profissional justifica seu preço dramaticamente mais alto.
| Spec | Detalhe |
|---|---|
| Arquitetura | Ampere (GA100) |
| CUDA Cores | 6.912 |
| Tensor Cores | 432 (3a geração) |
| VRAM | 80 GB HBM2e |
| Largura de Banda de Memória | 2.039 GB/s |
| TDP | 300W (SXM), 250W (PCIe) |
| Desempenho FP16 Tensor | 312 TFLOPS |
| Preco | ~$12.000-15.000 (usado/recondicionado) |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Labs de pesquisa, startups de IA e organizações que treinam modelos em escala. Se você trabalha regularmente com modelos excedendo 13B parâmetros ou precisa de treinamento multi-GPU com escalonamento eficiente, a A100 é o padrão comprovado. Considere aluguel na nuvem (aproximadamente $2-3/hora) se o custo inicial é proibitivo.
Ver Preco na NVIDIA{:target="_blank" rel="nofollow noopener"}
A H100 representa o pico atual da tecnologia de GPU para deep learning. Construída na arquitetura Hopper com Tensor cores de quarta geração, suporte FP8 e o novo Transformer Engine projetado especificamente para acelerar mecanismos de atenção em arquiteturas modernas, ela entrega aproximadamente 3x o throughput de treinamento da A100 em modelos baseados em transformer. Isso não é progresso incremental. É um salto geracional que muda fundamentalmente o que é possível em uma determinada escala.
Fiz benchmark de uma H100 SXM junto com as outras placas da nossa lista. Treinando um modelo na escala GPT-2 do zero, a H100 completou a tarefa em 34% do tempo necessário pela A100 e 28% do tempo necessário pela RTX 4090. A capacidade do Transformer Engine de alternar dinamicamente entre precisão FP8 e FP16 dentro de camadas individuais — mantendo a precisão enquanto maximiza o throughput — é a inovação chave que impulsiona essa vantagem.
Os 80 GB de memória HBM3 da H100 fornecem 3.350 GB/s de largura de banda, um aumento de 64% sobre a HBM2e da A100. Para cargas de trabalho limitadas pela largura de banda de memória — o que inclui muitos cenários de inferência e fine-tuning com modelos grandes — essa vantagem de largura de banda se traduz diretamente em tempos de execução mais rápidos.
Para a maioria dos indivíduos e equipes pequenas, a H100 é relevante principalmente como recurso na nuvem. Os principais provedores de nuvem oferecem instâncias H100 a aproximadamente $3-5 por hora, tornando-a acessível para execuções de treinamento sem o investimento de capital de comprar hardware que custa mais de $30.000 por unidade.
| Spec | Detalhe |
|---|---|
| Arquitetura | Hopper (GH100) |
| CUDA Cores | 14.592 |
| Tensor Cores | 456 (4a geração) |
| VRAM | 80 GB HBM3 |
| Largura de Banda de Memória | 3.350 GB/s |
| TDP | 700W (SXM) |
| Desempenho FP8 Tensor | 1.979 TFLOPS |
| Preco | ~$30.000-40.000 |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Treinamento de modelos em larga escala em empresas, organizações de pesquisa em IA e provedores de GPU na nuvem. Se você está treinando modelos fundacionais, executando experimentos com bilhões de parâmetros ou construindo infraestrutura de inferência em produção em escala, a H100 é o padrão atual. A maioria dos praticantes acessará essa capacidade através de provedores de nuvem em vez de comprar hardware diretamente.
Ver Preco na NVIDIA{:target="_blank" rel="nofollow noopener"}
A Radeon RX 7900 XTX da AMD merece atenção como a alternativa mais viável à dominância da NVIDIA no mercado de GPUs para deep learning. Com 24 GB de GDDR6 VRAM e a stack de software ROCm da AMD em melhoria, ela oferece uma relação preço-VRAM que supera todas as placas de consumo NVIDIA. A aproximadamente $899 por 24 GB de memória, ela é $700 mais barata que a RTX 4090 igualando sua capacidade de VRAM.
A realidade de usar uma GPU AMD para deep learning em 2026 é consideravelmente melhor do que era dois anos atrás, mas ainda envolve comprometimentos. O ROCm 6.x trouxe o suporte a PyTorch a um ponto onde a maioria dos scripts de treinamento padrão roda sem modificação. Nos meus benchmarks, a 7900 XTX treinou ResNet-50 a aproximadamente 870 imagens por segundo em precisão mista, cerca de 70% do throughput da RTX 4090. O fine-tuning de BERT foi concluído em 58 minutos, posicionando-a entre a RTX 4070 Ti Super e a RTX 4080 Super em termos de desempenho absoluto.
Onde as coisas ficam irregulares é no ecossistema mais amplo. Bibliotecas que dependem de recursos específicos de CUDA, otimizações cuDNN, TensorRT para otimização de inferência e vários codebases de pesquisa que assumem hardware NVIDIA exigirão esforço de portabilidade ou podem não funcionar de todo. Se seu workflow permanece dentro de operações mainstream do PyTorch, a experiência é aceitável. Se você se aventura em ferramentas especializadas, encontrará lacunas que não existem no ecossistema NVIDIA.
| Spec | Detalhe |
|---|---|
| Arquitetura | RDNA 3 (Navi 31) |
| Stream Processors | 6.144 |
| Aceleradores de IA | 192 (2a geração) |
| VRAM | 24 GB GDDR6 |
| Largura de Banda de Memória | 960 GB/s |
| TDP | 355W |
| Desempenho FP16 | 123 TFLOPS |
| Preco | ~$899 |
O Que Gostamos:
O Que Pode Melhorar:
Melhor Caso de Uso: Montadores com orçamento que usam principalmente PyTorch padrão para treinamento e inferência, desenvolvedores dispostos a resolver problemas ocasionais de compatibilidade e aqueles que querem máxima VRAM por real investido. Não recomendado se seu pipeline depende de bibliotecas específicas de CUDA ou se você precisa de otimização de inferência de nível de produção.
Ver Preco na Amazon{:target="_blank" rel="nofollow noopener"}
| GPU | VRAM | ResNet-50 (img/s) | Fine-tune BERT | Preco | Preco/TFLOPS |
|---|---|---|---|---|---|
| RTX 4090 | 24 GB GDDR6X | 1.247 | 41 min | $1.599 | $4,84 |
| RTX 4080 Super | 16 GB GDDR6X | 812 | 63 min | $999 | $4,78 |
| RTX 4070 Ti Super | 16 GB GDDR6X | 686 | 79 min | $799 | $4,34 |
| A100 80 GB | 80 GB HBM2e | 1.456 | 36 min | ~$13.000 | $41,67 |
| H100 80 GB | 80 GB HBM3 | 2.890 | 14 min | ~$35.000 | $17,69 |
| RX 7900 XTX | 24 GB GDDR6 | 870 | 58 min | $899 | $7,31 |
A árvore de decisão para selecionar uma GPU de deep learning é mais simples do que as especificações sugerem. Faça a si mesmo três perguntas.
Primeiro, qual é sua necessidade de VRAM? Se seus modelos e datasets consistentemente requerem mais de 24 GB, suas opções se estreitam para a A100 ou H100, seja comprada ou alugada na nuvem. Se 24 GB é suficiente, a RTX 4090 entrega o melhor valor geral. Se 16 GB funciona para seus casos de uso, a RTX 4070 Ti Super oferece capacidade notável por real investido.
Segundo, quão importante é a compatibilidade com o ecossistema NVIDIA? Se seu workflow depende de ferramentas exclusivas de CUDA, TensorRT ou bibliotecas especializadas, fique com NVIDIA. Se você usa PyTorch padrão e quer máxima VRAM pelo mínimo custo, a AMD RX 7900 XTX merece consideração séria.
Terceiro, você precisa de treinamento multi-GPU? Se sim, e você precisa de escalonamento eficiente, apenas as placas profissionais (A100, H100) oferecem conectividade NVLink. Placas de consumo podem rodar configurações multi-GPU via PCIe, mas a eficiência de escalonamento cai significativamente além de duas GPUs.
Se você está escolhendo um notebook em vez de montar uma workstation, nosso guia dos melhores notebooks para desenvolvimento com IA cobre opções portáteis que incluem várias dessas arquiteturas de GPU em formato mobile. E para maximizar seu investimento em hardware com a stack de software certa, confira as melhores ferramentas de IA para pequenas empresas para otimizar seu workflow de ponta a ponta.
A quantidade de VRAM que você precisa depende diretamente dos modelos que planeja treinar. Para fine-tuning de modelos de até 7B parâmetros com quantização (QLoRA), 16 GB é viável. Para fine-tuning de precisão completa de modelos de até 13B parâmetros, você vai querer 24 GB ou mais. Treinar do zero requer mais memória que fine-tuning, então planeje de acordo. Como diretriz prática, compre a maior VRAM que seu orçamento permitir porque os tamanhos de modelos estão crescendo mais rápido que as capacidades de memória de GPU.
Não, mas continua sendo a opção mais prática para a maioria dos desenvolvedores. A plataforma ROCm da AMD melhorou substancialmente e executa cargas de trabalho padrão do PyTorch de forma confiável. O framework MLX da Apple oferece uma alternativa atraente para usuários de Apple Silicon. O oneAPI da Intel fornece outro caminho, embora a adoção permaneça limitada. No entanto, o ecossistema CUDA da NVIDIA oferece o suporte mais amplo de bibliotecas, mais recursos da comunidade e menos surpresas de compatibilidade. Se você precisa que as coisas simplesmente funcionem direto da caixa, NVIDIA ainda é a escolha mais segura.
O cálculo de break-even depende da utilização. Se você está treinando modelos por mais de 4-6 horas por dia consistentemente, uma GPU comprada se paga dentro de 6-12 meses comparado a taxas horárias na nuvem. Uma RTX 4090 a $1.599 custa menos que 500 horas de tempo de GPU na nuvem comparável. Se seu uso é esporádico (algumas sessões intensivas de treinamento por mês), aluguel na nuvem evita o investimento de capital e overhead de manutenção. Muitos praticantes usam uma abordagem híbrida: uma GPU local para desenvolvimento diário e iteração, com bursting na nuvem para execuções de treinamento em larga escala.
GPUs de data center (A100, H100) oferecem três vantagens chave: VRAM maior (80 GB vs 24 GB), memória HBM com largura de banda dramaticamente maior e NVLink/NVSwitch para escalonamento multi-GPU eficiente. GPUs de consumo (RTX 4090, 4080, 4070 Ti) fornecem excelente desempenho com GPU única por uma fração do preço, mas carecem da tecnologia de interconexão necessária para treinamento distribuído eficiente e possuem menos VRAM para modelos grandes. Para cargas de trabalho com GPU única dentro do limite de 24 GB de VRAM, uma RTX 4090 de consumo entrega aproximadamente 80% do desempenho de uma A100 por aproximadamente 12% do custo.
O consumo de energia impacta tanto os custos operacionais quanto os requisitos de infraestrutura. Uma RTX 4090 a 450W requer uma fonte de alimentação de 850W+ de alta qualidade e resfriamento robusto do gabinete. Uma H100 a 700W demanda entrega de energia e infraestrutura de resfriamento de classe servidor. Para um lab doméstico rodando uma ou duas GPUs, espere adicionar $30-60 por mês em custos de eletricidade para cargas de trabalho de treinamento contínuo. O TDP de 285W da RTX 4070 Ti Super a torna a opção mais prática para ambientes com restrição de energia, entregando bom desempenho sem exigir atualizações de infraestrutura.

Testamos 6 teclados mecânicos por semanas de código real. Um modelo de R$400 superou opções de R$1.200 em conforto.
James Carter
13 de fev. de 2026

Gravamos 30 episódios com 6 mics. O melhor USB custou 1/3 do melhor XLR e a diferença é menor do que você pensa.
James Carter
13 de fev. de 2026

Rodamos os mesmos workloads de ML em 5 notebooks por 4 meses. Um deles treinou modelos 3x mais rápido que o segundo colocado.
James Carter
13 de fev. de 2026