Por que o Claude Code trava? Diagnóstico de RateLimit e crashes com Zhipu GLM
Como identificar travamentos de RateLimit vs erros de API, o problema do endpoint errado, e como os subagentes invisíveis do Claude Code consomem sua cota.
Você está empolgado. Você configurou o Claude Code. Você colocou a chave da Zhipu. Você pede para ele criar um componente React. Ele começa a pensar e… Crash. Fecha sozinho.
Ou pior: ele fica preso num loop infinito dizendo "RateLimit exceeded".
Se isso aconteceu com você, não se desespere. É um erro clássico de configuração que resolvemos recentemente na nossa infraestrutura, e os motivos geralmente recaem em três categorias.
1. O erro do Endpoint Errado
A API da Zhipu tem vários endpoints diferentes dependendo de como você está pagando.
Se você está no Developer (Coding) Plan (o plano de assinatura mensal) e no seu config.yaml do LiteLLM você usou:
api_base: https://open.bigmodel.cn/api/paas/v4
O Claude Code vai travar. Por quê? Porque esse é o endpoint do modelo Pay-As-You-Go. Se sua conta não tem créditos avulsos, a API vai retornar um erro de saldo insuficiente ou “RateLimit Exceeded” contínuo.
A Solução:
O endpoint correto para quem tem o plano de codificação é:
api_base: https://open.bigmodel.cn/api/coding/paas/v4
A simples adição do /coding/ no caminho da URL roteia a requisição para os servidores dedicados aos assinantes, ignorando a trava de saldo avulso.
2. O Crash dos Subagentes Invisíveis
Quando você pede para o Claude Code: “Analise a pasta src/ e mude as cores para azul”, ele não faz isso em uma única requisição. Ele “terceiriza” tarefas:
- Ele chama a ferramenta
ls(gastando tokens) - Ele percebe que precisa ler 5 arquivos. Ele gera subagentes (threads invisíveis) para ler esses arquivos. (gastando mais tokens)
Se você configurou o LiteLLM para rotear os modelos de subagentes (como o claude-haiku) para um modelo muito pesado (como o GLM-4-Plus com Deep Thinking ativado), você pode estar esgotando o limite de conexões paralelas por segundo da sua cota da Zhipu.
O Claude dispara 5 requisições pesadas de uma vez, a Zhipu recusa por RateLimit e o Claude Code entra em pânico e crasha.
A Solução:
No seu config.yaml, garanta que o modelo que simula o claude-haiku-4-5 esteja mapeado para o GLM-Turbo ou GLM-4-AirX, modelos extremamente rápidos e com limites paralelos altíssimos. Subagentes geralmente só precisam fazer tarefas mecânicas (“leia esse arquivo e devolva o texto”), eles não precisam de Deep Thinking.
3. Tarefas Fantasmas em Background
Às vezes, um crash do Claude Code pode deixar tarefas pendentes rodando em background no seu terminal, consumindo memória e CPU (por exemplo, instâncias do LiteLLM órfãs ou comandos grep gigantescos).
Se o terminal começar a ficar lento depois de um crash, você pode procurar por tarefas “zumbis”:
# Procurar por LiteLLM órfãos
ps aux | grep litellm
# Matar o processo se necessário (substitua o PID)
kill -9 PID
Para quem usa a ferramenta avançada do Antigravity (AGY), basta rodar a verificação de background tasks e matar o que ficou travado.
Ao corrigir o endpoint de /api/paas/v4 para /api/coding/paas/v4 e aliviar os subagentes usando modelos Turbo, a estabilidade do seu Claude Code com Zhipu vai de 0 a 100 da noite pro dia.