Por que o Claude Code trava? Diagnóstico de RateLimit e crashes com Zhipu GLM

Você está empolgado. Você configurou o Claude Code. Você colocou a chave da Zhipu. Você pede para ele criar um componente React. Ele começa a pensar e… Crash. Fecha sozinho.

Ou pior: ele fica preso num loop infinito dizendo "RateLimit exceeded".

Se isso aconteceu com você, não se desespere. É um erro clássico de configuração que resolvemos recentemente na nossa infraestrutura, e os motivos geralmente recaem em três categorias.

1. O erro do Endpoint Errado

A API da Zhipu tem vários endpoints diferentes dependendo de como você está pagando.

Se você está no Developer (Coding) Plan (o plano de assinatura mensal) e no seu config.yaml do LiteLLM você usou: api_base: https://open.bigmodel.cn/api/paas/v4

O Claude Code vai travar. Por quê? Porque esse é o endpoint do modelo Pay-As-You-Go. Se sua conta não tem créditos avulsos, a API vai retornar um erro de saldo insuficiente ou “RateLimit Exceeded” contínuo.

A Solução: O endpoint correto para quem tem o plano de codificação é: api_base: https://open.bigmodel.cn/api/coding/paas/v4

A simples adição do /coding/ no caminho da URL roteia a requisição para os servidores dedicados aos assinantes, ignorando a trava de saldo avulso.

2. O Crash dos Subagentes Invisíveis

Quando você pede para o Claude Code: “Analise a pasta src/ e mude as cores para azul”, ele não faz isso em uma única requisição. Ele “terceiriza” tarefas:

Ele chama a ferramenta ls (gastando tokens)
Ele percebe que precisa ler 5 arquivos. Ele gera subagentes (threads invisíveis) para ler esses arquivos. (gastando mais tokens)

Se você configurou o LiteLLM para rotear os modelos de subagentes (como o claude-haiku) para um modelo muito pesado (como o GLM-4-Plus com Deep Thinking ativado), você pode estar esgotando o limite de conexões paralelas por segundo da sua cota da Zhipu.

O Claude dispara 5 requisições pesadas de uma vez, a Zhipu recusa por RateLimit e o Claude Code entra em pânico e crasha.

A Solução: No seu config.yaml, garanta que o modelo que simula o claude-haiku-4-5 esteja mapeado para o GLM-Turbo ou GLM-4-AirX, modelos extremamente rápidos e com limites paralelos altíssimos. Subagentes geralmente só precisam fazer tarefas mecânicas (“leia esse arquivo e devolva o texto”), eles não precisam de Deep Thinking.

3. Tarefas Fantasmas em Background

Às vezes, um crash do Claude Code pode deixar tarefas pendentes rodando em background no seu terminal, consumindo memória e CPU (por exemplo, instâncias do LiteLLM órfãs ou comandos grep gigantescos).

Se o terminal começar a ficar lento depois de um crash, você pode procurar por tarefas “zumbis”:

# Procurar por LiteLLM órfãos
ps aux | grep litellm

# Matar o processo se necessário (substitua o PID)
kill -9 PID

Para quem usa a ferramenta avançada do Antigravity (AGY), basta rodar a verificação de background tasks e matar o que ficou travado.

Ao corrigir o endpoint de /api/paas/v4 para /api/coding/paas/v4 e aliviar os subagentes usando modelos Turbo, a estabilidade do seu Claude Code com Zhipu vai de 0 a 100 da noite pro dia.