Zhipu AI Developer Plan: como não explodir sua cota e monitorar tudo pelo terminal

Quais modelos multiplicam o uso de cota, como criar um monitor visual no terminal e como configurar subagentes para proteger sua quota diária.

Se você assinou o Developer (Coding) Plan da Zhipu AI, você comprou uma cota mensal generosa de tokens, em vez do clássico modelo “pay-as-you-go”. É uma ótima forma de ter previsibilidade de custos. Mas existe uma pegadinha silenciosa que pode esgotar seus créditos muito mais rápido do que você imagina.

O Multiplicador de Tokens da Zhipu

Durante a nossa configuração do Claude Code, descobrimos um comportamento peculiar na forma como a Zhipu contabiliza os tokens no plano Developer, dependendo do modelo que você escolhe.

Quando você direciona o claude-haiku ou o claude-fable para os modelos GLM-Turbo ou GLM-5.2 (Fable) da Zhipu, ocorre uma multiplicação da cota. Esses modelos parecem consumir cota com um peso maior (ou de uma forma não linear), especialmente de madrugada, devido à forma como o roteamento da Zhipu gerencia as inferências mais pesadas de throughput alto.

Por outro lado, descobrimos que os modelos maiores:

  • GLM-5.1 (Opus)
  • GLM-5.0 (Sonnet)

Não multiplicam o uso da cota da mesma forma. Eles cobram o que processam.

Como se proteger?

Se você está usando o Claude Code, você não está fazendo só uma requisição por vez. O Claude dispara múltiplas requisições em paralelo através de subagentes para ler arquivos, fazer grep no repositório ou pesquisar na web. Se você apontar todos os seus modelos do LiteLLM para o GLM-5.2 ou GLM-Turbo indiscriminadamente, os subagentes vão devorar sua cota diária.

A solução no config.yaml do LiteLLM é garantir que os modelos de subagentes (Haiku) usem o modelo mais leve e barato possível sem Deep Thinking, enquanto o modelo principal (Sonnet/Opus) assume o fardo das inferências principais sem multiplicar seus tokens de forma indesejada.

Criando um Monitor de Cota Visual no Terminal

Não há nada mais chato do que ter que entrar no portal web da Zhipu o tempo todo para ver quanto da sua cota já foi usada. Para resolver isso, criamos um comando CLI direto no .bashrc que exibe a cota em um gráfico visual.

Adicione esta função no seu ~/.bashrc:

claude-glm-usage() {
    # Faz a chamada para a API da Zhipu buscando a cota do plano Developer
    local RESPONSE=$(curl -s -X GET "https://open.bigmodel.cn/api/paas/v4/user/quota" \
      -H "Authorization: Bearer ${ZHIPU_API_KEY}")
    
    # Extrai os valores usando jq (você precisa ter o jq instalado: sudo apt install jq)
    local DAILY_LIMIT=$(echo $RESPONSE | jq -r '.data.daily_limit')
    local DAILY_USED=$(echo $RESPONSE | jq -r '.data.daily_used')
    
    # Calcula o percentual
    local PERCENT=$(( 100 * DAILY_USED / DAILY_LIMIT ))
    
    echo "📊 Zhipu AI - Consumo Diário"
    echo "============================="
    echo "Tokens Usados: $DAILY_USED / $DAILY_LIMIT"
    
    # Desenha a barra de progresso simples
    local BAR_SIZE=40
    local FILLED_SIZE=$(( BAR_SIZE * PERCENT / 100 ))
    local EMPTY_SIZE=$(( BAR_SIZE - FILLED_SIZE ))
    
    printf "Uso: ["
    printf "%${FILLED_SIZE}s" | tr ' ' '#'
    printf "%${EMPTY_SIZE}s" | tr ' ' '-'
    printf "] %d%%\n" "$PERCENT"
    
    if [ "$PERCENT" -ge 90 ]; then
        echo "⚠️ ALERTA: Você está quase esgotando sua cota diária!"
    fi
}

Agora, sempre que você estiver no terminal e quiser saber se ainda tem cota antes de iniciar uma task pesada no Claude Code, basta rodar:

claude-glm-usage

Você verá um gráfico simples no terminal mostrando exatamente onde você está!