Endpoint Nativo da Zhipu vs LiteLLM: qual usar para o Claude Code?
Comparativo honesto: quando o endpoint /api/anthropic nativo da Zhipu funciona bem e quando você realmente precisa do LiteLLM.
Ao longo da nossa série sobre a integração do Claude Code com a Zhipu AI, temos enfatizado o uso do LiteLLM como intermediário obrigatório. Mas você, leitor atento e explorador das documentações oficias, pode ter se deparado com uma novidade recente da Zhipu:
Eles lançaram um endpoint nativo para simular a Anthropic!
Na página de desenvolvedores da Zhipu (Z.ai), consta que basta configurar a URL https://open.bigmodel.cn/api/anthropic no próprio Claude Code, e tudo funcionará magicamente. Sem proxy, sem instalação extra de Python, sem portas 4001.
Então, por que todo esse esforço com o LiteLLM? Fomos ignorantes?
A resposta é não. Vamos entender exatamente para quem o endpoint nativo foi feito, e por que ele pode (ou não) ser a escolha certa para você.
O que é o Endpoint Nativo da Zhipu?
A Zhipu percebeu que milhares de desenvolvedores no ocidente estavam usando o Claude Code, mas queriam pagar mais barato. Então, os engenheiros da Zhipu criaram uma “camada de tradução” nos servidores deles mesmos.
Se você apontar o ANTHROPIC_BASE_URL direto para https://open.bigmodel.cn/api/anthropic e usar a sua ZHIPU_API_KEY, a Zhipu recebe as mensagens no formato da Anthropic, converte para o formato GLM internamente, roda o modelo, e converte de volta. É o “LiteLLM” rodando dentro da própria Zhipu.
A Grande Vantagem do Nativo
- Setup de 5 Minutos: Sem dependências no seu computador. Exportou duas variáveis no
.bashrc, rodou o Claude Code e você está no ar. - Zero Latência de Proxy: Como a tradução é feita do lado deles, você remove a latência (mínima, mas existente) do servidor LiteLLM rodando localmente no seu Node/Python.
O Problema Fatal (para alguns)
Por que então não usamos o endpoint nativo?
Porque a Zhipu desenhou esse endpoint pensando em um público-alvo muito específico: Desenvolvedores no plano Pay-As-You-Go.
Se você paga por token consumido (colocando saldo no cartão de crédito), o endpoint nativo é perfeito.
Mas se você, como eu, assinou o Developer (Coding) Plan (assinatura mensal pré-paga para codificação), o endpoint nativo tem um defeito grave em meados de 2026: ele não suporta o roteamento para o plano Developer.
Para usar sua cota do plano de desenvolvedor, suas requisições precisam obrigatoriamente bater no endpoint /api/coding/paas/v4.
Como o endpoint nativo /api/anthropic da Zhipu não consegue, atualmente, ser forçado a direcionar a requisição internamente para o pipeline do Coding Plan, as requisições vão abater do seu saldo avulso. Se o seu saldo avulso for zero, você vai receber RateLimit Exceeded ou Payment Required, mesmo tendo milhões de tokens disponíveis no seu plano Developer.
O Veredicto
Use o Endpoint Nativo (/api/anthropic) se:
- Você é um usuário casual.
- Você usa a Zhipu AI na modalidade Pay-As-You-Go (paga o que consome sem assinatura).
- Você quer o setup mais rápido e não se importa em pagar os centavos por token.
Use o LiteLLM (Proxy Local) se:
- Você assina o Developer / Coding Plan.
- Você precisa forçar o endpoint para
/api/coding/paas/v4. - Você quer controle granular para enviar o “Sonnet” para um modelo e o “Haiku” (subagentes) para um modelo bem mais leve (Turbo) para poupar tokens. O endpoint nativo não permite essa granularidade fina de remapeamento modelo a modelo de forma transparente.
O LiteLLM dá trabalho para configurar da primeira vez, mas o controle absoluto que ele te dá sobre custos e roteamento vale cada minuto do setup.