Endpoint Nativo da Zhipu vs LiteLLM: qual usar para o Claude Code?

Ao longo da nossa série sobre a integração do Claude Code com a Zhipu AI, temos enfatizado o uso do LiteLLM como intermediário obrigatório. Mas você, leitor atento e explorador das documentações oficias, pode ter se deparado com uma novidade recente da Zhipu:

Eles lançaram um endpoint nativo para simular a Anthropic!

Na página de desenvolvedores da Zhipu (Z.ai), consta que basta configurar a URL https://open.bigmodel.cn/api/anthropic no próprio Claude Code, e tudo funcionará magicamente. Sem proxy, sem instalação extra de Python, sem portas 4001.

Então, por que todo esse esforço com o LiteLLM? Fomos ignorantes?

A resposta é não. Vamos entender exatamente para quem o endpoint nativo foi feito, e por que ele pode (ou não) ser a escolha certa para você.

O que é o Endpoint Nativo da Zhipu?

A Zhipu percebeu que milhares de desenvolvedores no ocidente estavam usando o Claude Code, mas queriam pagar mais barato. Então, os engenheiros da Zhipu criaram uma “camada de tradução” nos servidores deles mesmos.

Se você apontar o ANTHROPIC_BASE_URL direto para https://open.bigmodel.cn/api/anthropic e usar a sua ZHIPU_API_KEY, a Zhipu recebe as mensagens no formato da Anthropic, converte para o formato GLM internamente, roda o modelo, e converte de volta. É o “LiteLLM” rodando dentro da própria Zhipu.

A Grande Vantagem do Nativo

Setup de 5 Minutos: Sem dependências no seu computador. Exportou duas variáveis no .bashrc, rodou o Claude Code e você está no ar.
Zero Latência de Proxy: Como a tradução é feita do lado deles, você remove a latência (mínima, mas existente) do servidor LiteLLM rodando localmente no seu Node/Python.

O Problema Fatal (para alguns)

Por que então não usamos o endpoint nativo?

Porque a Zhipu desenhou esse endpoint pensando em um público-alvo muito específico: Desenvolvedores no plano Pay-As-You-Go.

Se você paga por token consumido (colocando saldo no cartão de crédito), o endpoint nativo é perfeito.

Mas se você, como eu, assinou o Developer (Coding) Plan (assinatura mensal pré-paga para codificação), o endpoint nativo tem um defeito grave em meados de 2026: ele não suporta o roteamento para o plano Developer.

Para usar sua cota do plano de desenvolvedor, suas requisições precisam obrigatoriamente bater no endpoint /api/coding/paas/v4.

Como o endpoint nativo /api/anthropic da Zhipu não consegue, atualmente, ser forçado a direcionar a requisição internamente para o pipeline do Coding Plan, as requisições vão abater do seu saldo avulso. Se o seu saldo avulso for zero, você vai receber RateLimit Exceeded ou Payment Required, mesmo tendo milhões de tokens disponíveis no seu plano Developer.

O Veredicto

Use o Endpoint Nativo (/api/anthropic) se:

Você é um usuário casual.
Você usa a Zhipu AI na modalidade Pay-As-You-Go (paga o que consome sem assinatura).
Você quer o setup mais rápido e não se importa em pagar os centavos por token.

Use o LiteLLM (Proxy Local) se:

Você assina o Developer / Coding Plan.
Você precisa forçar o endpoint para /api/coding/paas/v4.
Você quer controle granular para enviar o “Sonnet” para um modelo e o “Haiku” (subagentes) para um modelo bem mais leve (Turbo) para poupar tokens. O endpoint nativo não permite essa granularidade fina de remapeamento modelo a modelo de forma transparente.

O LiteLLM dá trabalho para configurar da primeira vez, mas o controle absoluto que ele te dá sobre custos e roteamento vale cada minuto do setup.