Como usar o Claude Code com o DeepSeek V4 Pro via LiteLLM
O setup do claude-ds, análise do config.yaml, suporte a Thinking Mode e quando preferir DeepSeek vs Zhipu GLM.
A Zhipu AI (GLM) é fantástica, mas existe um gigante de peso pesado que tem sido o queridinho da comunidade open-source e desenvolvedores desde 2024: o DeepSeek. Em meados de 2026, com o lançamento da família V4, o modelo DeepSeek-V4-Pro consolidou-se como um dos modelos de raciocínio lógico mais impressionantes do mundo (contando com uma arquitetura Mixture of Experts de 1.6 trilhões de parâmetros).
Neste artigo, vou mostrar como adaptamos nossa configuração do LiteLLM para rodar o Claude Code apontando exclusivamente para a API do DeepSeek, através do nosso comando personalizado claude-ds.
O Arquivo config.yaml do DeepSeek
Diferente do setup da Zhipu, onde mapeamos cuidadosamente os modelos (Opus para o GLM-4-Plus, Haiku para o GLM-Turbo), o caso do DeepSeek costuma ser muito mais linear e brutalista. O DeepSeek-V4-Pro é incrivelmente rápido e extremamente barato, então muitos desenvolvedores optam por rodar tudo nele, inclusive as tarefas de subagentes.
Aqui está o arquivo ~/claude-deepseek/config.yaml:
model_list:
- model_name: claude-sonnet-4-5
litellm_params:
model: deepseek/deepseek-v4-pro
api_key: os.environ/DEEPSEEK_API_KEY
- model_name: claude-opus-4-5
litellm_params:
model: deepseek/deepseek-v4-pro
api_key: os.environ/DEEPSEEK_API_KEY
- model_name: claude-haiku-4-5
litellm_params:
model: deepseek/deepseek-v4-pro
api_key: os.environ/DEEPSEEK_API_KEY
litellm_settings:
# Note que NÃO estamos mais dropando os parâmetros aqui como na Zhipu!
# drop_params: true (removido)
O Diferencial do Thinking Mode
Lembra do nosso artigo sobre níveis de esforço e Thinking Mode? Com a Zhipu, precisávamos que o LiteLLM descartasse os parâmetros de budget_tokens do Claude para evitar crash na API.
Com a API do DeepSeek V4, a história é outra. O DeepSeek possui suporte nativo integral a controle de raciocínio via API. Isso significa que o LiteLLM consegue interceptar o bloco de thinking gerado pelo Claude Code e traduzi-lo perfeitamente para os parâmetros de esforço de raciocínio da API do DeepSeek.
O resultado? Se você escolher “High Effort” no Claude CLI, o DeepSeek vai genuinamente parar e gastar dezenas de milhares de tokens ponderando as ramificações lógicas do seu código antes de emitir a resposta. E você vai pagar apenas pela miséria de centavos de dólar que o DeepSeek cobra por milhão de tokens.
Configurando no .bashrc
A configuração no terminal é idêntica ao setup do claude-glm, apenas mudando a pasta do config e a variável da chave:
export DEEPSEEK_API_KEY="sua_chave_deepseek_aqui"
claude-ds() {
local LITELLM_PID
# Aponta para a pasta correta do config do deepseek
litellm --config ~/claude-deepseek/config.yaml --port 4001 &>/dev/null &
LITELLM_PID=$!
sleep 2
ANTHROPIC_BASE_URL=http://localhost:4001 \
ANTHROPIC_API_KEY=fake-key \
claude "$@"
kill $LITELLM_PID 2>/dev/null
}
Quando preferir Zhipu vs DeepSeek?
A escolha entre os dois no nosso dia a dia se resume a:
- Plano Financeiro: Se você prefere ter um gasto fixo mensal que não surja de surpresa na fatura do cartão, o Developer Plan da Zhipu é imbatível na sua previsibilidade.
- Escrita Criativa/Comentários (PT-BR): A Zhipu costuma ter uma redação mais suave e “humana” em português do que os modelos orientados primariamente a raciocínio matemático cru.
- Lógica Crua, Debugging e Refatoração Pesada: É aqui que o DeepSeek V4 Pro brilha intensamente. Com o Thinking Mode ligado no máximo, o DeepSeek detecta leaks de memória e falhas de concorrência que quase todos os outros modelos deixam passar.
Para testar o melhor dos dois mundos, mantenha ambos configurados no seu sistema, usando claude-glm para o fluxo de trabalho comum, e claude-ds quando precisar da cavalaria pesada para debugar algo bizarro.