max_tokens
excedesse a janela de contexto do modelo, o sistema ajustaria automaticamente max_tokens
para caber dentro do limite de contexto. Isso significava que você poderia definir um valor grande para max_tokens
e o sistema o reduziria silenciosamente conforme necessário.
Com modelos de pensamento estendido, max_tokens
(que inclui seu orçamento de pensamento quando o pensamento está ativado) é aplicado como um limite estrito. O sistema agora retornará um erro de validação se os tokens do prompt + max_tokens
excederem o tamanho da janela de contexto.