Siempre es mejor primero diseñar una instrucción que funcione bien sin restricciones de modelo o de instrucción, y luego intentar estrategias de reducción de latencia después. Intentar reducir la latencia prematuramente podría impedir que descubras cómo se ve el máximo rendimiento.
Cómo medir la latencia
Al hablar de latencia, puedes encontrarte con varios términos y mediciones:- Latencia base: Es el tiempo que tarda el modelo en procesar la instrucción y generar la respuesta, sin considerar los tokens de entrada y salida por segundo. Proporciona una idea general de la velocidad del modelo.
- Tiempo hasta el primer token (TTFT): Esta métrica mide el tiempo que tarda el modelo en generar el primer token de la respuesta, desde que se envió la instrucción. Es particularmente relevante cuando estás usando streaming (más sobre esto más adelante) y quieres proporcionar una experiencia receptiva a tus usuarios.
Cómo reducir la latencia
1. Elige el modelo correcto
Una de las formas más directas de reducir la latencia es seleccionar el modelo apropiado para tu caso de uso. Anthropic ofrece una gama de modelos con diferentes capacidades y características de rendimiento. Considera tus requisitos específicos y elige el modelo que mejor se adapte a tus necesidades en términos de velocidad y calidad de salida. Para más detalles sobre las métricas de los modelos, consulta nuestra página de descripción general de modelos.2. Optimiza la longitud de la instrucción y la salida
Minimiza el número de tokens tanto en tu instrucción de entrada como en la salida esperada, mientras mantienes un alto rendimiento. Cuantos menos tokens tenga que procesar y generar el modelo, más rápida será la respuesta. Aquí hay algunos consejos para ayudarte a optimizar tus instrucciones y salidas:- Sé claro pero conciso: Procura transmitir tu intención de manera clara y concisa en la instrucción. Evita detalles innecesarios o información redundante, teniendo en cuenta que claude carece de contexto sobre tu caso de uso y puede no hacer las conexiones lógicas previstas si las instrucciones no son claras.
- Solicita respuestas más cortas: Pide a Claude directamente que sea conciso. La familia de modelos Claude 3 tiene una mejor capacidad de dirección que las generaciones anteriores. Si Claude está generando una longitud no deseada, pídele a Claude que modere su verbosidad.
Debido a cómo los LLM cuentan tokens en lugar de palabras, pedir un recuento exacto de palabras o un límite de recuento de palabras no es una estrategia tan efectiva como pedir límites de recuento de párrafos o oraciones.
- Establece límites de salida apropiados: Usa el parámetro
max_tokens
para establecer un límite estricto en la longitud máxima de la respuesta generada. Esto evita que Claude genere salidas excesivamente largas.Nota: Cuando la respuesta alcanza los tokens
max_tokens
, la respuesta se cortará, quizás a mitad de oración o palabra, por lo que esta es una técnica brusca que puede requerir post-procesamiento y generalmente es más apropiada para respuestas de opción múltiple o respuestas cortas donde la respuesta viene justo al principio. - Experimenta con la temperatura: El parámetro
temperature
controla la aleatoriedad de la salida. Valores más bajos (por ejemplo, 0.2) pueden llevar a respuestas más enfocadas y cortas, mientras que valores más altos (por ejemplo, 0.8) pueden resultar en salidas más diversas pero potencialmente más largas.