Define tus criterios de éxito

Construir una aplicación exitosa basada en LLM comienza con definir claramente tus criterios de éxito. ¿Cómo sabrás cuándo tu aplicación es lo suficientemente buena para publicarla? Tener criterios de éxito claros asegura que tus esfuerzos de ingeniería y optimización de prompts estén enfocados en lograr objetivos específicos y medibles.

Construyendo criterios sólidos

Los buenos criterios de éxito son:

Específicos: Define claramente lo que quieres lograr. En lugar de “buen rendimiento”, especifica “clasificación precisa de sentimientos”.
Medibles: Utiliza métricas cuantitativas o escalas cualitativas bien definidas. Los números proporcionan claridad y escalabilidad, pero las medidas cualitativas pueden ser valiosas si se aplican consistentemente junto con medidas cuantitativas.
- Incluso temas “difusos” como la ética y la seguridad pueden cuantificarse:
  Criterios de seguridad
  Malo Resultados seguros
  Bueno Menos del 0.1% de los resultados de 10,000 pruebas marcados por toxicidad por nuestro filtro de contenido.
Ejemplos de métricas y métodos de medición
Métricas cuantitativas:
- Específicas de la tarea: Puntuación F1, puntuación BLEU, perplejidad
- Genéricas: Precisión, exactitud, exhaustividad
- Operacionales: Tiempo de respuesta (ms), tiempo de actividad (%)
Métodos cuantitativos:
- Pruebas A/B: Comparar el rendimiento contra un modelo de referencia o una versión anterior.
- Retroalimentación del usuario: Medidas implícitas como tasas de finalización de tareas.
- Análisis de casos extremos: Porcentaje de casos extremos manejados sin errores.
Escalas cualitativas:
- Escalas Likert: “Califica la coherencia de 1 (sin sentido) a 5 (perfectamente lógico)”
- Rúbricas de expertos: Lingüistas evaluando la calidad de traducción según criterios definidos
Alcanzables: Basa tus objetivos en puntos de referencia de la industria, experimentos previos, investigación de IA o conocimiento experto. Tus métricas de éxito no deben ser irrealistas para las capacidades actuales de los modelos de vanguardia.
Relevantes: Alinea tus criterios con el propósito de tu aplicación y las necesidades del usuario. La precisión de las citas podría ser crítica para aplicaciones médicas pero menos importante para chatbots casuales.

	Criterios de seguridad
Malo	Resultados seguros
Bueno	Menos del 0.1% de los resultados de 10,000 pruebas marcados por toxicidad por nuestro filtro de contenido.

Ejemplo de criterios de fidelidad de tarea para análisis de sentimiento

	Criterios
Malo	El modelo debe clasificar bien los sentimientos
Bueno	Nuestro modelo de análisis de sentimiento debe lograr una puntuación F1 de al menos 0.85 (Medible, Específico) en un conjunto de prueba reservado* de 10,000 publicaciones diversas de Twitter (Relevante), lo que representa una mejora del 5% sobre nuestra línea base actual (Alcanzable).

*Más sobre conjuntos de prueba reservados en la siguiente sección

Criterios de éxito comunes a considerar

Aquí hay algunos criterios que podrían ser importantes para tu caso de uso. Esta lista no es exhaustiva.

Fidelidad de la tarea

Consistencia

Relevancia y coherencia

Tono y estilo

Preservación de la privacidad

Utilización del contexto

Latencia

Precio

La mayoría de los casos de uso necesitarán una evaluación multidimensional a lo largo de varios criterios de éxito.

Ejemplo de criterios multidimensionales para análisis de sentimiento

	Criterios
Malo	El modelo debe clasificar bien los sentimientos
Bueno	En un conjunto de prueba reservado de 10,000 publicaciones diversas de Twitter, nuestro modelo de análisis de sentimiento debe lograr: - una puntuación F1 de al menos 0.85 - 99.5% de los resultados no son tóxicos - 90% de los errores causarían inconvenientes, no errores graves* - 95% tiempo de respuesta < 200ms

*En realidad, también definiríamos qué significa “inconveniente” y “grave”.

Próximos pasos

Haz una lluvia de ideas de criterios

Haz una lluvia de ideas de criterios de éxito para tu caso de uso con Claude en claude.ai.

Consejo: ¡Incluye esta página en el chat como guía para Claude!

Diseña evaluaciones

Aprende a construir conjuntos de prueba sólidos para medir el rendimiento de Claude según tus criterios.

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

Define tus criterios de éxito

Construyendo criterios sólidos

Criterios de éxito comunes a considerar

Próximos pasos

Haz una lluvia de ideas de criterios

Diseña evaluaciones

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

​Construyendo criterios sólidos

​Criterios de éxito comunes a considerar

​Próximos pasos

Haz una lluvia de ideas de criterios

Diseña evaluaciones

Construyendo criterios sólidos

Criterios de éxito comunes a considerar

Próximos pasos