Verwendung des Evaluierungs-Tools

Zugriff auf die Evaluierungs-Funktion

Um mit dem Evaluierungs-Tool zu beginnen:

Öffnen Sie die Anthropic Console und navigieren Sie zum Prompt-Editor.
Nachdem Sie Ihren Prompt erstellt haben, suchen Sie nach dem ‘Evaluieren’-Tab oben auf dem Bildschirm.

Stellen Sie sicher, dass Ihr Prompt mindestens 1-2 dynamische Variablen mit der doppelten geschweiften Klammer-Syntax enthält: {{variable}}. Dies ist erforderlich für die Erstellung von Evaluierungs-Testsets.

Prompts generieren

Die Console bietet einen integrierten Prompt-Generator, der von Claude Opus 4.1 betrieben wird:

Klicken Sie auf 'Prompt generieren'

Das Klicken auf das ‘Prompt generieren’-Hilfstool öffnet ein Modal, in dem Sie Ihre Aufgabeninformationen eingeben können.

Beschreiben Sie Ihre Aufgabe

Beschreiben Sie Ihre gewünschte Aufgabe (z.B. “Eingehende Kundenservice-Anfragen triagieren”) mit so viel oder so wenig Detail, wie Sie möchten. Je mehr Kontext Sie einbeziehen, desto mehr kann Claude seinen generierten Prompt an Ihre spezifischen Bedürfnisse anpassen.

Generieren Sie Ihren Prompt

Das Klicken auf den orangefarbenen ‘Prompt generieren’-Button unten lässt Claude einen hochwertigen Prompt für Sie generieren. Sie können diese Prompts dann mit dem Evaluierungs-Bildschirm in der Console weiter verbessern.

Diese Funktion macht es einfacher, Prompts mit der entsprechenden Variablen-Syntax für die Evaluierung zu erstellen.

Testfälle erstellen

Wenn Sie auf den Evaluierungs-Bildschirm zugreifen, haben Sie mehrere Optionen, um Testfälle zu erstellen:

Klicken Sie auf den ’+ Zeile hinzufügen’-Button unten links, um manuell einen Fall hinzuzufügen.
Verwenden Sie die ‘Testfall generieren’-Funktion, um Claude automatisch Testfälle für Sie generieren zu lassen.
Importieren Sie Testfälle aus einer CSV-Datei.

Um die ‘Testfall generieren’-Funktion zu verwenden:

Klicken Sie auf 'Testfall generieren'

Claude wird Testfälle für Sie generieren, eine Zeile nach der anderen für jedes Mal, wenn Sie den Button klicken.

Generierungslogik bearbeiten (optional)

Sie können auch die Testfall-Generierungslogik bearbeiten, indem Sie auf das Pfeil-Dropdown rechts neben dem ‘Testfall generieren’-Button klicken, dann auf ‘Generierungslogik anzeigen’ oben im Variablen-Fenster, das sich öffnet. Möglicherweise müssen Sie auf ‘Generieren’ oben rechts in diesem Fenster klicken, um die anfängliche Generierungslogik zu füllen.Das Bearbeiten ermöglicht es Ihnen, die Testfälle, die Claude generiert, mit größerer Präzision und Spezifität anzupassen und fein abzustimmen.

Hier ist ein Beispiel eines gefüllten Evaluierungs-Bildschirms mit mehreren Testfällen:

Wenn Sie Ihren ursprünglichen Prompt-Text aktualisieren, können Sie die gesamte Evaluierungs-Suite gegen den neuen Prompt erneut ausführen, um zu sehen, wie sich Änderungen auf die Leistung über alle Testfälle hinweg auswirken.

Tipps für effektive Evaluierung

Prompt-Struktur für die Evaluierung

Um das Beste aus dem Evaluierungs-Tool herauszuholen, strukturieren Sie Ihre Prompts mit klaren Eingabe- und Ausgabeformaten. Zum Beispiel:

In dieser Aufgabe werden Sie eine süße einsätzige Geschichte generieren, die zwei Elemente einbezieht: eine Farbe und ein Geräusch.
Die Farbe, die in die Geschichte einbezogen werden soll, ist:
<color>
{{COLOR}}
</color>
Das Geräusch, das in die Geschichte einbezogen werden soll, ist:
<sound>
{{SOUND}}
</sound>
Hier sind die Schritte zur Generierung der Geschichte:
1. Denken Sie an ein Objekt, Tier oder eine Szene, die häufig mit der angegebenen Farbe assoziiert wird. Wenn die Farbe zum Beispiel "blau" ist, könnten Sie an den Himmel, das Meer oder einen Blauvogel denken.
2. Stellen Sie sich eine einfache Handlung, ein Ereignis oder eine Szene vor, die das farbige Objekt/Tier/die Szene, die Sie identifiziert haben, und das angegebene Geräusch einbezieht. Wenn die Farbe zum Beispiel "blau" ist und das Geräusch "pfeifen", könnten Sie sich einen Blauvogel vorstellen, der eine Melodie pfeift.
3. Beschreiben Sie die Handlung, das Ereignis oder die Szene, die Sie sich vorgestellt haben, in einem einzigen, prägnanten Satz. Konzentrieren Sie sich darauf, den Satz süß, evokativ und fantasievoll zu gestalten. Zum Beispiel: "Ein fröhlicher Blauvogel pfiff eine fröhliche Melodie, während er durch den azurblauen Himmel schwebte."
Bitte beschränken Sie Ihre Geschichte auf nur einen Satz. Versuchen Sie, diesen Satz so charmant und ansprechend wie möglich zu gestalten, während Sie die gegebene Farbe und das Geräusch natürlich einbeziehen.
Schreiben Sie Ihre vollständige einsätzige Geschichte in <story>-Tags.

Diese Struktur macht es einfach, Eingaben ({{COLOR}} und {{SOUND}}) zu variieren und Ausgaben konsistent zu evaluieren.

Verwenden Sie das ‘Einen Prompt generieren’-Hilfstool in der Console, um schnell Prompts mit der entsprechenden Variablen-Syntax für die Evaluierung zu erstellen.

Ergebnisse verstehen und vergleichen

Das Evaluierungs-Tool bietet mehrere Funktionen, um Ihnen bei der Verfeinerung Ihrer Prompts zu helfen:

Seite-an-Seite-Vergleich: Vergleichen Sie die Ausgaben von zwei oder mehr Prompts, um schnell die Auswirkungen Ihrer Änderungen zu sehen.
Qualitätsbewertung: Bewerten Sie die Antwortqualität auf einer 5-Punkte-Skala, um Verbesserungen in der Antwortqualität pro Prompt zu verfolgen.
Prompt-Versionierung: Erstellen Sie neue Versionen Ihres Prompts und führen Sie die Test-Suite erneut aus, um schnell zu iterieren und Ergebnisse zu verbessern.

Durch die Überprüfung der Ergebnisse über Testfälle hinweg und den Vergleich verschiedener Prompt-Versionen können Sie Muster erkennen und informierte Anpassungen an Ihrem Prompt effizienter vornehmen. Beginnen Sie heute mit der Evaluierung Ihrer Prompts, um robustere KI-Anwendungen mit Claude zu erstellen!

Erste Schritte

Modelle & Preise

Mehr über Claude erfahren

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

Verwendung des Evaluierungs-Tools

Zugriff auf die Evaluierungs-Funktion

Prompts generieren

Testfälle erstellen

Tipps für effektive Evaluierung

Ergebnisse verstehen und vergleichen

Erste Schritte

Modelle & Preise

Mehr über Claude erfahren

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

​Zugriff auf die Evaluierungs-Funktion

​Prompts generieren

​Testfälle erstellen

​Tipps für effektive Evaluierung

​Ergebnisse verstehen und vergleichen

Zugriff auf die Evaluierungs-Funktion

Prompts generieren

Testfälle erstellen

Tipps für effektive Evaluierung

Ergebnisse verstehen und vergleichen