- Analyse von Finanzberichten und Verstehen von Diagrammen/Tabellen
- Extraktion wichtiger Informationen aus Rechtsdokumenten
- Übersetzungshilfe für Dokumente
- Umwandlung von Dokumentinformationen in strukturierte Formate
Bevor Sie beginnen
PDF-Anforderungen prüfen
Claude funktioniert mit jedem Standard-PDF. Sie sollten jedoch sicherstellen, dass Ihre Anfragegröße diese Anforderungen erfüllt, wenn Sie PDF-Unterstützung verwenden:Anforderung | Limit |
---|---|
Maximale Anfragegröße | 32MB |
Maximale Seiten pro Anfrage | 100 |
Format | Standard-PDF (keine Passwörter/Verschlüsselung) |
Unterstützte Plattformen und Modelle
PDF-Unterstützung wird derzeit über direkten API-Zugang und Google Vertex AI unterstützt auf:- Claude Opus 4 (
claude-opus-4-20250514
) - Claude Sonnet 4 (
claude-sonnet-4-20250514
) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219
) - Claude Sonnet 3.5 Modelle (
claude-3-5-sonnet-20241022
,claude-3-5-sonnet-20240620
) - Claude Haiku 3.5 (
claude-3-5-haiku-20241022
)
Amazon Bedrock PDF-Unterstützung
Bei der Verwendung von PDF-Unterstützung über Amazon Bedrocks Converse API gibt es zwei verschiedene Dokumentverarbeitungsmodi:Wichtig: Um auf Claudes vollständige visuelle PDF-Verständnisfähigkeiten in der Converse API zuzugreifen, müssen Sie Zitate aktivieren. Ohne aktivierte Zitate fällt die API auf nur grundlegende Textextraktion zurück. Erfahren Sie mehr über Arbeiten mit Zitaten.
Dokumentverarbeitungsmodi
-
Converse Document Chat (Ursprünglicher Modus - Nur Textextraktion)
- Bietet grundlegende Textextraktion aus PDFs
- Kann keine Bilder, Diagramme oder visuelle Layouts in PDFs analysieren
- Verwendet etwa 1.000 Token für ein 3-seitiges PDF
- Wird automatisch verwendet, wenn Zitate nicht aktiviert sind
-
Claude PDF Chat (Neuer Modus - Vollständiges visuelles Verständnis)
- Bietet vollständige visuelle Analyse von PDFs
- Kann Diagramme, Grafiken, Bilder und visuelle Layouts verstehen und analysieren
- Verarbeitet jede Seite sowohl als Text als auch als Bild für umfassendes Verständnis
- Verwendet etwa 7.000 Token für ein 3-seitiges PDF
- Erfordert aktivierte Zitate in der Converse API
Wichtige Einschränkungen
- Converse API: Visuelle PDF-Analyse erfordert aktivierte Zitate. Es gibt derzeit keine Option, visuelle Analyse ohne Zitate zu verwenden (im Gegensatz zur InvokeModel API).
- InvokeModel API: Bietet vollständige Kontrolle über PDF-Verarbeitung ohne erzwungene Zitate.
Häufige Probleme
Wenn Kunden berichten, dass Claude keine Bilder oder Diagramme in ihren PDFs sieht, wenn sie die Converse API verwenden, müssen sie wahrscheinlich das Zitate-Flag aktivieren. Ohne es fällt Converse auf nur grundlegende Textextraktion zurück.Dies ist eine bekannte Einschränkung der Converse API, an deren Behebung wir arbeiten. Für Anwendungen, die visuelle PDF-Analyse ohne Zitate benötigen, verwenden Sie stattdessen die InvokeModel API.
Für Nicht-PDF-Dateien wie .csv, .xlsx, .docx, .md oder .txt-Dateien siehe Arbeiten mit anderen Dateiformaten.
PDFs mit Claude verarbeiten
Ihre erste PDF-Anfrage senden
Beginnen wir mit einem einfachen Beispiel unter Verwendung der Messages API. Sie können PDFs auf drei Arten an Claude bereitstellen:- Als URL-Verweis auf ein online gehostetes PDF
- Als base64-kodiertes PDF in
document
Content-Blöcken - Über eine
file_id
aus der Files API
Option 1: URL-basiertes PDF-Dokument
Der einfachste Ansatz ist, ein PDF direkt über eine URL zu referenzieren:Option 2: Base64-kodiertes PDF-Dokument
Wenn Sie PDFs von Ihrem lokalen System senden müssen oder wenn eine URL nicht verfügbar ist:Option 3: Files API
Für PDFs, die Sie wiederholt verwenden werden, oder wenn Sie Kodierungs-Overhead vermeiden möchten, verwenden Sie die Files API:Wie PDF-Unterstützung funktioniert
Wenn Sie ein PDF an Claude senden, laufen folgende Schritte ab:1
Das System extrahiert die Inhalte des Dokuments.
- Das System konvertiert jede Seite des Dokuments in ein Bild.
- Der Text von jeder Seite wird extrahiert und zusammen mit dem Bild jeder Seite bereitgestellt.
2
Claude analysiert sowohl den Text als auch die Bilder, um das Dokument besser zu verstehen.
- Dokumente werden als Kombination aus Text und Bildern zur Analyse bereitgestellt.
- Dies ermöglicht es Benutzern, nach Einblicken in visuelle Elemente eines PDFs zu fragen, wie Diagramme, Schaubilder und andere nicht-textuelle Inhalte.
3
Claude antwortet und referenziert dabei die PDF-Inhalte, falls relevant.
Claude kann sowohl textuelle als auch visuelle Inhalte referenzieren, wenn es antwortet. Sie können die Leistung weiter verbessern, indem Sie PDF-Unterstützung integrieren mit:
- Prompt-Caching: Um die Leistung für wiederholte Analysen zu verbessern.
- Batch-Verarbeitung: Für hochvolumige Dokumentverarbeitung.
- Tool-Verwendung: Um spezifische Informationen aus Dokumenten für die Verwendung als Tool-Eingaben zu extrahieren.
Ihre Kosten schätzen
Die Token-Anzahl einer PDF-Datei hängt vom gesamten aus dem Dokument extrahierten Text sowie der Anzahl der Seiten ab:- Text-Token-Kosten: Jede Seite verwendet typischerweise 1.500-3.000 Token pro Seite, abhängig von der Inhaltsdichte. Standard-API-Preise gelten ohne zusätzliche PDF-Gebühren.
- Bild-Token-Kosten: Da jede Seite in ein Bild konvertiert wird, werden dieselben bildbasierten Kostenberechnungen angewendet.
PDF-Verarbeitung optimieren
Leistung verbessern
Befolgen Sie diese Best Practices für optimale Ergebnisse:- Platzieren Sie PDFs vor Text in Ihren Anfragen
- Verwenden Sie Standard-Schriftarten
- Stellen Sie sicher, dass Text klar und lesbar ist
- Drehen Sie Seiten in die richtige aufrechte Ausrichtung
- Verwenden Sie logische Seitenzahlen (aus PDF-Viewer) in Prompts
- Teilen Sie große PDFs bei Bedarf in Chunks auf
- Aktivieren Sie Prompt-Caching für wiederholte Analysen