Как использовать зрение
Используйте возможности зрения Claude через:- claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
- Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщения пользователя.
- API запрос. См. примеры в этом руководстве.
Перед загрузкой
Основы и ограничения
Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений. Если вы отправите изображение размером больше 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном API запросе, этот лимит составляет 2000x2000 пикселей.Оценка размера изображения
Для оптимальной производительности мы рекомендуем изменить размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение содержит более ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не окажется в пределах размерных ограничений. Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить производительность.Соотношение сторон | Размер изображения |
---|---|
1:1 | 1092x1092 пикс |
3:4 | 951x1268 пикс |
2:3 | 896x1344 пикс |
9:16 | 819x1456 пикс |
1:2 | 784x1568 пикс |
Расчет стоимости изображений
Каждое изображение, которое вы включаете в запрос к Claude, засчитывается в ваше использование токенов. Для расчета приблизительной стоимости умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете. Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов через этот алгоритм:токены = (ширина пикс * высота пикс)/750
Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера нашего API, основанные на цене Claude Sonnet 3.7 в $3 за миллион входных токенов:
Размер изображения | Количество токенов | Стоимость / изображение | Стоимость / 1K изображений |
---|---|---|---|
200x200 пикс(0.04 мегапикселя) | ~54 | ~$0.00016 | ~$0.16 |
1000x1000 пикс(1 мегапиксель) | ~1334 | ~$0.004 | ~$4.00 |
1092x1092 пикс(1.19 мегапикселя) | ~1590 | ~$0.0048 | ~$4.80 |
Обеспечение качества изображения
При предоставлении изображений Claude учитывайте следующее для лучших результатов:- Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
- Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизированные.
- Текст: Если изображение содержит важный текст, убедитесь, что он читаемый и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.
Примеры промптов
Многие из техник промптинга, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений. Эти примеры демонстрируют структуры промптов лучших практик с участием изображений.О примерах промптов
Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставить изображения Claude тремя способами:- Как изображение, закодированное в base64, в блоках содержимого
image
- Как URL-ссылку на изображение, размещенное онлайн
- Используя Files API (загрузить один раз, использовать несколько раз)
Пример изображения, закодированного в base64
Пример изображения на основе URL
Пример изображения Files API
Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:Пример: Одно изображение
Пример: Одно изображение
Роль | Содержание |
---|---|
Пользователь | [Изображение] Опишите это изображение. |
Пример: Несколько изображений
Пример: Несколько изображений
Изображение 1:
и Изображение 2:
и так далее. Вам не нужны новые строки между изображениями или между изображениями и промптом.Попросите Claude описать различия между несколькими изображениями.Роль | Содержание |
---|---|
Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения? |
Пример: Несколько изображений с системным промптом
Пример: Несколько изображений с системным промптом
Содержание | |
---|---|
Система | Отвечайте только на испанском языке. |
Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения? |
Пример: Четыре изображения в двух поворотах разговора
Пример: Четыре изображения в двух поворотах разговора
Роль | Содержание |
---|---|
Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения? |
Ассистент | [Ответ Claude] |
Пользователь | Изображение 1: [Изображение 3] Изображение 2: [Изображение 4] Похожи ли эти изображения на первые два? |
Ассистент | [Ответ Claude] |
user
как часть любой стандартной структуры многооборотного разговора.Ограничения
Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, которые следует учитывать:- Идентификация людей: Claude не может быть использован для идентификации (т.е. именования) людей на изображениях и откажется это делать.
- Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
- Пространственное рассуждение: Способности пространственного рассуждения Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение аналогового циферблата часов или описание точных позиций шахматных фигур.
- Подсчет: Claude может дать приблизительные подсчеты объектов на изображении, но может не всегда быть точно точным, особенно с большим количеством мелких объектов.
- Изображения, созданные ИИ: Claude не знает, создано ли изображение ИИ, и может быть неправильным, если его спросят. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
- Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, которые нарушают нашу Политику допустимого использования.
- Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выходные данные Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.
FAQ
Какие типы файлов изображений поддерживает Claude?
Какие типы файлов изображений поддерживает Claude?
image/jpeg
image/png
image/gif
image/webp
Может ли Claude читать URL изображений?
Может ли Claude читать URL изображений?
Есть ли ограничение на размер файла изображения, который я могу загрузить?
Есть ли ограничение на размер файла изображения, который я могу загрузить?
- API: Максимум 5МБ на изображение
- claude.ai: Максимум 10МБ на изображение
Сколько изображений я могу включить в один запрос?
Сколько изображений я могу включить в один запрос?
- Messages API: До 100 изображений на запрос
- claude.ai: До 20 изображений за ход
Читает ли Claude метаданные изображений?
Читает ли Claude метаданные изображений?
Могу ли я удалить изображения, которые я загрузил?
Могу ли я удалить изображения, которые я загрузил?
Где я могу найти подробности о конфиденциальности данных для загрузок изображений?
Где я могу найти подробности о конфиденциальности данных для загрузок изображений?
Что если интерпретация изображения Claude кажется неправильной?
Что если интерпретация изображения Claude кажется неправильной?
- Убедитесь, что изображение четкое, высокого качества и правильно ориентировано.
- Попробуйте техники инженерии промптов для улучшения результатов.
- Если проблема сохраняется, отметьте вывод в claude.ai (большой палец вверх/вниз) или свяжитесь с нашей командой поддержки.
Может ли Claude генерировать или редактировать изображения?
Может ли Claude генерировать или редактировать изображения?
Углубитесь в зрение
Готовы начать строить с изображениями, используя Claude? Вот несколько полезных ресурсов:- Мультимодальная поваренная книга: Эта поваренная книга содержит советы по началу работы с изображениями и техники лучших практик для обеспечения высочайшего качества производительности с изображениями. Посмотрите, как вы можете эффективно промптить Claude с изображениями для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
- Справочник API: Посетите нашу документацию для Messages API, включая примеры API вызовов с участием изображений.