ビジョンの使用方法
Claudeのビジョン機能は以下の方法で使用できます:- claude.ai。ファイルをアップロードするように画像をアップロードするか、画像を直接チャットウィンドウにドラッグ&ドロップします。
- Console Workbench。画像を受け入れるモデル(Claude 3および4モデルのみ)を選択すると、各ユーザーメッセージブロックの右上に画像を追加するボタンが表示されます。
- APIリクエスト。このガイドの例を参照してください。
アップロード前に
基本事項と制限
1つのリクエストに複数の画像を含めることができます(claude.aiでは最大20枚、APIリクエストでは最大100枚)。Claudeは応答を作成する際に、提供されたすべての画像を分析します。これは画像の比較や対比に役立ちます。 8000x8000ピクセルを超える画像を送信すると、拒否されます。1つのAPIリクエストで20枚を超える画像を送信する場合、この制限は2000x2000ピクセルになります。APIは1リクエストあたり100枚の画像をサポートしていますが、標準エンドポイントには32MBのリクエストサイズ制限があります。
画像サイズの評価
最適なパフォーマンスのため、画像が大きすぎる場合はアップロード前にリサイズすることをお勧めします。画像の長辺が1568ピクセルを超える場合、または画像が約1,600トークンを超える場合、まずサイズ制限内に収まるまでアスペクト比を保持してスケールダウンされます。 入力画像が大きすぎてリサイズが必要な場合、追加のモデルパフォーマンスを得ることなく、time-to-first-tokenのレイテンシが増加します。いずれかの辺が200ピクセル未満の非常に小さな画像は、パフォーマンスを低下させる可能性があります。time-to-first-tokenを改善するため、画像を1.15メガピクセル以下(かつ両次元で1568ピクセル以内)にリサイズすることをお勧めします。
アスペクト比 | 画像サイズ |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
画像コストの計算
Claudeへのリクエストに含める各画像は、トークン使用量にカウントされます。おおよそのコストを計算するには、おおよその画像トークン数に使用しているモデルのトークンあたりの価格を掛けます。 画像をリサイズする必要がない場合、このアルゴリズムを通じて使用されるトークン数を推定できます:tokens = (width px * height px)/750
以下は、Claude Sonnet 3.7のトークンあたり$3(100万入力トークンあたり)の価格に基づく、APIのサイズ制約内のさまざまな画像サイズのおおよそのトークン化とコストの例です:
画像サイズ | トークン数 | 画像あたりのコスト | 1K画像あたりのコスト |
---|---|---|---|
200x200 px(0.04メガピクセル) | 〜54 | 〜$0.00016 | 〜$0.16 |
1000x1000 px(1メガピクセル) | 〜1334 | 〜$0.004 | 〜$4.00 |
1092x1092 px(1.19メガピクセル) | 〜1590 | 〜$0.0048 | 〜$4.80 |
画像品質の確保
Claudeに画像を提供する際は、最良の結果を得るために以下の点に留意してください:- 画像形式:サポートされている画像形式を使用してください:JPEG、PNG、GIF、またはWebP。
- 画像の鮮明さ:画像が鮮明で、ぼやけすぎたりピクセル化されすぎたりしていないことを確認してください。
- テキスト:画像に重要なテキストが含まれている場合は、読みやすく、小さすぎないことを確認してください。テキストを拡大するためだけに重要な視覚的コンテキストを切り取ることは避けてください。
プロンプトの例
Claudeとのテキストベースのインタラクションでうまく機能する多くのプロンプティング技術は、画像ベースのプロンプトにも適用できます。 これらの例は、画像を含むベストプラクティスのプロンプト構造を示しています。ドキュメント-クエリの配置と同様に、Claudeは画像がテキストの前に来る場合に最もよく機能します。テキストの後に配置された画像やテキストと混在した画像でも良好に機能しますが、使用ケースで可能であれば、画像-テキストの構造をお勧めします。
プロンプト例について
以下の例は、さまざまなプログラミング言語とアプローチを使用してClaudeのビジョン機能を使用する方法を示しています。Claudeに画像を提供する方法は3つあります:image
コンテンツブロック内のbase64エンコードされた画像として- オンラインでホストされている画像へのURL参照として
- Files APIを使用して(一度アップロードして複数回使用)
Base64エンコードされた画像の例
URLベースの画像の例
Files API画像の例
繰り返し使用する画像やエンコードのオーバーヘッドを避けたい場合は、Files APIを使用してください:例:1つの画像
例:1つの画像
画像についての質問や画像を使用するタスクの指示よりも、プロンプトの早い段階で画像を配置するのが最適です。Claudeに1つの画像を説明してもらいます。
以下は、Claude Sonnet 3.7モデルを使用した対応するAPIコールです。
ロール | コンテンツ |
---|---|
ユーザー | [画像] この画像を説明してください。 |
Python
例:複数の画像
例:複数の画像
複数の画像がある状況では、各画像を
以下は、Claude Sonnet 3.7モデルを使用した対応するAPIコールです。
画像1:
と画像2:
などで紹介します。画像間や画像とプロンプト間に改行は必要ありません。Claudeに複数の画像の違いを説明してもらいます。ロール | コンテンツ |
---|---|
ユーザー | 画像1: [画像1] 画像2: [画像2] これらの画像はどのように違いますか? |
Python
例:システムプロンプト付きの複数画像
例:システムプロンプト付きの複数画像
Claudeに複数の画像の違いを説明してもらいながら、応答方法についてシステムプロンプトを与えます。
以下は、Claude Sonnet 3.7モデルを使用した対応するAPIコールです。
コンテンツ | |
---|---|
システム | スペイン語でのみ応答してください。 |
ユーザー | 画像1: [画像1] 画像2: [画像2] これらの画像はどのように違いますか? |
Python
例:2つの会話ターンにわたる4つの画像
例:2つの会話ターンにわたる4つの画像
Claudeのビジョン機能は、画像とテキストを混在させるマルチモーダル会話で輝きます。Claudeと拡張された双方向のやり取りを行い、任意の時点で新しい画像やフォローアップの質問を追加できます。これにより、反復的な画像分析、比較、または視覚的要素と他の知識を組み合わせる強力なワークフローが可能になります。Claudeに2つの画像を対比してもらい、次に最初の画像と2つの新しい画像を比較するフォローアップの質問をします。
APIを使用する場合は、標準的なマルチターン会話構造の一部として、
ロール | コンテンツ |
---|---|
ユーザー | 画像1: [画像1] 画像2: [画像2] これらの画像はどのように違いますか? |
アシスタント | [Claudeの応答] |
ユーザー | 画像1: [画像3] 画像2: [画像4] これらの画像は最初の2つと似ていますか? |
アシスタント | [Claudeの応答] |
user
ロールのMessagesの配列に新しい画像を挿入するだけです。制限事項
Claudeの画像理解機能は最先端ですが、注意すべきいくつかの制限があります:- 人物識別:Claudeは画像内の人物を識別(つまり、名前を特定)するために使用することはできませんし、そうすることを拒否します。
- 精度:Claudeは、低品質、回転した、または200ピクセル未満の非常に小さな画像を解釈する際に、幻覚を起こしたり間違いを犯したりする可能性があります。
- 空間推論:Claudeの空間推論能力は限定的です。アナログ時計の文字盤を読んだり、チェスの駒の正確な位置を説明したりするような、正確な位置特定やレイアウトを必要とするタスクに苦労する可能性があります。
- カウント:Claudeは画像内のオブジェクトのおおよその数を提供できますが、特に多数の小さなオブジェクトの場合、常に正確とは限りません。
- AI生成画像:Claudeは画像がAI生成かどうかを知らず、尋ねられた場合に間違っている可能性があります。偽造や合成画像を検出するためにClaudeに依存しないでください。
- 不適切なコンテンツ:Claudeは、当社の利用規約に違反する不適切または露骨な画像を処理しません。
- 医療アプリケーション:Claudeは一般的な医療画像を分析できますが、CTやMRIなどの複雑な診断スキャンを解釈するように設計されていません。Claudeの出力は、専門的な医療アドバイスや診断の代替と見なすべきではありません。
FAQ
Claudeはどの画像ファイル形式をサポートしていますか?
Claudeはどの画像ファイル形式をサポートしていますか?
Claudeは現在、JPEG、PNG、GIF、WebP画像形式をサポートしています。具体的には:
image/jpeg
image/png
image/gif
image/webp
ClaudeはURLから画像を読み取れますか?
ClaudeはURLから画像を読み取れますか?
はい、ClaudeはAPIのURL画像ソースブロックを使用してURLから画像を処理できるようになりました。
APIリクエストで”base64”の代わりに”url”ソースタイプを使用するだけです。
例:
アップロードできる画像ファイルサイズに制限はありますか?
アップロードできる画像ファイルサイズに制限はありますか?
はい、制限があります:
- API:画像あたり最大5MB
- claude.ai:画像あたり最大10MB
1つのリクエストに何枚の画像を含めることができますか?
1つのリクエストに何枚の画像を含めることができますか?
画像の制限は:
- Messages API:リクエストあたり最大100枚の画像
- claude.ai:ターンあたり最大20枚の画像
Claudeは画像のメタデータを読み取りますか?
Claudeは画像のメタデータを読み取りますか?
いいえ、Claudeは渡された画像からメタデータを解析したり受信したりしません。
アップロードした画像を削除できますか?
アップロードした画像を削除できますか?
いいえ。画像のアップロードは一時的なもので、APIリクエストの期間を超えて保存されることはありません。アップロードされた画像は処理後に自動的に削除されます。
画像アップロードのデータプライバシーに関する詳細はどこで確認できますか?
画像アップロードのデータプライバシーに関する詳細はどこで確認できますか?
アップロードされた画像やその他のデータの取り扱いについては、プライバシーポリシーページを参照してください。アップロードされた画像をモデルの訓練に使用することはありません。
Claudeの画像解釈が間違っているように見える場合はどうすればよいですか?
Claudeの画像解釈が間違っているように見える場合はどうすればよいですか?
Claudeの画像解釈が正しくないように見える場合:
- 画像が鮮明で高品質で、正しい向きになっていることを確認してください。
- プロンプトエンジニアリング技術を試して結果を改善してください。
- 問題が続く場合は、claude.aiで出力にフラグを立てる(親指の上下)か、サポートチームにお問い合わせください。
Claudeは画像を生成または編集できますか?
Claudeは画像を生成または編集できますか?
いいえ、Claudeは画像理解モデルのみです。画像を解釈・分析することはできますが、画像を生成、作成、編集、操作、作成することはできません。
ビジョンをさらに深く探る
Claudeを使用して画像での構築を始める準備はできましたか?以下にいくつかの役立つリソースがあります:- マルチモーダルクックブック:このクックブックには、画像の使い始めとベストプラクティス技術のヒントがあり、画像で最高品質のパフォーマンスを確保します。チャートの解釈と分析やフォームからのコンテンツ抽出などのタスクを実行するために、画像を使用してClaudeを効果的にプロンプトする方法をご覧ください。
- APIリファレンス:画像を含むAPIコールの例を含む、Messages APIのドキュメントをご覧ください。