ビジョン
Claude 3および4ファミリーのモデルには、Claudeが画像を理解し分析できる新しいビジョン機能が搭載されており、マルチモーダルインタラクションのための刺激的な可能性を開きます。
このガイドでは、Claudeでの画像の扱い方について、ベストプラクティス、コード例、および留意すべき制限事項を説明します。
ビジョンの使用方法
Claudeのビジョン機能は以下の方法で利用できます:
- claude.ai。ファイルのようにして画像をアップロードするか、チャットウィンドウに画像を直接ドラッグ&ドロップします。
- Console Workbench。画像を受け付けるモデル(Claude 3および4モデルのみ)を選択すると、すべてのユーザーメッセージブロックの右上に画像を追加するボタンが表示されます。
- APIリクエスト。このガイドの例を参照してください。
アップロードする前に
基本と制限
1回のリクエストで複数の画像を含めることができます(claude.aiでは最大20枚、APIリクエストでは最大100枚)。Claudeは回答を作成する際に、提供されたすべての画像を分析します。これは画像を比較または対比する場合に役立ちます。
8000x8000 pxより大きい画像をアップロードすると、拒否されます。1つのAPIリクエストで20枚以上の画像を送信する場合、この制限は2000x2000 pxになります。
画像サイズの評価
最適なパフォーマンスを得るには、画像が大きすぎる場合はアップロード前にリサイズすることをお勧めします。画像の長辺が1568ピクセルを超える場合、または画像が約1,600トークンを超える場合、まずアスペクト比を維持したままサイズ制限内に収まるようにスケールダウンされます。
入力画像が大きすぎてリサイズが必要な場合、モデルのパフォーマンスが向上することなく、time-to-first-tokenのレイテンシが増加します。いずれかの辺が200ピクセル未満の非常に小さい画像はパフォーマンスが低下する可能性があります。
time-to-first-tokenを改善するには、画像を1.15メガピクセル以下(かつ両方の寸法で1568ピクセル以内)にリサイズすることをお勧めします。
以下は、APIが受け付ける一般的なアスペクト比の最大画像サイズで、リサイズされないものの表です。Claude Sonnet 3.7モデルでは、これらの画像は約1,600トークンを使用し、1,000枚あたり約$4.80のコストがかかります。
アスペクト比 | 画像サイズ |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
画像コストの計算
Claudeへのリクエストに含める各画像は、トークン使用量にカウントされます。おおよそのコストを計算するには、おおよその画像トークン数に使用するモデルのトークンあたりの価格を掛けます。
画像のリサイズが不要な場合、次のアルゴリズムでトークン数を見積もることができます:トークン = (幅px * 高さpx)/750
以下は、Claude Sonnet 3.7のトークンあたり300万入力トークンあたり$3の価格に基づいた、APIのサイズ制限内のさまざまな画像サイズの概算トークン化とコストの例です:
画像サイズ | トークン数 | 画像あたりのコスト | 1,000枚あたりのコスト |
---|---|---|---|
200x200 px(0.04メガピクセル) | ~54 | ~$0.00016 | ~$0.16 |
1000x1000 px(1メガピクセル) | ~1334 | ~$0.004 | ~$4.00 |
1092x1092 px(1.19メガピクセル) | ~1590 | ~$0.0048 | ~$4.80 |
画像品質の確保
Claudeに画像を提供する際は、最良の結果を得るために以下の点に注意してください:
- 画像形式:サポートされている画像形式(JPEG、PNG、GIF、またはWebP)を使用してください。
- 画像の鮮明さ:画像が明確で、ぼやけたりピクセル化したりしていないことを確認してください。
- テキスト:画像に重要なテキストが含まれている場合は、読みやすく、小さすぎないことを確認してください。テキストを拡大するためだけに重要な視覚的コンテキストをトリミングしないでください。
プロンプト例
Claudeとのテキストベースのやり取りに効果的なプロンプト技術の多くは、画像ベースのプロンプトにも適用できます。
これらの例は、画像を含むベストプラクティスのプロンプト構造を示しています。
ドキュメントクエリの配置と同様に、Claudeは画像がテキストの前に来る場合に最も効果的に機能します。テキストの後や、テキストの間に配置された画像でもうまく機能しますが、ユースケースが許す場合は、画像→テキストの構造をお勧めします。
プロンプト例について
以下の例は、さまざまなプログラミング言語とアプローチを使用してClaudeのビジョン機能を使用する方法を示しています。Claudeに画像を提供する方法は3つあります:
image
コンテンツブロックでbase64エンコードされた画像として- オンラインでホストされている画像へのURL参照として
- Files API(一度アップロードして複数回使用)を使用
base64の例のプロンプトでは、これらの変数を使用しています:
以下は、base64エンコードされた画像とURL参照を使用してMessages APIリクエストに画像を含める方法の例です:
base64エンコードされた画像の例
URLベースの画像の例
Files API画像の例
繰り返し使用する画像や、エンコードのオーバーヘッドを避けたい場合は、Files APIを使用します:
詳細なコード例とパラメータの詳細については、Messages APIの例を参照してください。
例:1枚の画像
例:1枚の画像
画像に関する質問や、画像を使用するタスクの指示よりも、プロンプトの早い段階で画像を配置するのがベストです。
Claudeに1枚の画像を説明するよう依頼します。
役割 | 内容 |
---|---|
ユーザー | [画像] この画像を説明してください。 |
以下はClaude Sonnet 3.7モデルを使用した対応するAPIコールです。
例:複数の画像
例:複数の画像
複数の画像がある場合は、各画像を「画像1:」、「画像2:」などと紹介します。画像間や画像とプロンプトの間に改行は必要ありません。
Claudeに複数の画像の違いを説明するよう依頼します。
役割 | 内容 |
---|---|
ユーザー | 画像1:[画像1] 画像2:[画像2] これらの画像はどのように異なりますか? |
以下はClaude Sonnet 3.7モデルを使用した対応するAPIコールです。
例:システムプロンプトを使用した複数の画像
例:システムプロンプトを使用した複数の画像
Claudeに複数の画像の違いを説明するよう依頼し、回答方法についてシステムプロンプトを与えます。
内容 | |
---|---|
システム | スペイン語でのみ回答してください。 |
ユーザー | 画像1:[画像1] 画像2:[画像2] これらの画像はどのように異なりますか? |
以下はClaude Sonnet 3.7モデルを使用した対応するAPIコールです。
例:2つの会話ターンにわたる4枚の画像
例:2つの会話ターンにわたる4枚の画像
Claudeのビジョン機能は、画像とテキストを組み合わせたマルチモーダルな会話で真価を発揮します。Claudeとの間で、新しい画像やフォローアップの質問をいつでも追加しながら、拡張された対話を行うことができます。これにより、反復的な画像分析、比較、または視覚情報と他の知識を組み合わせるための強力なワークフローが可能になります。
Claudeに2枚の画像の違いを説明するよう依頼し、その後、最初の画像と2枚の新しい画像を比較するフォローアップ質問をします。
役割 | 内容 |
---|---|
ユーザー | 画像1:[画像1] 画像2:[画像2] これらの画像はどのように異なりますか? |
アシスタント | [Claudeの回答] |
ユーザー | 画像1:[画像3] 画像2:[画像4] これらの画像は最初の2枚と似ていますか? |
アシスタント | [Claudeの回答] |
APIを使用する場合、標準的な複数ターンの会話構造の一部として、user
ロールのメッセージ配列に新しい画像を挿入するだけです。
制限事項
Claudeの画像理解機能は最先端ですが、いくつかの制限事項があります:
- 人物の識別:Claudeは画像内の人物を識別(つまり名前を特定)するために使用できません。そのような要求には応じません。
- 精度:Claudeは低品質、回転した、または200ピクセル未満の非常に小さい画像を解釈する際に、幻覚を見たり間違いを犯したりする可能性があります。
- 空間的推論:Claudeの空間的推論能力には限界があります。アナログ時計の文字盤の読み取りやチェスの駒の正確な位置の説明など、正確な位置特定やレイアウトを必要とするタスクでは苦戦する可能性があります。
- カウント:Claudeは画像内のオブジェクトのおおよその数を提供できますが、特に小さなオブジェクトが多数ある場合、常に正確であるとは限りません。
- AI生成画像:Claudeは画像がAI生成かどうかを知らず、質問された場合に誤った回答をする可能性があります。偽物や合成画像の検出にClaudeを頼らないでください。
- 不適切なコンテンツ:Claudeは利用規約に違反する不適切または露骨な画像を処理しません。
- ヘルスケアアプリケーション:Claudeは一般的な医療画像を分析できますが、CTやMRIなどの複雑な診断スキャンを解釈するようには設計されていません。Claudeの出力は、専門的な医学的アドバイスや診断の代わりとはなりません。
特にハイステークスなユースケースでは、Claudeの画像解釈を常に慎重に確認し検証してください。人間の監視なしに、完璧な精度や機密性の高い画像分析を必要とするタスクにClaudeを使用しないでください。
FAQ
Claudeはどのような画像ファイル形式をサポートしていますか?
Claudeはどのような画像ファイル形式をサポートしていますか?
Claudeは現在、JPEG、PNG、GIF、WebP画像形式をサポートしています。具体的には:
image/jpeg
image/png
image/gif
image/webp
ClaudeはURLから画像を読み取ることができますか?
ClaudeはURLから画像を読み取ることができますか?
はい、ClaudeはAPIのURL画像ソースブロックを使用して、URLから画像を処理できるようになりました。 APIリクエストで「base64」の代わりに「url」ソースタイプを使用するだけです。 例:
アップロードできる画像ファイルサイズに制限はありますか?
アップロードできる画像ファイルサイズに制限はありますか?
はい、制限があります:
- API:画像1枚あたり最大5MB
- claude.ai:画像1枚あたり最大10MB
これらの制限を超える画像は拒否され、APIを使用する場合はエラーが返されます。
1つのリクエストに含められる画像の数はいくつですか?
1つのリクエストに含められる画像の数はいくつですか?
画像の制限は以下の通りです:
- Messages API:リクエストあたり最大100枚の画像
- claude.ai:ターンあたり最大20枚の画像
これらの制限を超えるリクエストは拒否され、エラーが返されます。
Claudeは画像のメタデータを読み取りますか?
Claudeは画像のメタデータを読み取りますか?
いいえ、Claudeは渡された画像からメタデータを解析したり受け取ったりしません。
アップロードした画像を削除できますか?
アップロードした画像を削除できますか?
いいえ。画像のアップロードは一時的なもので、APIリクエストの期間を超えて保存されません。アップロードされた画像は処理後に自動的に削除されます。
画像アップロードのデータプライバシーに関する詳細はどこで確認できますか?
画像アップロードのデータプライバシーに関する詳細はどこで確認できますか?
アップロードされた画像やその他のデータの取り扱いについては、プライバシーポリシーページをご参照ください。アップロードされた画像はモデルのトレーニングには使用されません。
Claudeの画像解釈が間違っているように見える場合はどうすればよいですか?
Claudeの画像解釈が間違っているように見える場合はどうすればよいですか?
Claudeの画像解釈が間違っているように見える場合:
- 画像が明確で高品質であり、正しい向きであることを確認してください。
- 結果を改善するためのプロンプトエンジニアリング技術を試してみてください。
- 問題が解決しない場合は、claude.aiで出力にフラグを立てる(親指を上げる/下げる)か、サポートチームにお問い合わせください。
あなたのフィードバックは私たちの改善に役立ちます!
Claudeは画像を生成または編集できますか?
Claudeは画像を生成または編集できますか?
いいえ、Claudeは画像理解モデルのみです。画像を解釈し分析することはできますが、画像を生成、制作、編集、操作、または作成することはできません。
ビジョンをさらに深く掘り下げる
Claudeを使って画像でのビルドを始める準備はできましたか?以下は役立つリソースです:
- マルチモーダルクックブック:このクックブックには、画像の使用開始と画像での最高品質のパフォーマンスを確保するためのベストプラクティス技術に関するヒントがあります。チャートの解釈と分析やフォームからのコンテンツ抽出などのタスクを実行するために、画像を使ってClaudeに効果的にプロンプトを与える方法をご覧ください。
- APIリファレンス:画像を含むAPIコールの例を含む、Messages APIのドキュメントをご覧ください。
その他のご質問がある場合は、サポートチームにお問い合わせください。また、開発者コミュニティに参加して、他のクリエイターとつながり、Anthropicの専門家からサポートを受けることもできます。