"computer-use-2025-01-24"
(modelos Claude 4 y Claude Sonnet 3.7)"computer-use-2024-10-22"
(Claude Sonnet 3.5 (obsoleto))
Descripción general
El uso de computadora es una característica beta que permite a Claude interactuar con entornos de escritorio. Esta herramienta proporciona:- Captura de pantalla: Ver lo que se muestra actualmente en pantalla
- Control del mouse: Hacer clic, arrastrar y mover el cursor
- Entrada de teclado: Escribir texto y usar atajos de teclado
- Automatización del escritorio: Interactuar con cualquier aplicación o interfaz
Compatibilidad de modelos
El uso de computadora está disponible para los siguientes modelos de Claude:Modelo | Versión de herramienta | Bandera Beta |
---|---|---|
Modelos Claude 4 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 v2 (obsoleto) | computer_20241022 | computer-use-2024-10-22 |
Consideraciones de seguridad
- Use una máquina virtual dedicada o contenedor con privilegios mínimos para prevenir ataques directos al sistema o accidentes.
- Evite dar al modelo acceso a datos sensibles, como información de inicio de sesión de cuentas, para prevenir el robo de información.
- Limite el acceso a internet a una lista de dominios permitidos para reducir la exposición a contenido malicioso.
- Pida a un humano que confirme decisiones que puedan resultar en consecuencias significativas del mundo real, así como cualquier tarea que requiera consentimiento afirmativo, como aceptar cookies, ejecutar transacciones financieras o aceptar términos de servicio.
Implementación de referencia de uso de computadora
Inicio rápido
Así es como comenzar con el uso de computadora:- Modelos Claude 4 y Claude Sonnet 3.7: Encabezado beta solo requerido para la herramienta de uso de computadora
- Claude Sonnet 3.5 (obsoleto): Encabezado beta requerido para herramientas de computadora, bash y editor de texto
Cómo funciona el uso de computadora
1. Proporcione a Claude la herramienta de uso de computadora y un prompt del usuario
- Agregue la herramienta de uso de computadora (y opcionalmente otras herramientas) a su solicitud de API.
- Incluya un prompt del usuario que requiera interacción del escritorio, por ejemplo, “Guarda una imagen de un gato en mi escritorio.”
2. Claude decide usar la herramienta de uso de computadora
- Claude evalúa si la herramienta de uso de computadora puede ayudar con la consulta del usuario.
- Si es así, Claude construye una solicitud de uso de herramienta correctamente formateada.
- La respuesta de la API tiene un
stop_reason
detool_use
, señalando la intención de Claude.
3. Extraiga la entrada de la herramienta, evalúe la herramienta en una computadora y devuelva los resultados
- En su extremo, extraiga el nombre de la herramienta y la entrada de la solicitud de Claude.
- Use la herramienta en un contenedor o Máquina Virtual.
- Continúe la conversación con un nuevo mensaje
user
que contenga un bloque de contenidotool_result
.
4. Claude continúa llamando herramientas de uso de computadora hasta que haya completado la tarea
- Claude analiza los resultados de la herramienta para determinar si se necesita más uso de herramientas o si la tarea ha sido completada.
- Si Claude decide que necesita otra herramienta, responde con otro
stop_reason
detool_use
y debe regresar al paso 3. - De lo contrario, elabora una respuesta de texto para el usuario.
El entorno informático
El uso de computadora requiere un entorno informático aislado donde Claude pueda interactuar de manera segura con aplicaciones y la web. Este entorno incluye:- Pantalla virtual: Un servidor de pantalla virtual X11 (usando Xvfb) que renderiza la interfaz del escritorio que Claude verá a través de capturas de pantalla y controlará con acciones de mouse/teclado.
- Entorno de escritorio: Una interfaz de usuario ligera con administrador de ventanas (Mutter) y panel (Tint2) ejecutándose en Linux, que proporciona una interfaz gráfica consistente para que Claude interactúe.
- Aplicaciones: Aplicaciones de Linux preinstaladas como Firefox, LibreOffice, editores de texto y administradores de archivos que Claude puede usar para completar tareas.
- Implementaciones de herramientas: Código de integración que traduce las solicitudes abstractas de herramientas de Claude (como “mover mouse” o “tomar captura de pantalla”) en operaciones reales en el entorno virtual.
- Bucle del agente: Un programa que maneja la comunicación entre Claude y el entorno, enviando las acciones de Claude al entorno y devolviendo los resultados (capturas de pantalla, salidas de comandos) de vuelta a Claude.
- Recibe las solicitudes de uso de herramientas de Claude
- Las traduce en acciones en su entorno informático
- Captura los resultados (capturas de pantalla, salidas de comandos, etc.)
- Devuelve estos resultados a Claude
Cómo implementar el uso de computadora
Comience con nuestra implementación de referencia
Hemos construido una implementación de referencia que incluye todo lo que necesita para comenzar rápidamente con el uso de computadora:- Un entorno en contenedor adecuado para el uso de computadora con Claude
- Implementaciones de las herramientas de uso de computadora
- Un bucle del agente que interactúa con la API de Anthropic y ejecuta las herramientas de uso de computadora
- Una interfaz web para interactuar con el contenedor, bucle del agente y herramientas.
Entendiendo el bucle multi-agente
El núcleo del uso de computadora es el “bucle del agente” - un ciclo donde Claude solicita acciones de herramientas, su aplicación las ejecuta y devuelve resultados a Claude. Aquí hay un ejemplo simplificado:Modelos Claude 4
Modelos Claude 4
computer_20250124
, incluya esta bandera beta:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124
, incluya esta bandera beta:Claude Sonnet 3.5 v2 (obsoleto)
Claude Sonnet 3.5 v2 (obsoleto)
computer_20241022
, incluya esta bandera beta:Optimizar el rendimiento del modelo con prompting
Aquí hay algunos consejos sobre cómo obtener las mejores salidas de calidad:- Especifique tareas simples y bien definidas y proporcione instrucciones explícitas para cada paso.
- Claude a veces asume resultados de sus acciones sin verificar explícitamente sus resultados. Para prevenir esto puede hacer prompt a Claude con
Después de cada paso, toma una captura de pantalla y evalúa cuidadosamente si has logrado el resultado correcto. Muestra explícitamente tu pensamiento: "He evaluado el paso X..." Si no es correcto, inténtalo de nuevo. Solo cuando confirmes que un paso fue ejecutado correctamente debes pasar al siguiente.
- Algunos elementos de UI (como menús desplegables y barras de desplazamiento) podrían ser difíciles para Claude de manipular usando movimientos del mouse. Si experimenta esto, trate de hacer prompt al modelo para usar atajos de teclado.
- Para tareas repetibles o interacciones de UI, incluya capturas de pantalla de ejemplo y llamadas de herramientas de resultados exitosos en su prompt.
- Si necesita que el modelo inicie sesión, proporciónele el nombre de usuario y contraseña en su prompt dentro de etiquetas xml como
<robot_credentials>
. Usar el uso de computadora dentro de aplicaciones que requieren inicio de sesión aumenta el riesgo de malos resultados como resultado de inyección de prompts. Por favor revise nuestra guía sobre mitigar inyecciones de prompts antes de proporcionar al modelo credenciales de inicio de sesión.
Prompts del sistema
Cuando una de las herramientas definidas por Anthropic es solicitada a través de la API de Anthropic, se genera un prompt del sistema específico para el uso de computadora. Es similar al prompt del sistema de uso de herramientas pero comienza con:Tienes acceso a un conjunto de funciones que puedes usar para responder la pregunta del usuario. Esto incluye acceso a un entorno informático aislado. Actualmente NO tienes la capacidad de inspeccionar archivos o interactuar con recursos externos, excepto invocando las funciones de abajo.Como con el uso regular de herramientas, el campo
system_prompt
proporcionado por el usuario aún se respeta y se usa en la construcción del prompt del sistema combinado.
Acciones disponibles
La herramienta de uso de computadora soporta estas acciones: Acciones básicas (todas las versiones)- screenshot - Capturar la pantalla actual
- left_click - Hacer clic en coordenadas
[x, y]
- type - Escribir cadena de texto
- key - Presionar tecla o combinación de teclas (ej., “ctrl+s”)
- mouse_move - Mover cursor a coordenadas
computer_20250124
)
Disponibles en modelos Claude 4 y Claude Sonnet 3.7:
- scroll - Desplazarse en cualquier dirección con control de cantidad
- left_click_drag - Hacer clic y arrastrar entre coordenadas
- right_click, middle_click - Botones adicionales del mouse
- double_click, triple_click - Múltiples clics
- left_mouse_down, left_mouse_up - Control de clic de grano fino
- hold_key - Mantener una tecla mientras se realizan otras acciones
- wait - Pausar entre acciones
Acciones de ejemplo
Acciones de ejemplo
Parámetros de herramienta
Parámetro | Requerido | Descripción |
---|---|---|
type | Sí | Versión de herramienta (computer_20250124 o computer_20241022 ) |
name | Sí | Debe ser “computer” |
display_width_px | Sí | Ancho de pantalla en píxeles |
display_height_px | Sí | Alto de pantalla en píxeles |
display_number | No | Número de pantalla para entornos X11 |
Habilitar capacidad de pensamiento en modelos Claude 4 y Claude Sonnet 3.7
Claude Sonnet 3.7 introdujo una nueva capacidad de “pensamiento” que le permite ver el proceso de razonamiento del modelo mientras trabaja a través de tareas complejas. Esta característica le ayuda a entender cómo Claude está abordando un problema y puede ser particularmente valiosa para depuración o propósitos educativos. Para habilitar el pensamiento, agregue un parámetrothinking
a su solicitud de API:
budget_tokens
especifica cuántos tokens Claude puede usar para pensar. Esto se resta de su presupuesto general de max_tokens
.
Cuando el pensamiento está habilitado, Claude devolverá su proceso de razonamiento como parte de la respuesta, lo que puede ayudarle a:
- Entender el proceso de toma de decisiones del modelo
- Identificar problemas potenciales o conceptos erróneos
- Aprender del enfoque de Claude para resolver problemas
- Obtener más visibilidad en operaciones complejas de múltiples pasos
Aumentar el uso de computadora con otras herramientas
La herramienta de uso de computadora puede ser combinada con otras herramientas para crear flujos de trabajo de automatización más poderosos. Esto es particularmente útil cuando necesita:- Ejecutar comandos del sistema (herramienta bash)
- Editar archivos de configuración o scripts (herramienta editor de texto)
- Integrar con APIs personalizadas o servicios (herramientas personalizadas)
Construir un entorno personalizado de uso de computadora
La implementación de referencia está destinada a ayudarle a comenzar con el uso de computadora. Incluye todos los componentes necesarios para que Claude use una computadora. Sin embargo, puede construir su propio entorno para el uso de computadora para satisfacer sus necesidades. Necesitará:- Un entorno virtualizado o en contenedor adecuado para el uso de computadora con Claude
- Una implementación de al menos una de las herramientas de uso de computadora definidas por Anthropic
- Un bucle de agente que interactúe con la API de Anthropic y ejecute los resultados de
tool_use
usando sus implementaciones de herramientas - Una API o UI que permita entrada del usuario para iniciar el bucle del agente
Implementar la herramienta de uso de computadora
La herramienta de uso de computadora se implementa como una herramienta sin esquema. Al usar esta herramienta, no necesita proporcionar un esquema de entrada como con otras herramientas; el esquema está integrado en el modelo de Claude y no puede ser modificado.Configure su entorno informático
Implemente manejadores de acciones
Procese las llamadas de herramientas de Claude
Implemente el bucle del agente
Manejar errores
Al implementar la herramienta de uso de computadora, pueden ocurrir varios errores. Así es como manejarlos:Falla en captura de pantalla
Falla en captura de pantalla
Coordenadas inválidas
Coordenadas inválidas
Falla en ejecución de acción
Falla en ejecución de acción
Seguir mejores prácticas de implementación
Use resolución de pantalla apropiada
Use resolución de pantalla apropiada
- Para tareas generales de escritorio: 1024x768 o 1280x720
- Para aplicaciones web: 1280x800 o 1366x768
- Evite resoluciones por encima de 1920x1080 para prevenir problemas de rendimiento
Implemente manejo apropiado de capturas de pantalla
Implemente manejo apropiado de capturas de pantalla
- Codifique capturas de pantalla como PNG o JPEG en base64
- Considere comprimir capturas de pantalla grandes para mejorar el rendimiento
- Incluya metadatos relevantes como marca de tiempo o estado de pantalla
Agregue retrasos de acción
Agregue retrasos de acción
Valide acciones antes de la ejecución
Valide acciones antes de la ejecución
Registre acciones para depuración
Registre acciones para depuración
Entender las limitaciones del uso de computadora
La funcionalidad de uso de computadora está en beta. Aunque las capacidades de Claude son de vanguardia, los desarrolladores deben estar conscientes de sus limitaciones:- Latencia: la latencia actual del uso de computadora para interacciones humano-IA puede ser demasiado lenta comparada con acciones regulares de computadora dirigidas por humanos. Recomendamos enfocarse en casos de uso donde la velocidad no es crítica (ej., recopilación de información en segundo plano, pruebas automatizadas de software) en entornos confiables.
- Precisión y confiabilidad de visión por computadora: Claude puede cometer errores o alucinar al generar coordenadas específicas mientras genera acciones. Claude Sonnet 3.7 introduce la capacidad de pensamiento que puede ayudarle a entender el razonamiento del modelo e identificar problemas potenciales.
- Precisión y confiabilidad de selección de herramientas: Claude puede cometer errores o alucinar al seleccionar herramientas mientras genera acciones o tomar acciones inesperadas para resolver problemas. Adicionalmente, la confiabilidad puede ser menor al interactuar con aplicaciones de nicho o múltiples aplicaciones a la vez. Recomendamos que los usuarios hagan prompt al modelo cuidadosamente al solicitar tareas complejas.
- Confiabilidad de desplazamiento: Mientras que Claude Sonnet 3.5 v2 (obsoleto) tenía limitaciones con el desplazamiento, Claude Sonnet 3.7 introduce acciones de desplazamiento dedicadas con control de dirección que mejora la confiabilidad. El modelo ahora puede desplazarse explícitamente en cualquier dirección (arriba/abajo/izquierda/derecha) por una cantidad especificada.
- Interacción con hojas de cálculo: Los clics del mouse para interacción con hojas de cálculo han mejorado en Claude Sonnet 3.7 con la adición de acciones de control del mouse más precisas como
left_mouse_down
,left_mouse_up
, y nuevo soporte de teclas modificadoras. La selección de celdas puede ser más confiable usando estos controles de grano fino y combinando teclas modificadoras con clics. - Creación de cuentas y generación de contenido en plataformas sociales y de comunicaciones: Aunque Claude visitará sitios web, estamos limitando su capacidad para crear cuentas o generar y compartir contenido o de otra manera participar en suplantación humana a través de sitios web y plataformas de redes sociales. Podemos actualizar esta capacidad en el futuro.
- Vulnerabilidades: Las vulnerabilidades como jailbreaking o inyección de prompts pueden persistir a través de sistemas de IA de frontera, incluyendo la API beta de uso de computadora. En algunas circunstancias, Claude seguirá comandos encontrados en el contenido, a veces incluso en conflicto con las instrucciones del usuario. Por ejemplo, las instrucciones de Claude en páginas web o contenidas en imágenes pueden anular instrucciones o causar que Claude cometa errores. Recomendamos: a. Limitar el uso de computadora a entornos confiables como máquinas virtuales o contenedores con privilegios mínimos b. Evitar dar acceso de uso de computadora a cuentas o datos sensibles sin supervisión estricta c. Informar a los usuarios finales de riesgos relevantes y obtener su consentimiento antes de habilitar o solicitar permisos necesarios para características de uso de computadora en sus aplicaciones
- Acciones inapropiadas o ilegales: Según los términos de servicio de Anthropic, no debe emplear el uso de computadora para violar ninguna ley o nuestra Política de Uso Aceptable.
Precios
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude