Después de semanas de rumores, OpenAI ha lanzado Operator, su primer agente de inteligencia artificial. Operator es una aplicación web que puede realizar tareas sencillas en línea, como reservar boletos para conciertos o hacer pedidos de supermercado. La aplicación está impulsada por un nuevo modelo llamado Computer-Using Agent (CUA, por sus siglas en inglés), o "coo-ah" en corto, que se construye sobre el modelo multimodal de lenguaje GPT-4 de OpenAI.
Operator está disponible hoy en operator.chatgpt.com para personas en EE.UU. que se hayan registrado en ChatGPT Pro, el servicio premium de OpenAI de 200 dólares al mes. La empresa afirma que planea expandir la herramienta a otros usuarios en el futuro.
OpenAI asegura que Operator supera a herramientas rivales similares, como Computer Use de Anthropic (una versión de Claude 3.5 Sonnet que puede realizar tareas simples en una computadora) y Mariner de Google DeepMind (un agente de navegación web basado en Gemini 2.0).
El hecho de que tres de las principales empresas de inteligencia artificial del mundo hayan convergido en la misma visión sobre lo que podrían ser los modelos basados en agentes deja claro algo: la batalla por la supremacía en IA tiene una nueva frontera, y esa frontera son nuestras pantallas de computadora.
"Pasar de generar texto e imágenes a hacer cosas es la dirección correcta", dice Ali Farhadi, CEO del Allen Institute for AI (AI2). "Desbloquea negocios, resuelve problemas nuevos".
Farhadi piensa que realizar tareas en una pantalla de computadora es un primer paso natural para los agentes: "Es lo suficientemente limitado como para que el estado actual de la tecnología realmente funcione", explica. "Al mismo tiempo, es lo suficientemente impactante como para que la gente lo use". (AI2 está trabajando en su propio agente de uso de computadora, dice Farhadi.)
No creas todo el ruido
El anuncio de OpenAI también confirma uno de los dos rumores que circularon por internet esta semana. Uno predecía que OpenAI estaba a punto de revelar una aplicación basada en agentes, después de que se filtraran detalles sobre Operator en redes sociales antes de su lanzamiento. El otro rumor predecía que OpenAI estaba a punto de revelar una nueva superinteligencia, y que los funcionarios del recién inaugurado presidente Trump serían informados al respecto.
¿Podrían estar los dos rumores relacionados? Querían saber los superfans de OpenAI.
No. OpenAI le dio a MIT Technology Review un adelanto de Operator en acción ayer. La herramienta es una emocionante visión del potencial de los modelos de lenguaje grande para hacer mucho más que responder preguntas. Pero Operator es un trabajo experimental en progreso. "Aún es temprano, aún comete errores", dice Yash Kumar, un investigador de OpenAI.
(En cuanto a los salvajes rumores de superinteligencia, dejemos que el CEO de OpenAI, Sam Altman, lo aclare: "el ruido en Twitter está fuera de control nuevamente", publicó el 20 de enero. "¡Por favor, cálmense y recorten sus expectativas 100x!")
Al igual que Computer Use de Anthropic y Mariner de Google DeepMind, Operator toma capturas de pantalla de una pantalla de computadora y escanea los píxeles para averiguar qué acciones puede realizar. CUA, el modelo detrás de ella, está entrenado para interactuar con las mismas interfaces gráficas de usuario—botones, cuadros de texto, menús—que las personas usan cuando realizan tareas en línea. Escanea la pantalla, realiza una acción, vuelve a escanear la pantalla, realiza otra acción, y así sucesivamente. Esto permite que el modelo ejecute tareas en la mayoría de los sitios web que una persona puede usar.
"Tradicionalmente, la forma en que los modelos han usado software es a través de APIs especializadas", dice Reiichiro Nakano, científico de OpenAI. (Una API, o interfaz de programación de aplicaciones, es un trozo de código que actúa como un conector, permitiendo que diferentes piezas de software se conecten entre sí). Eso deja fuera muchas aplicaciones y la mayoría de los sitios web, explica: "Pero si creas un modelo que puede usar la misma interfaz que los humanos usan a diario, se abre toda una nueva gama de software que antes era inaccesible".
CUA también descompone las tareas en pasos más pequeños e intenta resolverlos uno por uno, retrocediendo cuando se atasca. OpenAI dice que CUA fue entrenado con técnicas similares a las usadas en sus llamados modelos de razonamiento, o1 y o3.
OpenAI ha probado CUA contra varios estándares de la industria diseñados para evaluar la capacidad de un agente para realizar tareas en una computadora. La empresa afirma que su modelo supera a Computer Use y Mariner en todos ellos.
Por ejemplo, en OSWorld, que evalúa qué tan bien un agente realiza tareas como fusionar archivos PDF o manipular una imagen, CUA obtiene un 38.1%, frente al 22.0% de Computer Use. En comparación, los humanos obtienen un 72.4%. En un estándar llamado WebVoyager, que evalúa qué tan bien un agente realiza tareas en un navegador, CUA obtiene un 87%, Mariner un 83.5%, y Computer Use un 56%. (Mariner solo puede realizar tareas en un navegador, por lo que no tiene puntuación en OSWorld).
Por ahora, Operator también solo puede realizar tareas en un navegador. OpenAI planea hacer disponibles las habilidades más amplias de CUA en el futuro a través de una API que otros desarrolladores podrán usar para construir sus propias aplicaciones. Así es como Anthropic lanzó Computer Use en diciembre.
OpenAI dice que ha probado la seguridad de CUA, usando equipos de pruebas para explorar qué sucede cuando los usuarios le piden realizar tareas inaceptables (como investigar cómo hacer un arma biológica), cuando los sitios web contienen instrucciones ocultas diseñadas para desviar el modelo, y cuando el modelo mismo falla. "Hemos entrenado el modelo para que se detenga y pida información al usuario antes de hacer cualquier cosa con efectos secundarios externos", dice Casey Chu, otro investigador del equipo.
¡Mira! Sin manos Para usar Operator, simplemente escribes instrucciones en un cuadro de texto. Pero en lugar de abrir el navegador en tu computadora, Operator envía tus instrucciones a un navegador remoto ejecutado en un servidor de OpenAI. OpenAI afirma que esto hace que el sistema sea más eficiente. Es otra diferencia clave entre Operator, Computer Use y Mariner (que se ejecuta dentro del navegador Chrome de Google en tu propia computadora).
Debido a que se ejecuta en la nube, Operator puede realizar múltiples tareas a la vez, dice Kumar. En la demostración en vivo, le pidió a Operator que usara OpenTable para reservar una mesa para dos a las 6:30 p.m. en un restaurante llamado Octavia en San Francisco. De inmediato, Operator abrió el sitio de OpenTable y comenzó a hacer clic en las opciones. "Como pueden ver, mis manos están fuera del teclado", dijo Kumar.
OpenAI está colaborando con varias empresas, incluyendo OpenTable, StubHub, Instacart, DoorDash y Uber. La naturaleza de esas colaboraciones no está del todo clara, pero Operator parece sugerir sitios web preestablecidos para usar en ciertas tareas.
Mientras la herramienta navegaba por las opciones de OpenTable, Kumar envió a Operator a encontrar cuatro boletos para un concierto de Kendrick Lamar en StubHub. Mientras hacía eso, pegó una foto de una lista de compras escrita a mano y le pidió a Operator que agregara los artículos a su Instacart.
Esperó, pasando entre las pestañas de Operator. "Si necesita ayuda o confirmaciones, volverá a ti con preguntas y podrás responderle", dijo.
Kumar dice que ha estado usando Operator en casa. Le ayuda a mantenerse al tanto de las compras de supermercado: "Solo puedo tomar una foto rápida de la lista y ponerla a trabajar", dice.
También se ha convertido en un asistente en su vida personal. "Tengo una noche de citas todos los jueves", dice Kumar. Así que cada jueves por la mañana, le da instrucciones a Operator para que le envíe una lista de cinco restaurantes que tengan una mesa para dos esa noche. "Claro, podría hacerlo yo mismo, pero me toma 10 minutos", dice. "Y a menudo se me olvida hacerlo. Con Operator, puedo hacer la tarea con un solo clic. No hay carga de hacer la reserva".
Vía | OpenAI launches Operator—an agent that can use a computer for you | MIT Technology Review
https://tecnologiaconjuancho.com/automatiza-tareas-online-con-operator-el-nuevo-agente-de-openai/
No hay comentarios.:
Publicar un comentario