La lista de modelos de OpenAI sigue creciendo a velocidad de vértigo, ahora con la incorporación de GPT-5.4, una nueva versión que brinda las habituales mejoras en eficiencia de razonamiento (hacer más con menos tokens), programación y capacidad de trabajo general, pero con un as en la manga: es el primer modelo de OpenAI diseñado para controlar el PC mediante agentes.
En la práctica, esto supone que el GPT ya no solo es capaz de realizar labores en base a un prompt o proporcionar instrucciones, sino que puede generar entradas de teclado y ratón, desplazando el cursor sobre la pantalla buscando los iconos y menús adecuados para las funciones deseadas y haciendo todo tipo de trabajos, desde responder correos electrónicos a editar archivos, pasando por organizar calendarios. Todo ello como si lo estuviera haciendo el propio usuario.
Si bien la gestión del PC no es una novedad absoluta (hay otros modelos de propósito general con esta capacidad, al menos nominalmente), la adición de estas características a GPT-5.4 parece bastante más profunda y con un mayor potencial productivo que lo observado anteriormente. Para ello, eso sí, será necesario utilizar OpenAI Codex o la API de OpenAI, que facilitan la integración con herramientas como Google Drive o incluso Photshop para automatizar labores que anteriormente había que realizar a mano.
En cuanto a la fiabilidad, desde OpenAI se asegura que en la prueba OSWorld-Verified, utilizada para puntuar la navegación por un escritorio a través de capturas de pantalla y usando la combinación de teclado y ratón, el registro de GPT‑5.4 es del 75 %, superando así a los humanos (72,4 %), mientras que en el benchmark de navegación WebArena-Verified el éxito en las interacciones es del 67,3 % y en Online-Mind2Web llega al 92,8 %.
Las posibilidades de la utilización del PC en modo manos libres mediante IA son monumentales. Parafraseando a un redactor de PCWorld, bastaría por ejemplo con pedirle a GPT-5.4 "relléname los trimestrales" para que el PC lanzara VeriFactu y/o el programa correspondiente y se pusiera a trabajar en la declaración. Dicho esto, dada la novedad del asunto es comprensible que dejar las tributaciones en manos de una IA todavía sea un deporte de riesgo para muchos usuarios.
En la práctica, esto supone que el GPT ya no solo es capaz de realizar labores en base a un prompt o proporcionar instrucciones, sino que puede generar entradas de teclado y ratón, desplazando el cursor sobre la pantalla buscando los iconos y menús adecuados para las funciones deseadas y haciendo todo tipo de trabajos, desde responder correos electrónicos a editar archivos, pasando por organizar calendarios. Todo ello como si lo estuviera haciendo el propio usuario.
Si bien la gestión del PC no es una novedad absoluta (hay otros modelos de propósito general con esta capacidad, al menos nominalmente), la adición de estas características a GPT-5.4 parece bastante más profunda y con un mayor potencial productivo que lo observado anteriormente. Para ello, eso sí, será necesario utilizar OpenAI Codex o la API de OpenAI, que facilitan la integración con herramientas como Google Drive o incluso Photshop para automatizar labores que anteriormente había que realizar a mano.
En cuanto a la fiabilidad, desde OpenAI se asegura que en la prueba OSWorld-Verified, utilizada para puntuar la navegación por un escritorio a través de capturas de pantalla y usando la combinación de teclado y ratón, el registro de GPT‑5.4 es del 75 %, superando así a los humanos (72,4 %), mientras que en el benchmark de navegación WebArena-Verified el éxito en las interacciones es del 67,3 % y en Online-Mind2Web llega al 92,8 %.
Las posibilidades de la utilización del PC en modo manos libres mediante IA son monumentales. Parafraseando a un redactor de PCWorld, bastaría por ejemplo con pedirle a GPT-5.4 "relléname los trimestrales" para que el PC lanzara VeriFactu y/o el programa correspondiente y se pusiera a trabajar en la declaración. Dicho esto, dada la novedad del asunto es comprensible que dejar las tributaciones en manos de una IA todavía sea un deporte de riesgo para muchos usuarios.
No te preocupes, las LLM son escalables hasta cierto punto, ya sea porque tecnológicamente no den para más o porque ya no haya recursos en el planeta para que los que han metido billones en estas mierdas sigan intentando hacer que parezcan IAs de propósito general a base de fuerza bruta.
Así que lo más probable es que antes de que termines de pagar la hipoteca pete la burbuja de la IA y la onda expansiva nos pegue tal hostia que pagar o no la hipoteca va a ser el menor de nuestros problemas.
Equipos formateados en 3 2 1...
Sería bueno que simulase el borrado o la modificación de archivos antes de confirmarlo, pero bueno, en general es parte del futuro, las interfaces serán más a nivel de pedirles que hagan cosas. El otro día tuve que hacer un script para que me renombrase toda una carpeta con imágenes para que les metiese una letra porque tenía otra que por el guardado automático del navegador te las va poniendo con el mismo nombre, pues estas cosas se podrían automatizar pidiéndolas directamente con la carpeta abierta y sin tener que pedirle a chatgpt que te haga un script.
Incluso si tienes python instalado te puede hacer scripts mucho más complejos que antes para mucha gente eran impensables. A mi me gustaría que fuese bueno encontrado archivos duplicados pero que tienen diferentes nombres, por ejemplo imágenes duplicadas, o analizando los programas de diagnóstico, por ejemplo, que controle los voltajes con HWINFO64 y pueda detectar cualquier mínimo cambio extraño en los voltajes de una forma quirúrgica, esas pequeñas anomalías que nosotros nunca veríamos, etc...
El humano no es sustituible , su función va a pasar a ser otra, que se va a limitar a ejercer tareas de observador y comprobador/atención a las excepciones.
Parece que era ayer cuando estábamos protestando por el spyware en FlashGet o Kazaa...
Si es en local y puedes cortar la telemetría no veo el problema, el problema es que esté mandando capturas a los servidores de OpenAI de todo lo que haces, que por cierto, los televisores lo hacen por defecto y mucha gente no lo sabe.