ChatGPT ahora también entiende imágenes y comandos de voz

OpenAI mejora constantemente el chatbot ChatGPT. La nueva versión también permite a los usuarios activar ChatGPT con voz e imágenes, lo que genera nuevas preguntas e inquietudes. Entonces, ¿qué trae la nueva versión y cuándo?

La mayoría de los cambios que OpenAI está introduciendo en ChatGPT se relacionan con lo que puede hacer el robot impulsado por IA: qué preguntas puede responder, a qué información puede acceder, etc. Esta vez, sin embargo, también cambia la forma en que puedes usar ChatGPT tú mismo. La compañía está presentando una nueva versión del servicio que le permite interactuar con un robot AI artificialmente inteligente no solo escribiendo oraciones en un campo de texto, sino también hablando con él o simplemente cargando una imagen. Las nuevas funciones estarán disponibles para quienes paguen la suscripción Plus en las próximas semanas, mientras que otros recibirán la nueva funcionalidad "poco después".

La parte de voz no es nada nuevo: tocas un botón y dices tu pregunta, ChatGPT la convierte en texto y la pasa a un modelo de lenguaje grande, recupera la respuesta y la convierte nuevamente en voz, y te responde por voz. Debería ser como hablar con Alexa o el Asistente de Google, excepto que, como espera OpenAI, las respuestas serán mejores gracias a la tecnología subyacente mejorada. La mayoría de los asistentes virtuales parecen estar reinventándose e incorporando grandes modelos de lenguaje, y OpenAI está un paso por delante de todos ellos por ahora.

El excelente modelo Whisper de OpenAI realiza gran parte de la conversión de voz a texto, y la compañía también está introduciendo un nuevo modelo de texto a voz que se dice que es capaz de crear "audio similar al humano a partir de solo texto y unos pocos segundos de discurso de muestra." Podrás elegir una voz para ChatGPT entre cinco opciones, pero OpenAI parece pensar que el modelo tiene mucho más potencial. Por ejemplo, OpenAI trabaja con Spotify para traducir podcasts a otros idiomas, preservando el sonido de la voz de la persona que presenta el podcast. Hay muchos usos interesantes para las voces sintéticas y OpenAI podría ser una parte importante de esa industria.

De todos modos, el hecho de que puedas crear una voz de sintetizador decente con sólo unos segundos de audio abre la puerta a todo tipo de casos de uso potencialmente problemáticos. "Estas capacidades presentan nuevas amenazas, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas y similares", decía el blog de la compañía que anuncia las nuevas características. Por esta misma razón, el modelo no está disponible para un uso más amplio y estará mucho más controlado y limitado a asociaciones y casos de uso específicos.

La función de búsqueda de imágenes es algo similar a Google Lens. Tomas una foto y ChatGPT intentará entender lo que estás preguntando y responderá en consecuencia. También puedes usar la herramienta de dibujo en la aplicación para que la pregunta sea lo más clara posible, o hablar o escribir preguntas relacionadas con la imagen. Aquí es donde la naturaleza de ChatGPT resulta particularmente útil: en lugar de ejecutar una búsqueda, obtener la respuesta incorrecta y luego ejecutar una nueva búsqueda, puedes empujar al bot y mejorar la respuesta durante el proceso. Esto es muy similar a lo que está haciendo Google con la búsqueda multimodal.

Evidentemente, incluir imágenes en ChatGPT también tiene sus desventajas. Uno de ellos es cuando usa ChatGPT "en persona": OpenAI dice que ha limitado deliberadamente "la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas". Tanto por precisión como por privacidad. Eso significa que una de las visiones más de ciencia ficción de la inteligencia artificial (la capacidad de mirar a alguien y decir quién es) no se hará realidad en el corto plazo. Lo cual es probablemente algo bueno.

Casi un año después del apogeo de ChatGPT, parece que OpenAI todavía está tratando de descubrir cómo darle a su modelo más características y capacidades sin crear nuevos problemas y desventajas. Con los nuevos lanzamientos, la compañía ha tratado de caminar por esa delgada línea limitando conscientemente lo que pueden hacer sus nuevos modelos. Pero el hecho es que este enfoque no siempre funcionará. A medida que más y más personas utilicen el control por voz y la búsqueda de imágenes, y que ChatGPT se acerque a convertirse en un asistente virtual útil y verdaderamente multimodal, será cada vez más difícil mantener todas estas salvaguardas.