ChatGPT comprend désormais également les images et les commandes vocales
Le chatbot ChatGPT est constamment amélioré par OpenAI. La nouvelle version permet aux utilisateurs d'activer ChatGPT avec la voix et les images, apportant ainsi de nouvelles questions et préoccupations. Alors qu’apporte la nouvelle version et quand ?
La plupart des modifications apportées par OpenAI à ChatGPT concernent les capacités du bot intelligent : les questions auxquelles il peut répondre, les informations auxquelles il peut accéder, etc. Cette fois-ci, l’entreprise modifie également l’utilisation de ChatGPT. Elle lance une nouvelle version du service qui permet d’interagir avec le bot non seulement en saisissant des phrases dans un champ texte, mais aussi en lui parlant ou en téléchargeant une image. Ces nouvelles fonctionnalités seront disponibles pour les abonnés Plus dans les prochaines semaines, et pour tous les autres utilisateurs « prochainement ».
La commande vocale n'a rien de révolutionnaire : vous appuyez sur un bouton et posez votre question. ChatGPT la convertit en texte, l'analyse avec un vaste modèle de langage, obtient la réponse, la retranscrit en parole et vous répond vocalement. L'expérience devrait être similaire à celle avec Alexa ou Google Assistant, à ceci près que – OpenAI l'espère – les réponses seront meilleures grâce à une technologie sous-jacente améliorée. La plupart des assistants virtuels semblent se moderniser pour intégrer de grands modèles de langage, et OpenAI a pour l'instant une longueur d'avance.
L'excellent modèle Whisper d'OpenAI prend en charge une grande partie de la conversion de la parole en texte, et l'entreprise lance également un nouveau modèle de synthèse vocale capable de créer un son d'apparence humaine à partir d'un simple texte et de quelques secondes d'enregistrement vocal. Vous pourrez choisir une voix pour ChatGPT parmi cinq options, mais OpenAI semble croire au potentiel bien plus important de ce modèle. Par exemple, OpenAI collabore avec Spotify pour traduire des podcasts dans d'autres langues tout en préservant la voix de l'animateur. Les applications des voix de synthèse sont nombreuses et intéressantes, et OpenAI pourrait jouer un rôle majeur dans ce secteur.
Quoi qu'il en soit, la possibilité de créer une voix de synthèse convaincante à partir de quelques secondes d'enregistrement audio ouvre la voie à toutes sortes d'usages potentiellement problématiques. « Ces fonctionnalités engendrent de nouvelles menaces, comme le risque que des personnes malveillantes usurpent l'identité de personnalités publiques », a écrit l'entreprise dans un article de blog annonçant ces nouveautés. C'est pourquoi ce modèle n'est pas destiné au grand public et sera soumis à un contrôle beaucoup plus strict, limité à des cas d'utilisation et des partenariats spécifiques.
La fonction de recherche d'images est quelque peu similaire à Google Lens. Vous prenez une photo et ChatGPT essaiera de comprendre ce que vous demandez et répondra en conséquence. Vous pouvez également utiliser l'outil de dessin de l'application pour rendre la question aussi claire que possible, ou prononcer ou saisir des questions liées à l'image. C'est là que la nature de ChatGPT s'avère particulièrement utile : au lieu d'exécuter une recherche, d'obtenir la mauvaise réponse, puis d'exécuter une nouvelle recherche, vous pouvez pousser le bot et améliorer la réponse au cours du processus. Ceci est très similaire à ce que fait Google avec la recherche multimodale.
Bien évidemment, l'intégration d'images dans ChatGPT présente aussi des inconvénients. L'un d'eux survient lorsqu'on utilise ChatGPT « sur une personne » : OpenAI explique avoir délibérément limité « la capacité de ChatGPT à analyser les personnes et à formuler des affirmations directes à leur sujet », par souci de précision et de respect de la vie privée. Cela signifie que l'une des visions les plus futuristes de l'intelligence artificielle — la capacité de reconnaître une personne à partir de son simple regard — ne se concrétisera pas de sitôt. Ce qui est probablement une bonne chose.
Près d'un an après l'apogée de ChatGPT, il semble qu'OpenAI essaie toujours de trouver comment donner à son modèle plus de fonctionnalités et de capacités sans créer de nouveaux problèmes et inconvénients. Avec les nouvelles versions, la société a essayé de franchir cette ligne fine en limitant consciemment ce que ses nouveaux modèles peuvent faire. Mais le fait est que cette approche ne fonctionnera pas toujours. À mesure que de plus en plus de personnes utilisent la commande vocale et la recherche d'images, et que ChatGPT se rapproche de son objectif de devenir un assistant virtuel véritablement multimodal et utile, il deviendra de plus en plus difficile de maintenir toutes ces garanties.
























