Logiciel
26.09.2023 17:48

Partager avec d'autres :

Partager

ChatGPT comprend désormais également les images et les commandes vocales

ChatGPT comprend désormais également les images et les commandes vocales

Le chatbot ChatGPT est constamment amélioré par OpenAI. La nouvelle version permet aux utilisateurs d'activer ChatGPT avec la voix et les images, apportant ainsi de nouvelles questions et préoccupations. Alors qu’apporte la nouvelle version et quand ?

La plupart des changements introduits par OpenAI dans ChatGPT concernent ce que le robot alimenté par l'IA peut faire : à quelles questions il peut répondre, à quelles informations il peut accéder, etc. Cette fois, cependant, cela change également la façon dont vous pouvez utiliser ChatGPT vous-même. La société présente une nouvelle version du service qui vous permet d'interagir avec un robot IA artificiellement intelligent non seulement en écrivant des phrases dans un champ de texte, mais également en lui parlant ou simplement en téléchargeant une image. Les nouvelles fonctionnalités seront disponibles pour ceux qui paient l'abonnement Plus dans les semaines à venir, tandis que d'autres recevront la nouvelle fonctionnalité "peu de temps après".

La partie vocale n'a rien de révolutionnaire : vous appuyez sur un bouton et dites votre question, ChatGPT la convertit en texte et la transmet à un grand modèle de langage, récupère la réponse et la reconvertit en parole, et vous répond vocalement. Cela devrait donner l’impression de parler à Alexa ou à l’Assistant Google, sauf que – comme l’espère OpenAI – les réponses seront meilleures grâce à la technologie sous-jacente améliorée. La plupart des assistants virtuels semblent se réinventer et intégrer de grands modèles de langage – et OpenAI a pour l’instant une longueur d’avance sur eux.

L'excellent modèle Whisper d'OpenAI effectue une grande partie de la conversion parole-texte, et la société introduit également un nouveau modèle de synthèse vocale censé être capable de créer « un son de type humain à partir de seulement du texte et de quelques secondes d'écoute ». exemple de discours." Vous pourrez choisir une voix pour ChatGPT parmi cinq options, mais OpenAI semble penser que le modèle a beaucoup plus de potentiel. Par exemple, OpenAI travaille avec Spotify pour traduire des podcasts dans d'autres langues, préservant ainsi le son de la voix de la personne qui héberge le podcast. Il existe de nombreuses utilisations intéressantes pour les voix synthétiques, et OpenAI pourrait jouer un rôle important dans cette industrie.

Quoi qu’il en soit, le fait que vous puissiez créer une voix synthétique décente avec seulement quelques secondes d’audio ouvre la porte à toutes sortes de cas d’utilisation potentiellement problématiques. "Ces capacités présentent de nouvelles menaces, telles que la possibilité d'acteurs malveillants se faisant passer pour des personnalités publiques, etc.", indique le blog de la société annonçant les nouvelles fonctionnalités. C’est précisément pour cette raison que le modèle n’est pas disponible pour une utilisation plus large et sera beaucoup plus contrôlé et limité à des cas d’utilisation et des partenariats spécifiques.

La fonction de recherche d'images est quelque peu similaire à Google Lens. Vous prenez une photo et ChatGPT essaiera de comprendre ce que vous demandez et répondra en conséquence. Vous pouvez également utiliser l'outil de dessin de l'application pour rendre la question aussi claire que possible, ou prononcer ou saisir des questions liées à l'image. C'est là que la nature de ChatGPT s'avère particulièrement utile : au lieu d'exécuter une recherche, d'obtenir la mauvaise réponse, puis d'exécuter une nouvelle recherche, vous pouvez pousser le bot et améliorer la réponse au cours du processus. Ceci est très similaire à ce que fait Google avec la recherche multimodale.

Évidemment, inclure des images dans ChatGPT présente également des inconvénients. L'un d'eux est lorsque vous utilisez ChatGPT « en personne » : OpenAI affirme avoir délibérément limité « la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes ». Tant pour l’exactitude que pour la confidentialité. Cela signifie que l’une des visions les plus science-fiction de l’intelligence artificielle – la capacité de regarder quelqu’un et de dire qui il est – ne sera pas une réalité de si tôt. Ce qui est probablement une bonne chose.

Près d'un an après l'apogée de ChatGPT, il semble qu'OpenAI essaie toujours de trouver comment donner à son modèle plus de fonctionnalités et de capacités sans créer de nouveaux problèmes et inconvénients. Avec les nouvelles versions, la société a essayé de franchir cette ligne fine en limitant consciemment ce que ses nouveaux modèles peuvent faire. Mais le fait est que cette approche ne fonctionnera pas toujours. À mesure que de plus en plus de personnes utilisent la commande vocale et la recherche d'images, et que ChatGPT se rapproche de son objectif de devenir un assistant virtuel véritablement multimodal et utile, il deviendra de plus en plus difficile de maintenir toutes ces garanties.


Vous souhaitez en savoir plus sur ce sujet ?
ChatGPT intelligence artificielle


Que lisent les autres ?