Logiciel
Informatique, téléphonie
14.01.2025 07:00

Partager avec d'autres :

Partager

Comment la rareté des données menace l’avenir de l’intelligence artificielle

L’intelligence artificielle est confrontée à un manque de données clés, ce qui conduit à recourir à des solutions synthétiques. Les « fausses » données pourraient-elles être l’avenir de l’intelligence artificielle ou un risque pour la qualité des modèles et leurs performances ?
Comment le manque de données menace l’avenir de l’intelligence artificielle

Le monde de l’intelligence artificielle est confronté à une pénurie de sa matière première la plus précieuse : les données. Cela a suscité des discussions sur une alternative de plus en plus populaire : les données synthétiques, voire « fausses ». Depuis des années, des entreprises comme OpenAI et Google exploitent des données sur Internet pour apprendre les modèles linguistiques à grande échelle (LLM) qui alimentent leurs solutions d'interface utilisateur. Ces modèles ont digéré des quantités massives de contenu généré par l’homme, depuis les articles de recherche et les romans jusqu’aux vidéos YouTube.

Or ces données s’épuisent peu à peu, leur quantité devient de plus en plus limitée. Certains acteurs majeurs du domaine, comme le directeur d'OpenAI, Sam Altman, estiment que les modèles d'auto-apprentissage pourront utiliser des données synthétiques, ce qui constituerait une source de données bon marché et quasiment infinie.

Pourtant, les chercheurs mettent en garde contre les risques. Les données synthétiques pourraient réduire la qualité des modèles, car ils peuvent être « empoisonnés » par leurs propres erreurs. Des recherches menées par les universités d'Oxford et de Cambridge ont montré qu'alimenter les modèles exclusivement avec des données synthétiques conduit à des résultats médiocres et à des « absurdités ». Selon eux, une utilisation équilibrée des données synthétiques et réelles est essentielle.

De plus en plus d'entreprises créent des données synthétiques

Le manque de données conduit les entreprises à rechercher des alternatives, comme les données synthétiques générées par les systèmes d’assurance-chômage basées sur des données réelles. Les entreprises technologiques, dont OpenAI et Google, entre autres, paient déjà des millions pour accéder aux données de plateformes comme Reddit et de diverses sociétés de médias, alors que les sites Web restreignent de plus en plus la libre utilisation de leur contenu. Cependant, les ressources sont limitées.

Nvidia, Tencent et les startups Gretel et SynthLabs développent des outils pour créer des données synthétiques souvent plus propres et plus spécifiques que les données générées par l'homme. Avec Llama 3.1, Meta a utilisé des données synthétiques pour améliorer des compétences telles que la programmation et la résolution de problèmes mathématiques. Les données synthétiques offrent également la possibilité de réduire les biais inhérents aux données réelles, même si les chercheurs préviennent que garantir l’exactitude et l’impartialité reste un défi majeur.

Intelligence artificielle « Habsbourg »

Même si les données synthétiques présentent des avantages, elles présentent également de sérieux risques. Les recherches de Meta sur le modèle Llama 3.1 ont montré que l'entraînement du modèle avec ses propres données synthétiques peut même dégrader ses performances. De même, une étude parue dans la revue Nature a averti que l'utilisation incontrôlée de données synthétiques conduisait à un « effondrement du modèle », que les chercheurs ont comparé à une dégénérescence génétique et ont symboliquement surnommé le phénomène « intelligence artificielle des Habsbourg ». Un terme inventé par le chercheur Jathan Sadowski.

La question principale demeure : quelle quantité de données synthétiques est-ce trop ? Certains experts suggèrent l’utilisation de données hybrides, où les données synthétiques sont combinées avec des données réelles pour éviter la dégradation des modèles. Des entreprises comme Scale AI explorent cette approche, et leur PDG, Alexandr Wang, estime qu'une approche hybride est « le véritable avenir ».

Trouver de nouvelles solutions

En janvier, Google DeepMind a présenté AlphaGeometry, un système qui résout des problèmes géométriques de très haut niveau en utilisant une approche « neuro-symbolique ». Il combine les avantages de l’apprentissage profond à forte intensité de données et du raisonnement basé sur des règles. Le modèle a été entièrement formé sur des données synthétiques et est considéré comme une étape potentielle vers l’intelligence artificielle générale.

Le domaine neuro-symbolique est encore jeune, mais il pourrait offrir une direction prometteuse pour l’avenir du développement de l’intelligence artificielle. Sous la pression de la monétisation, des entreprises comme OpenAI, Google et Microsoft tenteront toutes les solutions possibles pour surmonter la crise des données.


Vous souhaitez en savoir plus sur ce sujet ?
intelligence artificielle


Que lisent les autres ?