Qu'est-ce qu'AudioCraft, le nouvel outil d'IA sous Meta ?
AudioCraft est un programme open source qui crée des effets et de la musique à partir d'invites textuelles, similaires à ce que font les générateurs d'images ou de vidéos IA. AudioCraft propose trois modèles :
- MusicGen pour composer de la musique
- AudioGen pour créer des effets sonores
- EnCodec pour aider à la compression audio
MusicGen était auparavant connu parmi les créateurs de musique et les amateurs d'IA. Mais maintenant, Meta a révélé le code de ce modèle, qui permet aux utilisateurs de l'enrichir avec leurs propres données musicales. Naturellement, des questions éthiques et juridiques ont immédiatement surgi, car la plupart des œuvres musicales IA ont été immédiatement signalées par les éditeurs de musique comme portant atteinte à la propriété intellectuelle.
Meta a spécifiquement déclaré qu'elle avait uniquement créé le modèle par défaut basé sur la musique appartenant à l'entreprise et sa musique sous licence. Plus précisément, ils ont utilisé 20 000 heures d'audio et 400 000 enregistrements ainsi que des descriptions textuelles et des métadonnées, le tout sous l'égide des plateformes Meta Music Initiative Sound Collection, Shutterstock et Pond5. Ils ont également supprimé toutes les voix avant la sortie, pour éviter toute imitation des voix des créateurs.
Le deuxième modèle, AudioGen, est dédié à la création de sons ambiants et d'effets sonores. AudioGen est un modèle basé sur la diffusion, comme la plupart des générateurs d'images modernes (DALL-E 2, Stable Diffusion...). En diffusion, le modèle apprend à débruiter progressivement les données initiales qui sont entièrement du bruit, comme l'audio ou les images, et à les rapprocher progressivement de l'invite cible.
En plus des effets, AudioGen a également été créé pour générer de la parole, ce qui, admet Meta, pourrait être utilisé à mauvais escient par certains pour usurper la voix. Malgré les inquiétudes, du moins pour l'instant, ils n'ont pas imposé de restrictions spécifiques sur les différentes manières d'utiliser AudioCraft.
Le troisième modèle, EnCodec, est une amélioration du modèle précédent de Meta pour créer de la musique avec moins d'artefacts. Meta prétend modéliser les séquences audio plus efficacement et capturer différents niveaux d'informations lors de la formation des formes d'onde audio des données pour aider à créer un nouvel audio.
Meta a envisagé AudioCraft comme un outil destiné aux musiciens et aux créateurs qui pourraient créer de nouvelles compositions sans avoir à jouer physiquement d'un instrument. Ils ont également ciblé les développeurs disposant d'un budget plus limité, qui pourraient utiliser AudioCraft pour créer différents sons pour les mondes virtuels, et les créateurs d'Instagram/TikTok, par exemple, pourraient créer les sons les plus adaptés à leurs publications.
Au moins pour l'instant, la licence d'AudioCraft n'autorise pas une utilisation commerciale.
Comment installer et tester l'outil AudioCraft AI ?
Le code est sur Github et vous disposez de plusieurs options d'installation. Vous pouvez utiliser le programme Pinokio (https://pinokio.computer) qui installera plus ou moins automatiquement l'outil musical AI pour vous. Vous devez sélectionner le module AudioGradio dans leur bibliothèque, l'installer (cela prend quelques minutes) et vous obtiendrez une adresse IP locale avec laquelle tester AudioCraft.
D'autres méthodes nécessitent Python, Pip, Anaconda, minicondo ou des programmes similaires préinstallés. Un bon guide facile à comprendre a été publié sur GitHub (https://bit.ly/GHglasba) par l'utilisateur mberman84 et s'applique au programme miniconda. Le résultat final est le même. Vous obtiendrez une adresse IP que vous saisirez dans votre navigateur et vous pourrez commencer à expérimenter.