Midjourney a peut-être utilisé le contenu de 16 000 artistes sans autorisation

Après le procès du New York Times contre OpenAI et Microsoft pour avoir utilisé leur actualité pour former leurs LLM, nous savions que cela ne tarderait pas controverse accéder à d’autres supports de connaissance, au-delà du texte. Une fois terminée la phase audio, au cours de laquelle, malgré la colère de Bad Bunny, il est devenu clair que cloner n’importe quelle voix humaine ou en créer une nouvelle est presque un jeu d’enfant, il a fallu en venir à ceux qui manquent. Nous parlons du image et, bientôt sur vos écrans, de cette même image mais en mouvement : du vidéo.

Le premier d’entre eux, l’image statique, est déjà plus que compromis. Cette fois, le lièvre a sauté fuite « accidentelle » (« accidentel » est un mot qu’il faut mettre de plus en plus souvent entre guillemets) des noms de plus de 16 000 artistes dont le travail aurait été utilisé sans autorisation dans la formation de Midjourney, l’un des grands noms actuels de la génération d’images IA avec Diffusion stable soit Dall-e, l’IA génératrice d’images d’OpenAI. Une partie de ces 16 000 noms figuraient déjà dans un recours collectif déposé par des artistes l’année dernière, dans le cadre d’une plainte qui comprenait IA de stabilitécréateur de Stable Difussion et Midjourney, ainsi que DevianArt, un site Web d’une communauté internationale d’artistes en ligne où ils pouvaient exposer gratuitement leur travail en photographie, en art numérique et traditionnel, etc. Ces deux derniers utilisent le logiciel de Stable Difussion qui vous permet de créer des images à partir de texte.

La nouveauté de cette nouvelle liste, beaucoup plus large, réside dans son origine : une tableur logé dans Google Docs avec lesquels les développeurs ont travaillé À mi-parcours. Cette liste appelée « Liste de styles à mi-parcours » Selon le mensuel londonien The Art Newspaper, il aurait été « soi-disant récupéré auprès des développeurs de Midjourney au cours d’un processus visant à affiner la capacité du programme à imiter les œuvres d’artistes et de styles spécifiques ». Cette publication spécialisée dans l’art désigne la série de tweets publiés par un designer travaillant pour la société de jeux vidéo Riot Games, nommé Jon Lam, comme étant à l’origine de la fuite. Le profil de Lam sur X contient des captures d’écran d’une prétendue conversation entre les développeurs de Midjourney, à laquelle même le PDG participe, David Holtzparlant de la disponibilité de sources où ils auraient accès à du contenu pour les imiter dans la création d’images et accueillir les nouveaux 16 000 créateurs pour programmer une formation. Pur sarcasme.

La clé de pourquoi tout cela a été fait sans aucune autorisation des propriétaires légitimes de ces contenus est dans la réponse d’un autre membre du chat en abordant l’épineuse question du droit d’auteur : «…tout ce que vous avez à faire est d’utiliser ces ensembles de données extraits et (il est entendu dans le contexte dont on parle de l’IA elle-même) elle oubliera facilement ce que vous avez utilisé pour entraîner le modèle. Problèmes juridiques (…) résolus pour toujours.»r;. Pour le moment, ce n’est pas tout à fait vrai. Bien que le juge ait rejeté en octobre dernier la demande pour vices de forme, il ne l’a fait que partiellement, sans aborder la question de savoir si Midjourney était coupable ou non d’avoir violé le droit d’auteur en utilisant les 5,85 milliards de photographies contenues dans l’ensemble de données LAION-5B, utilisé dans sa formation. Le procès a été reformulé et déposé à nouveau en novembre.

Ce n’est pas un signe rassurant que le accès au document qui comprenait la liste à l’extérieur rapidement fermé dès que Jon Lam l’a rendu public, même s’il est difficile de cacher quelque chose sur Internet lorsque quelques centaines de milliers de personnes l’ont partagé, il est donc toujours visible dans son intégralité sur Internet Archive et dans plusieurs tweets publiés par le créateur du jeu vidéo . Il ne serait pas déraisonnable de penser que cette publication irrégulière et le procès précédent (ici vous pouvez récupérer le PDF) sont en quelque sorte liéparce que Lam a insisté dans son fil X pour que les personnes éventuellement affectées par l’utilisation inappropriée de son travail sera recherché dans la liste et comparaître, s’ils étaient là, dans ladite procédure judiciaire. Tous ne sont pas du tout des créateurs indépendants, c’est pourquoi les bureaux sûrement importants qui gèrent les droits d’auteur des créateurs, tels que Pablo Picasso, Frida Kahlo soit Walt Disneydont Midjourney aurait utilisé les œuvres puisqu’elles sont présentes sur la liste controversée, pourrait se joindre aux plaignants, donnant encore plus de poids à la procédure judiciaire.

L’IA veut du caviar pour le petit-déjeuner et le goûter mais ses entraîneurs continuent de prétendre que ce produit ne devrait pas être plus cher que le porridge

Tout cela se produit quand on annonce que Cette entreprise commencera à former des modèles vidéo en janvier. Il ne faut pas être très méchant quand, après avoir lu cette annonce faite par un expert Twitter en la matière, on se demande (je suppose Netflix il vous arrivera la même chose) : Avec quoi vont-ils l’entraîner ? Si tu demandes Perplexité, qui identifie au moins d’où viennent vos réponses, ce LLM admet sans équivoque que pour former une IA vidéo, vous avez besoin… vidéos. Blanc et en bouteille. Bien qu’il dise aussi quelque chose qui vous oblige à réfléchir : « Il est important de noter que la qualité et la diversité des données d’entraînement sont cruciales pour les performances des modèles d’IA. Des ensembles de données de haute qualité sont essentiels pour former des modèles d’IA efficaces, et leur absence peut entraver le développement de l’IA. De plus, les modèles d’IA doivent être continuellement formés et ajustés pour améliorer leurs performances et leur précision..

Et dans ce processus rien n’en vaut la peine. L’IA veut caviar pour le petit déjeuner et pour le goûter, mais leurs soignants continuent de prétendre que c’est un produit qui ne devrait pas être plus cher que le porridge. Il est évident que la qualité des données est essentielle. Je ne le dis pas : il s’agit de Sam Altman, dont la société OpenAI vaut déjà 100 milliards de dollars après avoir réalisé un chiffre d’affaires de 1 600 dollars en 2023 et s’attend à 750 millions de dollars supplémentaires lors du dernier tour de financement. Altman est très préoccupé par ce gâchis en matière de droits d’auteur et estime que ce problème, mineur pour lui, « peut ralentir le développement de l’IA ». Les artistes, qui utilisent déjà logiciel pour « tricher » à ceux qui utilisent leur contenu sans leur demander leur autorisation et font apparaître la version numérique de leurs créations comme autre chose que ce qu’elle est, il y en a, entre autres, qui sont également très inquiets. Sûrement avec moins de revenus que le vôtre.