L’Observatoire de l’Internet de l’Université de Stanford a découvert qu’un &13 ;
populaire ensemble de données utilisé pour l’apprentissage de l’IA générative
pour la création d’images contenant des liens vers iimages d’abus sur
enfantsconduisant les modèles d’IA à créer des images potentiellement
risqués.
Il est LAION-5B, un ensemble de données qui a été découvert
contenir près de 1 700 images illicites collectées à partir de messages sur les médias sociaux et
sites web pour adultes. LAION a été examiné depuis septembre dernier
pour vérifier s’il contenait du matériel pornographique infantile ;
pédopornographique. Les chercheurs ont analysé les hachages et les identifiants
identifiants des images, qui ont ensuite été envoyés à des plateformes de
plateformes de détection de matériel pédopornographique, telles que PhotoDNA, et
vérifiés par le Centre canadien de protection de l’enfance.
Selon le site web de LAION, l’ensemble de données ne conserve pas d’archives des images, mais indexe simplement les images sur le web ;
images, mais se contente d’indexer les images sur le web et
ne contient que des liens et des légendes. LAION, l’organisation à but non lucratif
qui gère le jeu de données, affirme avoir une politique de « tolérance zéro
tolérance zéro » pour les contenus préjudiciables, et a également déclaré qu’elle avait
suspendu temporairement l’accès à l’ensemble des données.
LAION-5B a été utilisé pour entraîner Diffusion stableet le développeur de l’IA Stability a déclaré qu’il avait établi des lignes directrices
Le développeur de l’IA Stability a déclaré qu’il avait établi des lignes directrices
;
contre l’utilisation abusive de ses plateformes. L’entreprise a également
a déclaré que bien qu’elle ait entraîné ses modèles avec LAION-5B, elle
s’est concentrée sur une seule partie de l’ensemble de données et l’a optimisée pour
la sécurité.
La première version de Imagen, l’outil d’IA générative de Google ;
qui n’a été diffusé qu’à des fins de recherche, a été entraîné avec l’ensemble de données
ensemble de données LAION-400Mune version antérieure à la 5B, tandis que les éditions ultérieures d’Imagen n’utilisaient plus les ensembles de données LAION ;
éditions ultérieures d’Imagen n’utilisaient plus les ensembles de données LAION. Dans le
rapport compilé par les chercheurs de Stanford indique que l’équipe
d’Imagen avait découvert que LAION-400M contenait « un large éventail de contenus inappropriés, y compris des images pornographiques » ;
un large éventail de contenus inappropriés, y compris des images pornographiques, des insultes racistes
et des stéréotypes sociaux nuisibles ».
Les chercheurs soulignent également que la présence de matériel
;
pornographie infantile n’affecte pas nécessairement les résultats des modèles
;
formés sur cet ensemble de données, bien qu’il y ait bien sûr la possibilité
que le modèle ait appris quelque chose de ces images. Il est clair
il serait difficile et probablement même impossible de supprimer le contenu
;
risqué, d’autant plus pour les modèles d’IA qui ont été entraînés avec
ces ensembles de données. Les chercheurs conseillent donc vivement d’interrompre la distribution de ces modèles qui ont été formés avec ces ensembles de données ;
distribution de ces modèles qui ont été entraînés sur ces ensembles de données ;
LAION-5B.