Un influyente conjunto de datos de aprendizaje automático, como el que se ha utilizado para entrenar numerosas aplicaciones populares de generación de imágenes, incluye miles de imágenes sospechosas de abuso sexual infantil, revela un nuevo informe académico.
el informe, elaborado por el Observatorio de Internet de la Universidad de Stanford, dice que LAION-5B, un tramo masivo de medios visuales, incluye un número significativo de imágenes de abuso.
LAION-5B es mantenida por la organización sin fines de lucro LAION (abreviatura de Red Abierta de Inteligencia Artificial a gran escala) y en realidad no es una colección de imágenes, sino que es, en cambio, una lista de enlaces a imágenes que han sido indexadas por la organización. Los enlaces incluyen metadatos para cada imagen, que ayuda a los modelos de aprendizaje automático a encontrar imágenes para dibujar en el entrenamiento.
Para examinar este amplio tramo de datos, los investigadores utilizaron PhotoDNA, un herramienta de filtrado de contenido patentada desarrollado por Microsoft para ayudar a las organizaciones a identificar y reportar ciertos tipos de contenido prohibido, incluido CSAM. conjunto de datos, los investigadores dicen que PhotoDNA encontró algunas 3,226 instancias de material sospechoso de abuso infantil. Al consultar con organizaciones externas, los investigadores pudieron determinar que muchas de esas imágenes fueron casos confirmados de CSAM. Si bien el conjunto de datos en cuestión incluye miles de millones de imágenes, la existencia de cualquier cantidad de contenido abusivo en su contenido debería ser preocupante.
El martes, después de recibir una copia embargada del informe de Stanford, LAION desconectó el conjunto de datos y emitió una declaración para abordar la controversia. Lee , en parte:
LAION tiene una política de tolerancia cero para contenidos ilegales. Trabajamos con organizaciones como IWF y otros para monitorear y validar continuamente enlaces en los conjuntos de datos de LAION disponibles públicamente. Los conjuntos de datos también se validan mediante herramientas de filtrado intensivo desarrolladas por nuestra comunidad y organizaciones asociadas para garantizar que son seguras y cumplen con la ley.
…Con mucha precaución, hemos desconectado LAION 5B y estamos trabajando rápidamente con la IWF y otros para encontrar y eliminar enlaces que aún pueden apuntar a contenido sospechoso y potencialmente ilegal en la web pública.
LAION-5B se ha utilizado para entrenar numerosas aplicaciones de IA, incluida la popular aplicación de generación de imágenes de difusión estable creado por Stability AI. Gizmodo se acercó a Stability AI para hacer comentarios y actualizará esta historia si responde.
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.