¿Quieres comprar algunos datos de estudiantes para tu IA? La Universidad de Michigan puede ayudar. Parece que los representantes de la escuela o sus socios están enviar correos electrónicos en frío a trabajadores tecnológicos de Google y otras empresas, ofreciéndoles datos sobre estudiantes de la Universidad de Michigan para entrenar modelos en idiomas grandes. Los datos incluyen grabaciones de conferencias, debates de estudiantes y horas de oficina, así como ensayos escritos por estudiantes de último año y de posgrado, todos disponibles por unas licencias insignificantes. tarifa. No está claro si los estudiantes daron su consentimiento.
La historia salió a la luz en una publicación en X/Twitter de un empleado de Google Deepmind, el centro de investigación de IA de la empresa. Susan Zhang, ingeniero de DeepMind, dijo que había recibido un mensaje patrocinado de LinkedIn que promocionaba la información y ofrecía una muestra gratuita de la Universidad de Datos de Michigan para demostrar su valía.
“Me estoy comunicando porque, según su perfil, es posible que esté trabajando con modelos de lenguaje grande (LLM) o procesamiento de lenguaje natural”. Decía el mensaje de ventas. “Quería informarle que la Universidad de Michigan está otorgando licencias para datos académicos de discurso y artículos de estudiantes que podría ser muy útil para capacitar o afinar los LLM”.
El mensaje ofrece datos de 85 horas de conferencias, secciones de discusión y entrevistas por $15,595, un segundo conjunto de 829 artículos escritos por estudiantes de la Universidad de Michigan de varias disciplinas por $12,595, o un paquete de descuento para ambos conjuntos de datos a $25,000 .
“Creo que vale la pena investigar qué universidades están vendiendo datos de estudiantes y cuáles son los términos”, dijo Zhang a Gizmodo en un mensaje en X. . “La concesión de licencias es mejor que la extracción de datos sin atribución, pero los canales de atribución aquí probablemente solo estén construidos a mitad de camino (también conocidos como creadores originales no lo harán) ver una moneda de diez centavos, mientras que el revendedor que almacena los datos se quedará con todas las ganancias).
La Universidad parece estar trabajando con una organización llamada Catalyst Research Alliance, que también afirma estar asociada con la Universidad Estatal de Carolina del Norte. El sitio web ofrece una muestra del conjunto de datos., que viene con un ensayo titulado “Las insuficiencias democráticas de la Unión Europea” y lo que parece ser una grabación de una clase sección de discusión.
La Alianza de Investigación Catalyst y la Universidad Estatal de Carolina del Norte no respondieron de inmediato a las solicitudes de comentarios. Un representante de la Universidad de Michigan dijo que se estaban preparando una declaración. Actualizaremos este artículo cuando tengamos una respuesta.
Entrenar modelos en lenguajes extensos, como el software que ejecuta chatbots como ChatGPT y Bard, requiere conjuntos de datos masivos y claramente etiquetados sobre varios temas y disciplinas. Si bien el conjunto de datos de la Universidad de Michigan es pequeño, un contenido bien organizado sobre una franja estrecha de temas podría ser útil para ajustar Ciertos modelos, en particular herramientas diseñadas para fines específicos relacionados con el mundo académico, la comunicación formal o para entrenar IA más generales para mejorar su desempeño. en áreas individuales de especialización en la materia.
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.