No nos habíamos enterado, pero las IA se están entrenando con los subtítulos de tus películas y series

zieme.amparo

New member
Registrado
27 Sep 2024
Mensajes
50
ana-de-armas-en-blade-runner-2049.jpeg

Durante muchos años, cuando el cine ha querido advertirnos de los peligros de la inteligencia artificial (IA), nos ha mostrado al supercomputador maligno de rigor empeñado en conquistar el mundo. Lo cual, visto hoy en día, parece un error de cálculo: a juzgar por las últimas novedades de Hollywood, si Skynet o a HAL 9000 quisieran reemplazar a la humanidad, se dedicarían a ver cine y series en lugar de a desencadenar holocaustos atómicos.

En The Atlantic, el periodista Alex Reisner afirma haber descubierto el arma secreta de varias compañías (entre ellas, Apple, Meta, Nvidia y otras) para entrenar a sus chatbots: los diálogos de tus películas y series favoritas, importados en forma de subtítulos. Las conclusiones de su investigación resultan inquietantes, en especial por lo que atañe a las relaciones entre la IA y la propiedad intelectual de los guionistas.

"Una forma increíblemente compleja de plagio"​


Según explica, Reisner empezó a tirar del hilo cuando un guionista le aseguró haber reconocido diálogos de El padrino y la sitcom Alf, entre otros títulos, en los diálogos de las IA generativas. A partir de este indicio, el periodista afirma que dichos chatbots se han entrenado a partir de 53.000 películas y 85.000 episodios de TV.

Entre los títulos incluidos, prosigue el informe, se encontrarían todas las nominadas al Oscar a Mejor película entre 1950 y 2016. A esto hay que añadir 616 episodios de Los Simpson, 170 de Seinfeld, 45 de Twin Peaks y todas las temporadas de The Wire, Los Soprano y Breaking Bad. Crimen organizado aparte, las IA también se nutren de momentos guionizados de las galas de los premios de la Academia y los Globos de Oro.

Si las empresas tecnológicas recurren al cine y la TV, esto se debe a que sus diálogos ayudan a sus IA a expresarse de forma cercana al ritmo natural de una conversación. Y, para facilitar la asimilación de estos datos, los chatbots cuentan con un aliado involuntario: la web OpenSubtitles.org, un repositorio que alberga más de nueve millones de archivos en más de 100 idiomas.

De esta manera, los usuarios de OpenSubtitle han ayudado sin querer a entrenar a las IA con una cantidad ingente de guiones. Las empresas en cuestión, por su parte, recurren a eufemismos para esquivar este hecho o se niegan a declarar sobre el asunto, algo que tiene sentido si pensamos que han empleado el material sin permiso de los autores.

Pese a estos impedimentos, Alex Reisner ha empleado herramientas de su propia creación que, tras descargar archivos de OpenSubtitle y cotejarlos con la base de datos IMDB, identificaron 139.000 películas y episodios (14 gigabytes de texto).

Toda esta información se habría sumado a un banco de datos conocido como 'The Pile' ("el montón", traducido libremente) empleado para entrenar IA. Allí se habría sumado a conversaciones en redes sociales, subtítulos de YouTube, textos literarios y otros materiales que esperan ser reciclados como respuestas a prompts o frases en conversaciones.

El uso de material cinematográfico en la IA está en el candelero desde la huelga de guionistas de 2023. Y sigue siendo un tema candente para autores como Vince Gilligan: en una reclamación a la oficina estadounidense de copyright a principios de este año, el creador de Breaking Bad describió este proceso como "una forma de plagio extraordinariamente compleja que requiere un gran uso de energía".

Sin embargo, las empresas tecnológicas se amparan en el concepto de 'uso legítimo' para justificar esta apropiación indebida. Por su parte, Jörg Tiedemann, uno de los creadores de OpenSubtitle, asegura sentirse satisfecho de ver cómo los materiales de la web sirven para entrenar a las IA. Aunque, como señala Alex Reisner, tampoco es que tenga muchas otras opciones.

¿Quieres estar a la última de todas las novedades de cine y series? Apúntate a nuestra newsletter.

 

Miembros conectados

No hay miembros conectados.
Atrás
Arriba