Deepfakes o el fin de la realidad

 

Durante las elecciones presidenciales de Estados Unidos en el 2016, The Washington Post puso en marcha Heliograf[116], su sistema de inteligencia artificial para escribir noticias. El programa estaba conectado a todos los centros de conteo de votos estatales para leer la información ni bien estaba disponible y en base a eso armar sus propios textos e historias, añadiendo información de los representantes electos o aquellos que habían perdido la oportunidad de ser reelectos.

 

Este mecanismo, fácilmente replicable en el mundo de las noticias deportivas, levantó la alarma de más de un periodista. Heliograf es capaz de producir cientos de notas en cuestión de segundos, mientras un periodista de carne y hueso tardaría varios minutos en narrar tan solo una nota. Es más, de hecho, en lo que refiere a cubrir elecciones políticas, los datos que se actualizan de un minuto a otro pueden desgastar el trabajo humano que en pocos minutos puede quedar obsoleto ante la actualización de la información disponible.

 

Si bien algunas personas se preocuparon, muchas otras vieron los logros de Heliograf con buenos ojos ya que esto le permitiría a los periodistas de profesión dedicarse al periodismo de investigación y a desarrollar notas más profundas, quitándose de encima la producción de estas notas menores. Ahora yo me pregunto, ¿qué más solemos ver en los medios tradicionales además de noticias? ¡Figuras públicas! ¿Podremos reemplazarlas por AI?

 

Durante el 2020, la cadena de cable MBN, de Corea del Sur, se convirtió en el primer medio informativo de aquel país en mostrar al aire mediante Inteligencia Artificial[117]. La tecnología desarrollada entre MBN y Money Brain, imitó a la perfección a la histórica presentadora del noticiero. No solo era idéntica a nivel estético, sino que tenía su misma voz y había adquirido sus mismos movimientos.

 

Ésta no es la primera vez que nos topamos con una tecnología similar. En internet abundan videos de deepfakes, que son falsificaciones de videos de personas, producidos gracias al aprendizaje profundo de redes neuronales. Muchos de estos videos muestran escenas de películas conocidas en las cuales se sustituye la cara del actor principal por la de otra persona, generando un efecto natural y difícil de detectar. Incluso hay deepfakes de Obama y Trump. ¿Está bien hacer esto? ¿Está mal? Lo hacemos porque podemos y queremos demostrar los avances de la tecnología.

 

Las elecciones presidenciales de Estados Unidos en 2016 y 2020 mostraron el fuerte uso y difusión de noticias falsas o fake news. ¿Se imaginan cuando dentro de unos años, en algún país, alguien falsifique el video de un presidente o un candidato a presidente y lo haga decir barbaridades u obscenidades? ¿Cómo se contrarresta el efecto negativo de estos mensajes que serán fácilmente dirigidos a grupos de personas específicas a través de las redes sociales? Borrar los programas o algoritmos que permiten estas simulaciones no es una opción real. Como dice el refrán, todos tenemos derecho a tener nuestras propias opiniones, pero no a tener razón necesariamente.

 

En mayo del 2022, tuve la oportunidad de asistir al encuentro anual del Foro Económico Mundial en Davos, y allí pude preguntarle a Kai-Fu Lee sobre qué podrían hacer las empresas en el futuro cuando sean víctimas de ataques de noticias falsas con videos de deepfake en los que los presidentes de las empresas sean impersonificados, diciendo “nos vamos a la banca rota”. Creo que es fácil imaginarnos el efecto que esto tendrá en inversores no cautos que crean automáticamente en la veracidad del video en lugar de ir a constatar la información pública de la empresa. A continuación pueden ver mi diálogo con el señor Lee.

 

Facundo Cajén y Kai-Fu Lee en el Foro Económico Mundial 2022[118]

 

Sin ir más lejos, el CEO de NVIDIA engañó a todos al comentar los avances de la compañía en el 2021 al mostrar una versión computacional de sí mismo cuando tenía que dar una presentación para sus inversores[119]. La finalidad de esta puesta en escena fue justamente demostrar qué tan lejos la empresa había llegado. Meses después, en Mayo del 2023, una imagen falsa que se viralizó por Twitter mostraba un incendio en el Pentágono que nunca existió. La viralización de la imagen fue suficiente para que el mercado borrada 500 billones de dólares de un plumazo[120]. ¿Abrió la caja de Pandora? ¡Ya lo veremos!

 

Sin duda alguna los recientes avances en imitación de voces humanas por parte de distintas AI harán todo más difícil. Microsoft ya anunció VALL-E[121], un sistema que con un audio de ejemplo de tan solo 3 segundos de duración puede lograr imitar la voz del relator, su tono y su sonido ambiente. Hasta aquí llegaron los días de los relatores o personas que prestan su voz para narrar audio-libros y otros trabajos similares. Se acabaron las voces robóticas a la hora de narrar un texto en voz alta en nuestras aplicaciones. Pero más allá de eso, ¿cómo me cercioro en no caer en “cuento del tío” en el que alguien llame utilizando mi voz[122]? Esto ya sucedió y es cuestión de tiempo que se transforme en el nuevo modus operandi de bandas criminales. ¿Cómo detenemos a alguien de no crear una operación política en contra de un rival? ¿Cómo me puedo asegurar que ese audio que te compartió un familiar por WhatsApp es realmente la voz de un político pidiendo una coima o diciendo que hay que sacar todos los ahorros del banco? Incluso hasta deberemos dudar de los videos de archivo, como se le dice en la jerga a aquellos videos antiguos de personajes públicos, que a veces se utilizan para contrastar los dichos pasados de una persona con sus dichos en la actualidad. Va a ser muy difícil discernir entre lo real y falso. Kai-Fu Lee plantea que en el futuro además de contar con programas de antivirus, nos habremos acostumbrado a contar con sistemas anti-deepfakes, pero en un mundo que fue arrasado por la posverdad, entendiendo por esto la subordinación de los hechos a distintas interpretaciones según las ideologías políticas con que se los analice, esto puede resultar por demás complejo. Después de todo hoy en día ya elegimos en qué burbuja encerrarnos, ya sea por los Me Gusta que damos en las redes sociales o por los medios de comunicación que libremente elegimos consumir y que al igual que los algoritmos que demandan nuestra intención, moldean y refuerzan nuestra visión sobre el mundo.

 

En este sentido, una de mis canciones favoritas dice en un pasaje “No acepto sin embargo, si intentan adoctrinarme. Yo quiero elegir con qué veneno envenenarme”[123]. Por más que me guste esta letra, considero que a esta altura del partido estamos lejos de dicha libertad. ¿Acaso los algoritmos nos quitaron la libertad de descubrir cosas nuevas al sugerirnos ellos mismos cosas que ya saben que nos van a gustar?

 

Volviendo a las falsificaciones, la respuesta a esto puede radicar en vivir en transparencia absoluta, pero lógicamente nadie querría vivir en una versión exagerada de The Truman Show llevando el capitalismo de vigilancia a una versión sin precedentes como la retratada por Tom Hanks y Emma Watson en la película El círculo, en donde la vida de los personajes es transmitida online las 24 horas del día por ellos mismos en las redes sociales. Si la paranoia es absoluta hasta deberíamos tener certificado públicamente los dispositivos que capturan y transmiten las imágenes y el sonido, algo así como el código IMEI de nuestros celulares que sirve como un código único de identificación del mismo, como si se tratase del Documento Nacional de Identidad de estos aparatos. Sin embargo, esto nos llevaría de nuevo al caso de Strava y las bases militares del ejército de Estados Unidos que fueron mostradas en un mapa público por la aplicación en cuestión. Vivir una vida completamente transparente tiene sus desafíos, y uno de ellos es la seguridad de las personas que estarían mostrando su ubicación constante al público general y no ya solo a empresas como Google o Meta. ¿Te imaginás saber la ubicación actual de un personaje público las 24 horas del día? Esto no es solo un problema para privados y jueces, sino también para aquellas personas que se dediquen a la política.

 

En la actualidad, la Coalición para la Procedencia y Autenticidad del Contenido (C2PA)[124], definida graciosamente por algunos como el Ministerio de la Verdad Mundial, ha presentado un estándar que permite verificar la procedencia de la información con una firma única, notificándonos si alguien edita la versión original, y por ende permitiéndonos así corroborar la autenticidad del contenido que vemos online. Si bien no hemos visto mayores avances en la materia, Microsoft, Adobe, Intel y la BBC se ha comprometido a adoptar dicho estándar[125].

 

Ahondando más en este tópico, en el siguiente código QR podrán acceder a un video del actor Bill Hader, en el que un grupo de científicos computacionales, aplicando las técnicas de aprendizaje profundo, fueron capaces de reemplazar la cara de Bill, con una transición sumamente limpia, a la apariencia de Tom Cruise y luego de Seth Rogen. Por un lado esto nos muestra que evidentemente estamos hablando de una tecnología que ya se encuentra a nuestro alcance. Por otro lado, eso nos lleva a preguntarnos si ¿tendremos películas nuevas de Leonardo DiCaprio incluso después de su muerte si él o su familia venden los derechos de su imagen el día de mañana? ¿Tendremos actores virtuales, 100% creados y potenciados a través de AI, que ganarán premios como los Oscar? ¿Tendremos actores y actrices virtuales en la industria del porno? Una vez más, muchas preguntas, pocas respuestas, aunque en este caso me animo a aventurar que la respuesta a ambas preguntas será afirmativa y nuestros ojos no sabrán dar cuenta de la diferencia entre un humano real y uno creado de forma digital cuando los veamos a través de un monitor. Recuerdo incluso que de niño pensaba que los actores y actrices de Hollywood debían saber hablar muchos idiomas y que solo así era que yo podía ver a un mismo actor hablar en español mientras en otros lugares lo veían doblado en alemán o en su idioma original, sea el que fuese. Casualmente creo que fue a los 12 años, en el 2004, mirando la película Yo, robot, protagonizada por Will Smith cuando me di cuenta que sus labios no coincidían con las palabras que yo le oía pronunciar en español. Pues claro, estaba doblado, pero en el futuro quizás las grandes películas comiencen a utilizar AI para modificar el movimiento de los labios y las expresiones de los actores y actrices para hacerlos coincidir con lo que eventualmente digan en su doblaje, que dicho sea de paso es probable que ya ni contraten a alguien para brindar dicha voz, sino que también se trate de una AI que replique la voz original del autor pero en otro idioma.

 

Deepfakes o el fin de la realidad[126]

 

Aunque si de pálidas se trata yo tengo una pregunta más. ¿Se imaginan los juicios que va a haber respecto al uso de las imágenes de los actores? Una cosa es hacer un contrato, con sus familiares, o con la persona misma mientras se encuentre con vida, cediendo los derechos de explotación de su imagen a una marca o compañía. Ahora permitámonos imaginar si en vez de hacer eso, pasara otra cosa. Imaginemos que fallece Robert De Niro, pero que gracias a los avances de la Inteligencia Artificial y el aprendizaje profundo, Martin Scorsese decide hacer una nueva película e incluirlo como estrella principal, utilizando las imágenes del joven De Niro en Taxi Driver, película dirigida por Scorsese mismo. Imaginemos que él detenta todos los derechos sobre esa película. ¿Debería Scorsese pagarle a los herederos de De Niro por el uso de su imagen? Después de todo, hipotéticamente hablando, Scorsese o la productora detrás de Taxi Driver, ya le pagó a De Niro una suma acordada por el uso de su imagen, joven, en ese momento y por ende podrían usar estas mismas imágenes para entrenar los modelos computacionales, por lo que estarían usando propiedad digital que ya les pertenece.

 

Si bien el caso de que usen tu propia imagen sin consentimiento es un caso sensible, a esta altura del partido distintas inteligencias artificiales como MidJourney, Dall-E y Stable Diffusion, entre otras, nos permiten crear imágenes hiperrealistas, con el contenido que nosotros queramos, con tan solo pedirlo. Esto ha traído la crítica de los artistas que sostienen, con razón, que en realidad los trabajos realizados por estas inteligencias artificiales están basados en trabajos previos, realizados por humanos, y que los mismos no obtienen el reconocimiento que se merecen en cada obra, sea esta una mención o una suma monetaria. A esta altura del partido la propiedad intelectual de lo que se dispone públicamente en internet comienza a borrarse cada vez más en un horizonte que ya parece lejano. Al final de cuentas, nadie le paga regalías a los descendientes de Brunelleschi por formular las leyes de la perspectiva cónica o a Johannes Widman por crear los símbolos de suma (+) y resta (-) en un libro de su autoría publicado en 1489, así y todo el conocimiento plasmado por estos individuos es de uso cotidiano y sobre el mismo se han creado cosas nuevas. Todos aprendimos de alguien y así y todo nuestros tutores no son los que se llevan una recompensa constante por lo que nos transmitieron. Así como a principios del siglo la industria discográfica sufrió un sacudón debido a la piratería que facilitaba el acceso a archivos musicales con derechos de autor, lo cual obligó a reconvertir el negocio y hacer que los artistas dependan más de los ingresos de sus giras que por las ventas de sus discos, hoy distintos influencers ofrecen contenido gratis en YouTube y otras redes sociales para darse a conocer pero eventualmente ganan dinero vendiendo entradas de teatro. Independientemente de si uno considera que esto está bien o está mal, es la forma en la que hoy funcionan las cosas y a la que los artistas deben adaptarse para mantenerse en el centro de la atención. La propiedad intelectual para cosas digitales hoy cuelga de un hilo muy fino y por eso, este libro es ofrecido gratuitamente a quien quiera leerlo. Yo me formé en internet, con el conocimiento que de forma desinteresada y gratuitamente pusieron a disposición miles de personas que no conozco personalmente y muchos de los cuales solo sé sus alias. Así se distribuye el conocimiento hoy, con amigos, familiares y también con desconocidos a través de la red gracias a esas historias, textos y evidencia que nos comparten de manera constante. Además si hablamos de derechos de autor y el “fin de la realidad” como señala este subtítulo del libro, me parece menester también mencionar cómo el copyright en ocasiones es utilizado para esconder la realidad. ¿Qué quiero decir con esto? En 2021, en medio de las protestas que se volcaron en las calles de Estados Unidos por el movimiento Black Lives Matter, un policía que fue increpado por un grupo de manifestantes, al notar que estaba siendo grabado, procedió a sacar su teléfono y poner a todo volumen una canción de Taylor Swift[127]. Hay que admitir que su jugada fue cuanto menos ingeniosa, porque claro, si uno sube un video a las principales redes sociales utilizando una canción con derechos de autor, las plataformas proceden a prohibir la carga del video o a cortar la transmisión en vivo.

 

Haz click aquí para leer el siguiente capitulo 👉 
 


Haz click aquí para volver al Índice 🔍 


[116] The Washington Post’s artificial intelligence system, H. (2016). Rep. Darrell Issa elected to represent California 49th Congressional District. The Washington Post. Visto el 1° de octubre del 2021, en https://www.washingtonpost.com/news/politics/2016-race-results-california-house-49th.

[117] Video: la presentadora de un noticiero de TV que no es un ser humano y asombra al mundo. Clarin.com. (2020). Visto el 5 de octubre del 2021, en https://www.clarin.com/internacional/video-presentadora-noticiero-tv-humano-asombra-mundo_0_hQNlAYKFz.html.

[118] Facundo Cajén. (2022). Global Shapers and Kai-Fu Lee at Davos 2022 | World Economic Forum [Video]. YouTube. Visto el 1 de junio del 2022, en https://www.youtube.com/watch?v=ghSg5jJyQyQ.

[119] Trenholm, R. (2021). Nvidia faked part of a press conference with a CGI CEO. CNET. Visto el 14 de agosto del 2022, en https://www.cnet.com/tech/gaming/nvidia-faked-part-of-a-press-conference-with-a-cgi-ceo.

[120] Barrabi, T. (2023). AI-generated photo of fake Pentagon explosion sparks brief stock selloff. New York Post. Visto el 24 de mayo del 2023, en https://nypost.com/2023/05/22/ai-generated-photo-of-fake-pentagon-explosion-sparks-brief-stock-selloff.

[121] VALL-E. (2023). Github.io. Visto el 25 de enero del 2023, en https://valle-demo.github.io.

[122] Verma, P. (2023). Pensaron que sus seres queridos les pedían ayuda: era una estafa con inteligencia artificial. Infobae. Visto el 10 de marzo del 2023, en https://www.infobae.com/wapo/2023/03/08/pensaron-que-sus-seres-queridos-les-pedian-ayuda-era-una-estafa-con-inteligencia-artificial.

[123] Cuarteto de Nos (2009). Breve descripción de mi persona. Letras.com. Visto el 29 de enero del 2023, en https://www.letras.com/cuarteto-de-nos/1512800.

[124] A promising step forward on disinformation. (2021). Microsoft. Visto el 25 de marzo del 2023, en https://blogs.microsoft.com/on-the-issues/2021/02/22/deepfakes-disinformation-c2pa-origin-cai.

[125] Technology and media entities join forces to create standards group aimed at building trust in online content. (2021). Microsoft. Visto el 25 de marzo del 2023, en https://news.microsoft.com/2021/02/22/technology-and-media-entities-join-forces-to-create-standards-group-aimed-at-building-trust-in-online-content.

[126] Ctrl Shift Face. (2019). Bill Hader channels Tom Cruise [DeepFake] [Video]. Visto el 12 de julio del 2021, en https://www.youtube.com/watch?v=VWrhRBb-1Ig.

[127] Spangler, T. (2021). Cop Plays Taylor Swift Song to Block BLM Protest Video From YouTube. Variety. Visto el 24 de marzo del 2023, en https://variety.com/2021/digital/news/police-taylor-swift-copyright-youtube-blm-1235010756.