Los deepfakes son un problema para los medios, los ciudadanos y hasta para la democracia: videos que parecen completamente reales donde una persona afirma alguna barbaridad. Son la fake news perfecta. O casi perfecta, ya que informáticos de la Universidad de California en Riverside lograron detectar expresiones faciales manipuladas en los vídeos de deepfake con mayor precisión que los métodos actuales más avanzados.
El método también funciona tan bien como los actuales en los casos en los que se ha intercambiado la identidad facial, pero no la expresión. Este logro acerca a los investigadores al desarrollo de herramientas automatizadas para detectar vídeos manipulados que contengan propaganda o desinformación.
Los avances en los softwares de edición de vídeo han facilitado el cambio de la cara de una persona por otra y la alteración de las expresiones de los rostros originales. Dado que personas sin escrúpulos utilizan vídeos manipulados para influir en las opiniones políticas o sociales, muchos consideran que la capacidad de identificar estos vídeos es esencial para proteger las democracias libres. Existen métodos que pueden detectar con una precisión razonable cuándo se han intercambiado las caras. Pero identificar rostros en los que sólo se han cambiado las expresiones es más difícil y, hasta la fecha, no existe ninguna técnica fiable.
«Lo que hace que el área de investigación de deepfakes sea más desafiante es la competencia entre la creación y la detección y prevención de deepfakes, que será cada vez más feroz en el futuro. Con más avances en los modelos generativos, los deepfakes serán más fáciles de sintetizar y más difíciles de distinguir de los reales», afirma el coautor del artículo, Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática de la Facultad de Ingeniería Bourns.
El método de la UC Riverside divide la tarea en dos componentes dentro de una red neuronal profunda. La primera rama discierne las expresiones faciales y alimenta información sobre las regiones que contienen la expresión, como la boca, los ojos o la frente, en una segunda rama, conocida como codificador-decodificador. La arquitectura codificador-decodificador se encarga de la detección y localización de la manipulación.
El marco, denominado Detección de Manipulación de la Expresión, o EMD, puede detectar y localizar las regiones específicas de una imagen que han sido alteradas.
«El aprendizaje multitarea puede aprovechar las características prominentes aprendidas por los sistemas de reconocimiento de la expresión facial para beneficiar el entrenamiento de los sistemas convencionales de detección de la manipulación. Este enfoque consigue un rendimiento impresionante en la detección de la manipulación de las expresiones faciales», afirma el estudiante de doctorado Ghazal Mazaheri, que dirigió la investigación.
Los conjuntos de datos de referencia para la manipulación facial se basan en el intercambio de expresiones e identidades. Uno de ellos transfiere las expresiones de un vídeo de origen a un vídeo de destino sin cambiar la identidad de la persona en el vídeo de destino. El otro intercambia dos identidades en un solo video.
Los experimentos realizados con dos conjuntos de datos de manipulación facial que suponen un reto muestran que EMD tiene un mejor rendimiento en la detección no sólo de las manipulaciones de expresiones faciales, sino también de los cambios de identidad. EMD detectó con precisión el 99% de los vídeos manipulados.
El artículo se titula «Detection and Localization of Facial Expression Manipulations» y se presentó en la 2022 Winter Conference on Applications of Computer Vision.