Detección de imágenes DeepFake con Vision Transformers (ViT)
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
La accesibilidad a estos modelos ha promovido en gran medida la creación y distribución de contenido multimedia manipulado. La sofisticación de estos sistemas, combinada con la facilidad de uso y el acceso prácticamente a unos cuantos clics, ha permitido generar imágenes y videos hiperrealistas, que pueden emplearse tanto para el entretenimiento y la producción artística como también para fines poco éticos. Ejemplos particularmente preocupantes incluyen la creación de videos pornográficos falsos, en los cuales se utilizan imágenes cotidianas de una víctima para generar cuerpos desnudos hiperrealistas que luego son explotados comercialmente sin el conocimiento ni consentimiento de la persona afectada; la divulgación de noticias falsas o incluso la suplantación de identidad.
Este avance conlleva retos éticos y sociales, porque el uso indebido de estas tecnologías podría propagar desinformación, crear sesgos o inclusive vulnerar la integridad de comunidades enteras. En particular, este trabajo aborda el uso de Vision Transformers (ViT), un modelo de deep learning, con la finalidad de contribuir a la creación de herramientas que adviertan sobre la autenticidad del material. Esto es crucial para un consumo responsable y seguro de la información.
Por ello, el presente trabajo se centra en evaluar Vision Transformers (ViT) como método de clasificación de imágenes reales frente a falsas, conocidas también como DeepFakes, analizando sus fortalezas, limitaciones y vías de mejora. Con ello se busca contribuir a soluciones más efectivas que promuevan un uso ético y confiable de los medios digitales.