Credi a ciò che vedi?

di Giulia Boato e Francesco De Natale

Professoressa associata e professore ordinario presso il Dipartimento di Ingegneria e Scienza dell'Informazione dell’Università di Trento.

English version

La diffusione di strumenti di manipolazione di immagini e video facilmente accessibili a un numero sempre più vasto di persone ha fatto crescere, negli ultimi anni, i problemi legati alla verifica di autenticità e alla credibilità dei dati multimediali.

Nell’era dell’informazione, il noto detto “credo a ciò che vedo” non può più essere considerato un paradigma valido: oggi, quando si osserva un contenuto multimediale, non è affatto scontato il fatto di essere davanti a qualcosa di autentico e reale, quanto piuttosto al frutto di una rielaborazione o addirittura di una sintesi artificiale. Per questo è fondamentale disporre di tecniche che consentano di rivelare possibili alterazioni dei contenuti, specie quando queste sono realizzate in maniera talmente accurata da non essere percepibili ad occhio nudo.

L’analisi forense applicata alla multimedialità si occupa esattamente di questo. L’idea è quella di produrre algoritmi il più possibile automatizzati e affidabili in grado di scoprire una serie di tracce nascoste nei dati, che a loro volta consentano di determinare la sorgente dell’informazione (ad esempio quale modello di fotocamera è stato usato nell’acquisizione o addirittura quale specifico dispositivo), o eventuali elaborazioni e modifiche effettuate sui dati a valle dell’acquisizione come manipolazioni, cancellazioni o fotomontaggi.

I progressi ottenuti nell’ambito della multimedia forensics negli ultimi decenni sono estremamente rilevanti, ma vanno di pari passo con i progressi delle tecniche di generazione e manipolazione di immagini e video, in una sorta di sfida continua. In questo senso, un potente strumento nelle mani dei manipolatori è oggi costituito dall’intelligenza artificiale (AI - Artificial Intelligence). Attualmente sono disponibili tecniche basate su AI capaci di generare immagini e video falsi di eccezionale qualità, senza la necessità di grandi competenze da parte dell’utilizzatore.

Studi recenti dimostrano come la generazione di visi umani basata su tecnologie di AI sia in grado di produrre immagini che il nostro cervello non riesce a distinguere da visi reali. Queste tecnologie sono alla base dei cosiddetti deepfake, video in cui una persona viene inserita in situazioni mai avvenute nella realtà. Vittime abituali di questi nuovi strumenti sono le persone maggiormente popolari (politici, attori, sportivi, ecc.), sia per l’impatto e la visibilità ottenibili dalla diffusione dei video, sia per il fatto che di tali persone sono disponibili grandi moli di dati e immagini, necessarie ai motori di intelligenza artificiale in fase di addestramento.

È così possibile creare clip estremamente realistiche in cui alla vittima vengono fatte dire frasi completamente inventate, sovrapponendo espressioni facciali impostate dal creatore o semplicemente copiate da un modello umano (un attore).

Tutto ciò pone domande cruciali rispetto al confine esistente fra mondo reale e mondo virtuale e alla possibilità, per un utente umano, di distinguere tra i due. Per evitare che tali metodologie possano essere utilizzate in maniera non controllata, l’ingegneria forense studia sempre nuovi metodi di difesa, ideando tecniche via via più sofisticate.

Di questo ci occupiamo con il team Multimedia Signal Processing and Understanding Lab (MMLab) del Dipartimento di Ingegneria e Scienza dell'Informazione UniTrento, in particolare all’interno dei progetti Premier (PREserving Media trustworthiness in the artificial Intelligence Era ) e Unchained (Uncovering media manipulation chains through container and content detectable traces). Da un lato studiamo come distinguere dati generati o modificati con AI da media reali autentici (ad esempio rilevando che è stato eliminato un soggetto da un video con tecniche di inpainting), dall’altro affrontiamo un ulteriore aspetto fondamentale che è la diffusione di tali dati su social media e canali web.

La condivisione di fake via social media ha due impatti principali: da un lato genera una diffusione rapidissima, virale e poco controllabile dei contenuti, e dall’altro rischia di far perdere traccia della sorgente delle informazioni manipolate, a seguito delle elaborazioni insite nei passaggi da un social all’altro. Nasce quindi la necessità di ricostruire la sequenza di passaggi subiti da un contenuto multimediale durante il suo ciclo di vita, focus del progetto Unchained.

La capacità di affrontare problemi quali il recupero di informazioni riguardanti il ciclo di vita del dato multimediale in termini di provenienza, manipolazioni e condivisioni subite, rappresenterebbe un supporto fondamentale per i servizi di intelligence, per la polizia postale e per tutti gli attori preposti a tracciare contenuti maliziosi o addirittura illegali. Questi strumenti potranno aiutare a garantire la veridicità dei contenuti multimediali, ripristinando il tradizionale concetto di affidabilità legato all’informazione visiva.

Il progetto Unchained (Uncovering media manipulation chains through container and content detectable traces) è finanziato dall’agenzia governativa del Dipartimento della Difesa degli Stati Uniti Darpa (Defense Advanced Research Projects Agency), attraverso un bando sull’utilizzo dell’intelligenza artificiale nel contrasto ai raggiri (AI Explorations Reverse Engineering Deceptions). L’iniziativa è partita a ottobre 2020 e avrà una durata di 18 mesi. Assieme all’Ateneo di Trento, è impegnata nella ricerca e la coordina l’Università degli Studi di Firenze.
Il progetto Premier (PREserving Media trustworthiness in the artificial Intelligence Era) è finanziato dal MIUR - Ministero Istruzione Università e Ricerca nell’ambito dei Progetti di rilevante interesse nazionale (Prin), è partito nel 2020 e si concluderà nel 2023. L’Università di Trento è partner dello studio accanto all’Università di Napoli - Federico II, l’Università di Firenze e l’Università di Milano. La ricerca è coordinata dall’Università di Siena.
Giulia Boato è referente UniTrento per entrambe le iniziative.

Things Are Not What They Appear To Be
The line between the real and virtual world is getting thinner and thinner

by Giulia Boato and Francesco De Natale
Associate Professor and Full Professor at the Department of Information Engineering and Computer Science of the University of Trento.

Image and video manipulation tools have become so widespread and affordable that, in recent years, verifying the authenticity and credibility of digital data is not always an easy thing to do.

Today, in the information age, when you look at multimedia content, that content may not be authentic and real, but rather the result of manipulation or even of artificial synthesis. That is why we need techniques that allow us to reveal possible manipulations, especially when these are so accurately made that they the naked eye is unable to spot them.

Multimedia forensics deals exactly with this problem. Its goal is to create reliable and automatic algorithms that are capable of detecting a series of traces hidden in the data which, in turn, lead to the source of the information (for example which camera model was used to acquire an image or even which specific device), or to any processing and modifications carried out on the data after the acquisition such as manipulations, deletions or photomontages.

Multimedia forensics has made great strides in recent decades, but they go hand in hand with advances in image and video generation and manipulation techniques, in a sort of endless challenge. In this sense, today, artificial intelligence (AI) is a powerful tool for multimedia manipulation. Currently, AI-based techniques are used to generate fake images and videos of exceptional quality, and they do not require particular skills.

Recent studies have shown that our brain cannot tell the difference between human faces generated by AI technologies and real faces. These technologies are used to create so-called deepfakes, videos that make a person appear to say or do something they did not. Usually, the victims of these videos are politicians, actors, sportspersons, etc., both for the impact and visibility that can be obtained from their dissemination, and because AI engines need large amounts of data and images in the training phase, and those are more available for celebrities and public figures.

In this way it is possible to create extremely realistic clips in which the victim is made to say completely made-up phrases, by superimposing facial expressions set by the creator or simply copied from a human model (an actor).

All this raises questions regarding the line that separates the real and the virtual world and the ability, for humans, to distinguish between the two. Forensic engineering is constantly looking for new defense methods, devising increasingly sophisticated techniques, to prevent such methodologies from being used in an uncontrolled manner.

That is what our team does at the Multimedia Signal Processing and Understanding Lab (MMLab) of the Department of Information Engineering and Computer Science of UniTrento, and in particular within the Premier (PREserving Media trustworthiness in the artificial Intelligence Era) and Unchained (Uncovering media manipulation chains through container and content detectable traces) projects. On the one hand, we study how to distinguish AI generated or manipulated data from authentic, real media (for example, when something has been deleted from a video with inpainting techniques), on the other we address another fundamental aspect, which is the dissemination of such data on social media and the web.

The sharing of fake content via social media has two main consequences: one is that fake information spread rapidly, virally and in a way that is difficult to control; the other is that, when contents are processed to be re-shared from one social network to another it becomes very difficult to find the source of the manipulated information. That is why we need to reconstruct the processing chain of the multimedia data, which is the focus of the Unchained project.

Solving issues like the retrieval of information regarding the life cycle of multimedia data in terms of source, manipulation and sharing, would be of great help to intelligence services, the police and all the agencies responsible for tracing harmful or illegal content. These tools will help ensure the authenticity of multimedia content, by restoring the reliability of the visual information.

[Traduzione Paola Bonadiman]

The project Unchained (Uncovering media manipulation chains through container and content detectable traces) received funding from Darpa (Defense Advanced Research Projects Agency), within a programme that aims to use artificial intelligence to fight fraud (AI Explorations Reverse Engineering Deceptions). The project started in October 2020 and will continue for 18 months. The University of Firenze participates, as coordinator, together with UniTrento.
Premier (PREserving Media trustworthiness in the artificial Intelligence Era), a project funded by the Ministry of Education, Universities and Research (MIUR) as a Research project of national relevance (Prin), started in 2020 and will continue until 2023. The University of Trento is partner in the project with the Universities of Napoli Federico II, Firenze and Milan. This research project is coordinated by the University of Siena.
Giulia Boato is the contact person at UniTrento for the two projects.

Credi a ciò che vedi?

Il confine tra reale e virtuale è sempre più sottile