Dat technologie vooruitstrevend is, weten we allemaal. Toch blijf ik me, me beseffende dat ik nu enorm oud klink, keer op keer verbazen over wat tegenwoordig allemaal wel niet mogelijk is. Zo stuitte ik zo’n week geleden op een filmpje op YouTube, waarin duidelijk werd dat het welbekende Fake news een heel nieuw en potentieel gevaarlijk pad is ingeslagen.1 “Fake news on steroids”, zoals Jeremy Khan, technisch reporter bij Bloomberg, het, mijns inziens terecht, verwoordde.2 Khan heeft het over de opkomst van zogeheten deepfakes, die een gevaar voor niet alleen onszelf, maar ook voor onze democratie zouden kunnen vormen.
Wat zijn deze deepfakes, hoe werken ze en waarom vormen ze zo’n gevaar? In deze blog zal ik op deze drie vragen nader ingaan.

Deepfakes, wat zijn het?
Het begrip deepfake vloeit voort uit een samenvoeging van deep learning en fake, waarbij deep learning een manier van automatisch/machinaal leren inhoudt dat complexere taken en transformaties aankan, waaronder diepgaandere patroonherkenning. Deze patroonherkenning is ook bij deepfakes een belangrijk element. Hoe ik het zie, kunnen deepfakes het beste worden omschreven als gemanipuleerd beeldmateriaal, waarbij iemands gelaat, gelaatstrekken, houding en bewegingen kunnen worden gepresenteerd op een zodanige manier dat het lijkt alsof degene die in beeld wordt gebracht, op een plaats is waar diegene nooit is geweest, of woorden uitspreekt die diegene nooit in de mond heeft genomen.
Het fragment dat ik het meest ben tegengekomen en welke illustratief is voor wat je je hierbij moet voorstellen, is een video waarin acteur en comedian Jordan Peele de stem van voormalig president Obama imiteert, terwijl zijn gezichtsuitdrukkingen en mondbewegingen worden gesynchroniseerd met die van Obama. Hierdoor lijkt het alsof Obama de woorden zelf heeft uitgesproken. Kijk en oordeel zelf.3
Een ander, komischer voorbeeld, is dat van iemand op Reddit die graag Nicholas Cage wilde zien in films waarin hij nooit gespeeld heeft. Het resultaat is een reeks komische filmfragmenten met daarin Cage die zich waant in de hoedanigheid van verscheidene acteurs en hier en daar zelfs een vrouwenrol meepikt.4
Een laatste, meer onschuldig, doch mogelijk wel fraudegevoelig voorbeeld is een foto of afbeelding, die via patroonherkenning omgezet kan worden in een heuse Monet of van Gogh. Zie die afbeelding hieronder ter illustratie.

Hoe werkt het?
Op dit moment zijn veel van deze fragmenten wellicht nog wel van echt te onderscheiden, maar dit zal steeds lastiger worden doordat de achterliggende technologie bij deepfakes werkt aan de hand van verschillende algoritmes die zichzelf als het ware constant leren te bedriegen. De algoritmes blijven zich almaar ontwikkelen door continu te leren op welke manier de werkelijkheid het beste kan worden nagebootst. Dit gebeurt simpel gezegd aan de hand van het “voeren” van honderden tot duizenden verschillende foto’s en video’s aan het algoritme. Het algoritme begint vervolgens patronen in de input te herkennen, zoals gelaatstrekken, vormen en bewegingen, en reconstrueert deze uiteindelijk op het gewenste target.

De meest recente en verstrekkende technologie die ik ben tegengekomen werd gepresenteerd tijdens SIGGRAPH, een jaarlijkse conferentie omtrent computer graphics, en is onderzocht door een tiental computerprofessionals. De gepresenteerde technologie maakt het mogelijk om bijvoorbeeld enkel gezichtsuitdrukkingen of enkel de bewegingen over te zetten. Daarnaast is het zelfs mogelijk om gezichtsbewegingen- en uitdrukkingen, houding en oogknipperingen onafhankelijk van elkaar, of juist gezamenlijk te editen, om zodoende tot een realistisch resultaat te komen dat maar moeilijk van echt te onderscheiden is.5


Een voorbeeld van hoe de techniek werkt. De gelaatstrekken (de open mond, de opgetrokken wenkbrauwen) van Barack Obama worden door het algoritme herkend en omgezet tot de bijbehorende trekken van Ronald Reagan.

Waar schuilt het gevaar?
Daarnaast is het natuurlijk zo dat, hoewel de software voor iets komisch of anderszins positiefs kan worden gebruikt, zoals we in het geval van Nicholas Cage gezien hebben, er genoeg scenario’s denkbaar zijn waarin serieuze schade kan worden aangericht aan de hand van een dergelijk gemanipuleerd videofragment.
In december van vorig jaar postte een gebruiker met de naam “DeepFakes” realistisch uitziende beelden van beroemdheden in pornografische content. De gezichten van de pornoactrices werden hierbij verruild voor die van celebrities als Emma Watson of Gal Gadot.
Daarnaast stelde de Reddit-gebruiker de applicatie die hij hiervoor gebruikte, FakeApp, vrij beschikbaar. Hoewel zowel Reddit als pornowebsites dit soort content vrij snel geband hadden, was de technologie publiekelijk toegankelijk en zijn er genoeg tutorials te vinden over hoe het werkt en hoe je zelf zo’n gefingeerd filmpje in elkaar zou kunnen zetten.6
Niet alleen bekende personen zijn het slachtoffer van dit soort malafide praktijken, ook doorsnee burgers worden getroffen door kwaadwillende sexual predators, zoals Noelle Martin, zelf één van vele slachtoffers, verbitterd duidelijk maakt in haar Ted talk in Perth.7

Andere problemen kunnen zich voordoen in bijvoorbeeld scenario’s waarin fake beeldmateriaal leidt tot burgerlijke of politieke disinformatie via onder meer social media. De veelbesproken vermeende beïnvloeding van de Amerikaanse verkiezingen zal hiermee eenvoudig nog een stapje verder kunnen gaan. Of nog erger, een scenario waarin een wereldleider verkondigt de oorlog te verklaren aan een ander land. Voordat goed en wel duidelijk is dat het om een fake gaat, heeft het andere land wellicht al tegenmaatregelen genomen en raketten gelanceerd.

Een ander, meer bewijsrechtelijk probleem is dat men niet alleen eenvoudiger fakes kan maken (en indienen als bewijs), men zal ook eenvoudiger kunnen stellen dat beeldmateriaal waarin iets illegaals wordt gedaan of gezegd, gefabriceerd, ofwel fake is, des te meer in gevallen waarbij er slechts één opname is gemaakt. Denk bijvoorbeeld aan het omstreden “grab ‘m by the pussy”-fragment van Donald Trump. Hiervan is slechts een enkele opname bij het publiek bekend. In eerste instantie verontschuldigde Trump zich weliswaar voor zijn woorden, maar kwam hier later op terug door te stellen dat er gerommeld was met het geluid. Kortom, de bewijslevering wordt vreselijk verhinderd doordat niet meer met zekerheid gezegd kan worden of het bewijs daadwerkelijk echt is.

Er zal een heuse wapenwedloop ontstaan tussen aan de ene kant de ontwikkelaars van deze fakes en de door hen gebruikte vernuftigheden en aan de andere kant de techniek om de fakes van de werkelijkheid te kunnen onderscheiden. Beleid en regelgeving vanuit de good guys zijn hierbij van groot belang, maar updaten daarvan neemt vaak langer in beslag dan de snelheid waarmee technologie zich ontwikkelt. Die vooruitgang zal voor moeten worden gebleven door te anticiperen op hoe deze ontwikkelingen verlopen. Het herkennen van deepfakes zal namelijk steeds lastiger worden naarmate de hiervoor genoemde wapenwedloop uitvalt in het voordeel van kwaadwillende partijen.

Ook positief?
Kleven er dan alleen maar nadelen aan deze opkomst van “Fake news on steroids”? Dat zeker niet. De technologie achter de deepfakes zou onder meer voordelig kunnen zijn voor bijvoorbeeld nagesynchroniseerde films (zoals te zien in de video van SIGGRAPH) of een oplossing kunnen bieden voor mensen die door een ziekte hun stem zijn kwijtgeraakt. Dit laatste wordt momenteel al mogelijk gemaakt middels het programma Lyrebird, dat deep learning gebruikt voor patroonherkenning in stemgeluiden. Zo is Lyrebird recentelijk een samenwerking aangegaan met de ALS Association, om samen met hen personen met ALS te helpen door het creëren van een digitale kopie van hun eigen stem. Hiermee wordt ervoor gezorgd dat deze mensen, zelfs nadat ze mogelijk hun stem verloren hebben, kunnen blijven communiceren met hun eigen unieke stem.8 Het is ook mogelijk om zelf je eigen stem te laten recreëren als je een account aanmaakt, dus mocht dat je interessant lijken, bezoek een keer de website.

Samenvatting en conclusie
De tijden van de simpele gezichtsimport van Jib Jab en de al iets geavanceerdere faceswap van Snapchat zijn duidelijk al een tijdje voorbijgestreefd. Een tijdperk is aangebroken waarin we nog minder zeker kunnen zijn van wat we voor ons zien. Deepfakes, steeds moeilijker van echt te onderscheiden gemanipuleerd beeldmateriaal, is namelijk in opkomst en de technologie achter deze fakes lijkt, gezien de vele online video’s en de aanwezige tutorials, ook voor het gemiddelde publiek redelijk goed toegankelijk te zijn. Deze, door Jeremy Khan als “Fake news on steroids” omschreven techniek levert, naast maatschappelijke en informatieve perikelen, ook bewijsrechtelijke problemen op, die slechts voorkomen kunnen worden door te anticiperen op de ontwikkelingen die deze technologie zal maken. Op deze manier kunnen deepfakes op tijd herkend worden en kan de wapenwedloop in het voordeel van de good guys uitvallen.
Gelukkig kleven er ook voordelen aan het gebruik van deep learning, in gevallen van onder meer stemverlies door de ziekte ALS, waarvoor Lyrebird uitkomst kan bieden.

Remon de Vries

P.S. Voor de liefhebber heb ik hieronder nog een link toegevoegd naar het YouTubekanaal Derpfakes, voor allerhande komische deepfakes (SFW):
https://www.youtube.com/channel/UCUix6Sk2MZkVOr5PWQrtH1g

  1. ‘Deepfake Videos Are Getting Real and That’s a Problem | Moving Upstream’, Wall Street Journal YouTube, 15 oktober 2018, online via: https://www.youtube.com/watch?v=Ex83dhTn0IU.