Deepfakes og Deep Video Portraits - Hverjar eru það og hver er munurinn?

Þú veist eflaust hvað Deepfake er, en þú veist kannski ekki hvað það heitir eða hvað það þýðir í raun. Þú veist kannski ekki að það eru til mismunandi tegundir tækni sem geta búið til falsa myndbönd og raddir.

Við þekkjum öll „ljósmyndir“ og hversu hömlulaus þær hafa orðið. Við þekkjum einnig myndbandaáhrifin (VFX) og tæknibrellur sem hafa verið notaðar í kvikmyndum í áratugi. En nýr tími á samsettum fjölmiðlum er að þakka „Deepfakes.“

Deepfake og Deep Video Portrait tækni eru tvær svipaðar en ólíkar aðferðir sem notaðar eru í kvikmyndum í Hollywood, YouTube myndböndum og já, klámi. En hver er þessi tækni raunverulega og hvernig virkar þetta allt?

Ef þú hefur ekki enn séð myndband þar sem andlit Nicolas Cage hefur verið lagt ofan á annan kvikmyndaleikara, þá hefur þú næstum örugglega séð einn af mörgum „síum“ eða „grímum“ samfélagsmiðla sem getur breytt þér í kött, bættu kokki við húfu að höfðinu, eða gerðu þig að einhyrningi.

Kannski hefur þú séð myndband BuzzFeed þar sem grínistinn og impressjónistinn Jordan Peele sýnir hvernig andlit einhvers (í þessu tilfelli, fyrrverandi forseti Barack Obama) í myndbandi er hægt að vinna með það svo að það virðist vera að segja eitthvað sem það gerði aldrei.

Kannski hefur þú jafnvel heyrt um að Wonder Woman stjarnan Gal Gadot hafi talist birtast í fullorðins myndbandi, sem var falsað af Reddit notanda að nafni „deepfakes.“ Andlit Gadot var lagt á líkama klámstjörnu í desember síðastliðnum, sem varð eitt af þeim fyrstu sem mikið var fjallað um Deepfakes.

Svo hvað er „Deepfake“?

Í kjarna Deepfakes er það sem þú gætir hugsað sem „andlitsskiptasamskipti“.

Deepfake er myndbandsaðstoð við myndbandið sem er búið til með því að taka fjölda (oftast hundruð eða þúsundir) mynda af heimildarmanni. Hægt er að hala niður þessum myndum frá ýmsum áttum, svo sem Instagram, viðkomandi, Facebook, Snapchat eða jafnvel Google myndaleit).

Deepfake AI hugbúnaðurinn kortleggur andlit heimildamyndanna og býr til 3-D andlitslíkan byggt á myndunum sem það er gefið. Líkanið kortleggur mörk og eiginleika andlits leikarans:

Heimild: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 eftir Cole Murray

Hugbúnaðinum er einnig gefið upptökumyndband, sem inniheldur markmiðsandlit sem notandinn vill skipta um. AI kortleggur einnig andlit viðkomandi í myndbandinu og býr aftur til 3-D kortlagt líkan.

Lektor við CMU, Simon Lucey, prófessor, notar sjálfan sig sem dæmi til að sýna fram á andlitskortagerðarhugbúnað sinn sem hannaður var fyrir online smásöluverslun með gleraugum. Trúnaður: Simon Lucey / CMU

Þetta er þar sem AI byrjar að passa upprunamódelið við marklíkanið. Það „lærir“ andlitin í gegnum myndirnar sem það hefur verið gefið (þjálfunargögn), sem líta út svolítið svona:

Dæmi um líkamsrækt í líkamsrækt - Elon Musk til Jeff Bezos eftir Adi Robertson, Heimild: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

Síðan leggur AI ofan á myndaða 3-D andlitið frá upptökum myndunum yfir þrívídd líkans vídeósins og gefur frá sér myndband þar sem hreyfingar andlits, munns, augna osfrv passa saman og vinna innan marka frumlegt andlit.

Uppruni Deepfake er röð kyrrmynda og afrakstur Deepfake er myndband með andliti í staðinn, svo sem þessi dæmi:

Hvernig er það frábrugðið Deep Video Portrait?

Munurinn á Deepfake og Deep Video Portrait (DVP, fyrir stuttu máli) liggur í tveimur lykilgreiningum:

  1. Framleiðslumyndbandið frá DVP kemur ekki í stað andlitsins, hann notar aðeins aðgerðirnar
  2. Uppruni DVP er upprunninn frá leikara í beinni aðgerð en ekki frá einstökum ljósmyndum.

DVP skiptir ekki um andlit. Það er andlitsmeðferð. Vídeóbrúðuleikari.

Tengt myndbandið fyrr í þessari grein sem sýnir Obama tala um falsa myndbönd er dæmi um DVP, ekki djúpsteypa. Það er til leikari sem andlitið er kortlagt og vegna þess að þú ert ekki að skipta um mark andlit heldur gerir það að verkum að markmið andlitsins hreyfist getur útkoman verið enn trúverðugari en ljósmynd sem byggir á djúpum myndum.

Höfundar DVP geta gert hluti eins og að láta markið blikka, opna munninn, hækka augabrúnirnar og snúa höfðinu til hliðar út frá hreyfingum heimildarleikarans. Deepfakes geta aftur á móti ekki villst frá hreyfingum upprunalegu myndbandsins. Þetta er ástæðan fyrir því að DVP er áreiðanlegra en djúpsteypa.

Þetta dæmi útskýrir nánar hvernig þessi „andlitsfang og tækni endurvirkni“ virkar:

Snapchat eða Instagram síuvél er DVP, ekki Deepfake. Þetta er vegna þess að það ert þú (markmiðið breytir ekki um andlit), en andlit þitt hefur verið kortlagt og appið einfaldlega yfirborð eitthvað yfir eigin andlit:

Raddsvindl og djúp myndportrett

Það er til önnur tegund af fölsuðu efni sem nýlega hefur orðið betra og fáanlegt - radd kynslóð.

Á Adobe Max Creativity ráðstefnunni 2016, sýndi Adobe fram á VoCo: hljóð föruneyti sem getur hjálpað notendum að láta fólk segja hvað sem það vill. Hugsaðu um texta-til-tal, en byggð á raunverulegri rödd einhvers.

Að sögn fyrirtækisins getur 20 mínútna hlustunarinntak gert VoCo kleift að senda frá sér raunhæft sönglag sem hljómar eins og upptökin. Útgangurinn er búinn til í tölvunni sem keyrir hugbúnaðinn.

Adobe VoCo hefur í raun ekki heyrst frá því árið 2016, ef til vill eftir að áhyggjur af persónuvernd og persónuupplýsingum voru bornar upp. Það var kynnt á „hugmyndavettvangi“ sem ekki var tilkynnt sem ný vara. Þetta skapaði áhuga, spennu og umræður en bauð enga sérstaka væntingu um losun.

Nú þegar hugmyndin og tæknin eru til, svo náttúrulega, hafa önnur fyrirtæki gefið út sína eigin útgáfu af raddskapandi tækni. Lyrebird hefur sent frá sér þjónustu sem býr til „vocal avatar“ fyrir þig byggð á aðeins 30 setningum innsláttar (á móti um það bil 20 mínútna gögnum sem þarf fyrir VoCo).

Þó að VoCo hafi krafist staðbundinna tölvuauðlinda til að framleiða afköst sín, notar Lyrebird stigstærð skýjaauðlindir, sem gerir framleiðsla myndunar verulega hraðar. Lyrebird krefst einnig 30 sértækra setninga, á móti 20 mínútna grunn talmynstri, sem gætu dregið úr skopstælingum og öðrum varnarleysi.

Samsett með DVP getur raddfalsa aukið trúverðugleika. Þetta er vegna þess að þú ert ekki að hlusta á svip af einhverjum sem gæti gefið frá sér ósannindi, heldur heyrt miklu nánari framkomu út frá eigin rödd markmannsins.

Hybrid tækni

FaceSwap er forrit sem gerir þér kleift að sameina andlitsskiptingu á Deepfake, en í rauntíma, með þínum eigin tjáningum sem brúða andlit annars aðila. Það sameinar Deepfake og DVP.

Niðurstaða

Þessi tækni mun halda áfram að bæta. Þó að mörg notkun sé skemmtileg og duttlungafull eru áhrifin sem þessi tækni hefur mikil.

Deepfakes og DVPs munu án nokkurs vafa hafa víðtæk áhrif á skoðanir okkar á veruleika, trausti og friðhelgi einkalífsins. Hins vegar er umræða um siðareglur, málefni og samfélagsleg áhrif (góð og slæm) langt utan gildissviðs þessarar greinar.

Í bili er eina lausnin að (halda áfram að) vera efins um allt sem þú sérð og heyrir.

Ljósmynd af Mikes Myndir frá Pexels