Óleyst rannsóknarvandamál miðað við raunverulegan ógnarmódel

-

Samhengi: Þessi bloggfærsla er byggð á eldingarræðu sem ég hélt á Partnership on AI All-Partners fundinum í nóvember 2018 og á ráðstefnu Puerto Rico AGI í janúar 2019.

Varúð: Ég er að tjá hugsanir í persónulegri getu, ekki sem fulltrúi vinnuveitandans míns.

-

Ég tel persónulega að andstæðar dæmi séu mjög þess virði að kynna sér og ættu að vekja mikla áhyggjuefni. En réttlætingin fyrir því að nákvæmlega þau eru áhyggjufull eru mér eins og allt of bókstafleg.

Ég held að margt af ruglinu stafi af því að rugla saman óleystum rannsóknarvandamáli með raunverulegri ógnarmódel.

Ég mun byrja á því að útskýra hvað ég meina með andstæðum dæmum. Ég mun ganga í gegnum eina réttlætingu sem ég sé oft endurtekin (ekki aðeins af blaðamönnum, heldur einnig í Inngangshluta margra erinda um þetta efni) - nefnilega „fólk gæti sett límmiða á stöðvunarskilti til að hrapa bíla“ - og ganga í gegnum snögga ógnarmódelgreining, til að sýna hvers vegna ég held að þetta sé ekki sannfærandi hvatning ef það er tekið bókstaflega. Síðan mun ég bregðast við nokkrum réttlætingum sem mér finnst meira sannfærandi, með því að ramma inn dæmigerð andstæðingur smáöryggisdæma sem óleyst rannsóknarvandamál, með mjög raunveruleg (en minna bein) tengingu við raunveruleg vandamál.

Hvað eru andstæðar dæmi?

Andstæðar dæmi eru aðföng sem eru hönnuð til að valda því að vélanámslíkan gerir mistök [Goodfellow o.fl. 2017].

Algeng (en ekki nauðsynleg) viðbótarforsenda er að þessi aðföng séu smíðuð með því að gera litlar breytingar á hreinum inntaki prófunar: þessi eru stundum kölluð „epsilon-ball adversarial dæmi“ eða „small-truflun andstæðu dæmi“.

Til dæmis, ef þú ert með líkan sem flokkar myndir, og það flokkar þessa mynd af panda rétt með nokkuð miklu sjálfstrausti, þá er það reyndar frekar auðvelt að finna mjög svipaða mynd, þar sem hverri pixla er breytt aðeins pínulítið (svo það lítur samt út eins og panda) en nýja myndin er rangt flokkuð sem gibbon, með ákaflega mikið sjálfstraust.

Eftir að hver pixla hefur verið breytt aðeins, er nýja myndin ranglega flokkuð með mjög mikilli sjálfstraust.

Þess má geta að smávægileg dæmi um andstæðingur eru ekki skrýtin undrun djúpsins eða vandamál sem aðeins ákveðnar gerðir hafa og flestar gerðir gera ekki. Með nokkrum varúðarmálum (sem ég mun ekki fara inn á hér) eru nánast öll þekkt vélanámslíkön næm fyrir andstæðu dæmum um hávíddarinntak og það eru engar góðar lausnir.

Stöðvamerki andstæðinga: áhyggjuefni, en ekki sem bókstafleg ógn

Í ljósi þess að við vitum að ML módel eru næm fyrir þessum sláandi bilunarháttum, þá má velta fyrir sér með hvaða hætti þetta þýðir að beita ML í raunverulegum heimi samhengi með raunverulegum afleiðingum.

Sem dæmi má segja að þú sért að hanna sjálfkeyrandi bíl og þú vilt að hann geti greint stöðvunarmerki. En þú hefur heyrt um andstæðar dæmi og þú ert forvitinn hvort þetta muni vera vandamál fyrir bílinn þinn.

Ef þú ert að hanna sjálfkeyrandi bíl til að þekkja stöðvunarskilti gætirðu velt því fyrir þér hvort þú þurfir að hafa áhyggjur af óárásum sem veldur því að stöðvunarmerkin eru ekki rétt þekkt.

Bakgrunnur minn sem verkfræðingur er í rannsóknarumhverfi, ekki í kerfishönnun og dreifingu og því er ég ekki sérfræðingur í að greina hvernig raunveruleg heimskerfi munu mistakast. En ég á vini og samstarfsmenn sem vinna við tölvuöryggi, og spurningin sem þeir hafa kennt mér að spyrja alltaf er „Hver ​​er ógnarlíkanið þitt?“

Bloggfærslan Approachable Threat Modeling eftir Kevin Riggle er uppáhalds (mjög aðgengileg!) Skýringin mín á hvað ógnagerð felur í sér:

Líkan af ógninni er bara það að svara nokkrum einföldum spurningum um öll kerfi sem þú ert að reyna að byggja upp eða lengja.
* Hvað er kerfið og hverjum er ekki sama um það?
* Hvað þarf það að gera?
* Hvaða slæmir hlutir geta komið fyrir það með óheppni eða verið gerðir við það af slæmu fólki?
* Hvað hlýtur að vera satt við kerfið svo það nái enn því sem það þarf til að ná, á öruggan hátt, jafnvel þó að þessir slæmu hlutir gerist með það?
Í stuttu máli mun ég vísa til þessara spurninga sem skólastjóra, markmiða, mótvægis og óháðra.

Við skulum reyna að beita þessum ramma.

Ef um er að ræða sjálfkeyrandi bílhönnun skulum við ímynda okkur að markmið okkar sé að bíllinn stöðvi alltaf á „stöðvunar gatnamótum“.

Okkur langar til að þetta sé satt, jafnvel þó að einhver hafi sett skrýtið glottandi límmiða á stöðvunarmerkið til að valda því að það er ekki rétt viðurkennt.

Við skulum þó ekki stoppa þar - við skulum telja upp öll þau mótlæti og andstæðinga sem við getum hugsað um sem gætu hugsanlega ógnað kerfinu okkar. Til dæmis viljum við líka að „stöðva gatnamót“ hegðun bílsins virki í þoku, snjó eða veggjakroti eða í návist skemmdarvarða, eða ef gatnamótin eru í smíðum og svo framvegis. Listinn okkar ætti að lokum að geyma langan tíma af mögulegum vandamálum, þar með talið mjög djúpum hversdagslegum og ósiðuðum vandamálum.

Þar með talið möguleikinn á að stöðvunarskilti hafi einfaldlega… fallið.

Listi okkar yfir hugsanleg vandamál ætti að fela í sér tilvik þar sem stöðvunarmerki hefur fallið. [Gilmer o.fl. 2018]

Ef bíllinn þinn myndi hrunna ef stöðvunarmerkið hefði einfaldlega fallið yfir, þá áttu við miklu stærri og grundvallaratriðum öryggisvandamál en smávægileg andstæðu dæmi!

Í stuttu máli er ég að segja að já, það er mögulegt fyrir einhvern að setja glitrandi límmiða á stöðvunarmerki. Og stöðvamerkið mældist ekki með neinum fjölda staðlaðra sjónkerfa. Og bíll sem eingöngu treysti á það sjónkerfi einn gæti örugglega hugsanlega bara tunnast í gegnum gatnamótin og hrunið. Þetta er algerlega hlutur sem gæti gerst í hinum raunverulega heimi ef bíllinn væri hannaður þannig að rangt flokkað stöðvunarmerki myndi valda hrun; það er ekki falsað eða gert upp eða ómögulegt.

En ég hef ekki tilgreint dæmi um raunverulegan andstæðing sem gæti í raun haft getu, fjármuni, þekkingu og hvatningu til að búa til og setja upp límmiðann. Og ekki bara til að það sé mögulegt, heldur besta leiðin til að ná markmiðum andstæðingsins. Ég get aðeins ímyndað mér að - eftir því nákvæmlega hvers vegna þeir vilja valda bílslysum, gætu þeir fundið upp ódýrari og auðveldari leið til að ná því.

Í grundvallaratriðum, ef ég er að segja þér að „skemmdarvargar sem keyra stigna niður til að framleiða glottandi límmiða sem þeir prenta út og standa á vegum“ eru bókstaflegu raunverulegu niðurstöðurnar sem ég er að reyna að koma í veg fyrir, þá er ógnarmódelið mitt ófullkomið . Það er samt þess virði að rannsaka (af ástæðum sem ég útskýri í næsta stóra kafla), en aðeins ef það er tekið minna bókstaflega.

Svo er stöðvunarmerki andstæðinga áhyggjuefni yfirleitt?

Ég er ekki að segja „Allir hætta að hafa áhyggjur! ML módel eru algerlega öflug og fín. “Þetta er öfugt við mitt atriði. Ég er að reyna að segja „Vandinn er verri en andstæðingur-límmiðar.“

Til að útskýra hvað ég meina, við skulum fara aftur í ógnarmódel okkar og líta á andstæðingana („Hvað hlýtur að vera satt um kerfið svo að það muni enn ná því sem það þarf til að ná, á öruggan hátt, jafnvel þó að allir slæmu hlutirnir komið fyrir það? “)

Ef markmið okkar er að bíllinn stöðvi alltaf - ekki bara í viðurvist andstæðingslímmiða, heldur jafnvel við líklegri aðstæður þar sem líkamlega stöðvunarskilti er ekki til staðar eða sýnilegt yfirleitt - þá fylgir því beint að við getum ekki treyst á vegamerkingargreining ein og sér til að velja hvenær stoppa á gatnamót. Tímabil. Ógnarlíkan okkar hefur sagt okkur að það að nota eitt uppgötvunarlíkan eitt og sér sé ekki nógu öflugt til öryggiskrítískrar notkunar.

Svo núna erum við með mjög áhugavert hönnunarvandamál! Hvernig getum við greint við gatnamót án þess að nota vegamerki eingöngu? Kannski ættum við að tengjast GPS og kortagögnum? Gæta sérstakrar varúðar við gatnamót sem eru hvorki merkt „stopp“ né „ávöxtun“?

Með því að skoða ógnarmódel okkar höfum við gert okkur grein fyrir því að vandamálið er verra en við héldum. Það er ekki nóg að herða sjónlíkan okkar gegn litlum truflunum andstæðislímmiða, jafnvel þó að við gætum gert það. Við verðum að ganga enn lengra og fjarlægja „algjört háð skilríkjakerfinu einni saman“ af lista okkar yfir mögulegar leiðir til að ná markmiðinu.

Af hverju að hugsa?

Svo í ljósi þess að „andstæðingur-límmiðar“ ættu að vera á lista yfir mótlæti samhliða mörgum hversdagslegum áhyggjum, sem saman þurfa miklu meiri aðferðir til að draga úr mótvægisaðgerðum… hvers vegna gætum við þá haft hug á litlum dæmum um ónæði?

Ég hef rekist á tvær ástæður sem mér finnst nokkuð sannfærandi:

Eitt: þeir eru sönnun fyrir hugtakinu: óumræðanleg sönnun um að ákveðin tegund vandamála er til. Sem afleiðing af því að auðvelt er að finna smávægileg andstæðar dæmi, getum við sagt með vissu að ef öryggi kerfisins er háð því að flokkarinn geri aldrei augljós mistök, þá er sú ábyrgð röng og kerfið þitt er óöruggt.

Núverandi flokkunarmyndir geta ekki á áreiðanlegan hátt greint á milli ótvíræðra fugla- og hjólamynda. [Áskoranir um óheft andstæðar dæmi.

Ég skal leggja áherslu á að það að gera litlar truflanir er ekki eina leiðin til að finna rangan flokkuð dæmi. Andstæðingur gæti fundið mistökin með einhverri annarri aðferð, eins og að reyna handahófskenndar þýðingar og snúninga þar til þau finna mistök, eða nota snjall sjónarhorn eða lýsingu.

Hins vegar vitum við nú þegar að augljós mistök eru til og auðvelt er að finna þau vegna þessara litlu truflunardæma.

Ennfremur, „andstæðingurinn“ þarf ekki að vera mannlegur leikari sem leitar vísvitandi: leit að mistökum getur gerst óviljandi hvenær sem valferli með skaðlegum hvata er beitt. (Svo sem að prófa þúsundir aðföng til að finna hverjir fá flesta smelli eða vinna sér inn mesta peninga).

Andstæðingur þinn gæti fundið mistökin með einhverri annarri aðferð, svo sem að prófa handahófsþýðingar og snúninga, eða nota snjall sjónarhorn eða lýsingu. [Brown o.fl. 2018]

Tveir: fyrir vísindamenn eru þeir lén þar sem framfarir í rannsóknum eru mögulegar. Ég spurði aðra vísindamenn um andstæðar aðstæður hvers vegna þeir héldu að „litla truflun“ stillingin væri gagnlegt svið rannsóknarinnar þrátt fyrir að vera ekki sannfærandi raunveruleg ógnarmódel og þau gáfu nokkrar ástæður:

  1. Það er auðvelt að skilgreina hverja pixla sem algebru aðgerð, sem gerir formlega greiningu mögulega.
  2. Það er vandamál sem raunverulegir flokkar hafa, svo vísindamenn geta rannsakað það á raunverulegum gagnapökkum (í stað tilbúinna gagna)
  3. Við höfum þegar sannanir fyrir því að vísindamenn hafi getað uppgötvað og lært hluti um robustness sem erfitt hefði verið að læra ef við værum ekki með gott leikfangavandamál. Til dæmis vitum við núna að mynd sem fíflar eina líkan er líkleg til að blekkja aðra sjálfstæða líkan.

Þó að þetta sé langt frá því að vera sannfærandi rök fyrir því að „litla truflunin“ stillingin sé besta eða eina stillingin til að rannsaka þolinmæði, þá er það vissulega vatn fyrir mig sem mengi ástæða til að starfa á svæðinu - miklu meira en bókstafleg rök.

Í grundvallaratriðum felst það í fullyrðingu um að andstæðar dæmi séu óleyst rannsóknarvandamál sem ekki aðeins varpar ljósi á stærri flokk sem hægt er að sýna fram á, heldur sé einnig hægt að takast á við það með markvissum hætti.

Persónulega hef ég tilhneigingu til að líta á andlitsdæmislinsurnar sem aðeins eina hugmyndafræði (í Kuhnian skilningi) sem hægt er að nota til að sýna fram á og rannsaka bilun í sterkleika í ML-kerfum og vonandi fá grip á lausnum. Það hefur sínar takmarkanir sem hugmyndafræði og ég er spennt að horfa á ML-samfélagið endurtaka og betrumbæta nálgun sína á robustness, með því að þróa og fjölga nýjum og bættum hugmyndafræði sem fela í sér lærdóm á leiðinni.

Óleyst rannsóknarvandamál eru ekki raunverulegar ógnarlíkön (en bæði eru mikilvæg)

Ég held að hér sé heildarmynd sem ég vil að þú komir með, sem nær út fyrir aðeins lén andstæðra dæmanna:

  • Óleyst rannsóknarvandamál hafa oft í för með sér að smíða leikfangasvið þar sem auðveldara er að einangra lykilerfiðleika og ná framförum í rannsóknum. Þótt ólíklegt sé að þær líki bókstaflega líklegum árangri í raunveruleikanum, er hægt að taka þær sem innblástur fyrir hugsanleg vandamál með uppsett kerfi. Og hugmyndafræðilegar framfarir í leikfangavanda geta leiðbeint sviðinu í átt að nýjum hugmyndafræði.
  • Í vöktuðum kerfum eru mestu vissu áhyggjurnar nánast öruggari en „rannsóknarvandamálin“ og því þarftu steypu ógnarmódel til að leiðbeina þér í átt að árangursríkum mótvægisaðgerðum. Áhyggjur þínar eru líklega víðtækari og verri en rannsóknarvandinn gefur til kynna. Þú þarft líklega að gera gríðarlegar hönnunarbreytingar, frekar en að bæta við litlum lagfæringum.
Í víðtækum kerfum eru litlu áhyggjurnar nær örugglega grundvallaratriðum en „rannsóknarvandamálin“.

Einn mikilvægur þáttur í almennri afstöðu minnar gagnvart traustleika er að ég held að staðhæfingin „En þessi vandamál eru ekki ný af djúpt námi!“ Eða „Við erum með enn grundvallarvandamál en þetta!“ Er ekki ástæða til að ætla að allt verði í lagi. . Það ætti að þjóna sem skarp áminning til að skipuleggja vandlega, athuga forsendur þínar og taka tillit til alls samhengisins.

Ef þú ert að nota kerfið - hvort sem það inniheldur ML eða ekki - þarftu í raun og veru sérstaka áætlun til að sjá fyrir og draga úr neikvæðum niðurstöðum.

Ef þú ert rannsóknarmaður, hvet ég þig til að réttlæta ekki rannsóknir á leikfangavandamáli með því að halda því fram að það sé bókstaflega tákn um raunverulega ógn í heiminum nema að þú bjóðir líka til ógnarmódel. Ég vil helst sjá rök fyrir því að skýra hvers vegna leikfangavandamál þitt er frjósöm prófraun fyrir ný hugmyndasýn og hvers vegna við gætum búist við því að þessi innsýn varpi ljósi á vandamál í raunveruleikanum lengra niður á línuna.

Og ef þú átt samtal um andstæð dæmi, hvet ég þig eindregið til að skýra þennan greinarmun við manneskjuna sem þú ert að tala við!

-

Handfylli af auðlindum sem hvatti mig til að vilja koma þessu á framfæri

Þessar hugmyndir eru ekki nýjar og frumlegar fyrir mig. Margir hafa gert þetta atriði áður. Þegar ég upphaflega flutti þessa ræðu fékk ég beinan innblástur af eftirfarandi úrræðum:

  • Gilmer o.fl. 2018 „Að hvetja til leikreglna fyrir rannsóknir á mótmælagöngu dæmi“
  • Ótakmörkuð andstæðar dæmi Challenge & Brown o.fl. 2018
  • Demski 2018 „Embedded Curiosities“ (Nánar tiltekið línan „það er freistandi að draga beina línu frá tilteknu rannsóknarvandamáli að tilteknu öryggisatriði“)

Þakkir til Jeremy Howard fyrir að hafa alltaf spurt mikilla spurninga og sérstaklega bent mér á að búa til opinbera útgáfu; Sam Finlayson fyrir að segja svipaða hluti í algengum spurningum um stefnumótunarrit sitt um læknisfræðilega árásir (þess virði að lesa!); Jeffrey Ladish og Jean Kossaifi fyrir gagnlegar ábendingar; og Kevin Riggle fyrir góðar samræður um líkan við ógn.