Innihald stjórnunar á árinu 2019: Human vs AI

Netið, jafnvel með jákvæðni þess, getur verið mjög dimmur og truflandi staður. Skjöldur nafnleyndarinnar auðveldar fólki að haga sér á ákveðinn hátt sem annars væri háð af samfélaginu. Þessi grein kannar hver er ástæða til að miðla móðgandi efni og hjálpar þér að taka upplýsta ákvörðun.

Það er 2019 og við erum að hlaða upp og neyta efnis hraðar en nokkru sinni fyrr. Árið 2017 einar voru teknar 1,2 billjónir myndir og milljarðar þeirra deilt á netinu - það eru að meðaltali ~ 200 myndir á mann á ári (miðað við 7 milljarða íbúa). Facebook sjálft er með yfirþyrmandi hlutfall 300 milljóna mynda sem hlaðið er upp á hverjum degi og her 7.500 stjórnendur vinna að því að miðla þessu efni.

Heimild: BusinessInsider

Klám er alls staðar

Með svo mikilli aukningu hefur einnig orðið mikil aukning á fólki að hlaða inn efni af vafasömum toga og hreinskilnislega erum við að berjast fyrir því. Helstu samfélagsnetin þrátt fyrir það sem þér finnst vera hneyksluð með NSFW efni eins og klám. Þetta er köttur og músaleikur, þar sem slíkt efni er síað og notendur / hashtags / hópar bannaðir, en þeir koma aftur aðeins snjallari og harðari að ná. Hérna er skjámynd af grein þar sem fjallað er um óskýr arabískan hassmerki sem notaður er til að deila klám á Instagram.

Heimild: Daily Express

Þar sem meirihluti innihaldsneyslu okkar er að flytja til farsíma eru Apple (App Store) og Google (Play Store) hliðarvið innihaldið sem við erum að skoða.

Við heyrðum öll nýlegt tölublað af því að Apple fjarlægði app Tumblr af App Store eftir að hafa fundið barnaklám, en það er aðeins eitt slíkt dæmi um vettvang sem er í erfiðleikum með að miðla efni og fá refsingu.

Heimild: The Verge

Tumblr gæti samt lifað og auðvitað rétt; en það eru fjöldinn allur af forritum sem hafa mistekist þar sem notendur skildi eftir sig í hjörðum þar sem það varð bastion af klám og öðru móðgandi efni sem stjórnendur gátu ekki stjórnað.

Af hverju ættirðu að hafa áhyggjur? Ef þú ert eigandi forrits sem vinnur með notendaframleitt efni eða UGC eins og það er almennt þekktur, gætir þú orðið fyrir margvíslegri áhættu eins og orðspor, efnahagslegum eða jafnvel stórum lagalegum áhættu. (sjá: Indland kastar Ebay höfðingja í fangelsi)

En við skulum fyrst skilja hvað er talið „móðgandi“ til að geta stjórnað því betur þar sem það er ekki eins einfalt og þú heldur kannski fyrst að það sé.

Skilgreining á „móðgandi“ efni (?)

Alheimssamhengi

Vinstri: Oral Fixation upprunalega kápa Shakira; Hægri: Sama kápa í Mið-Austurlöndum

Það er erfitt að starfa á heimsvísu og setja staðla fyrir innihald. Flest fyrirtæki reyna að setja sömu reglur gagnvart notendum sem koma frá mismunandi lýðfræði með mismunandi menningarnæmi. Og það er þar sem þeir mistakast.

Fyrirtæki sem stækka um allan heim lenda oft í vandræðum með staðbundna stjórnsýslu ef þau hafa ekki tekið tillit til nærmenningar sinnar. Í júlí 2018 bannaði ríkisstjórn Indónesíu TikTok, vinsælt smáforrit til að búa til myndbandstæki. Hér er útdráttur úr blaðagrein þar sem greint er frá málinu:

Ráðuneytið sagði að það hafi bannað appið vegna þess að það hefur að geyma neikvæð vídeó sem eru talin hafa slæm áhrif á æskuna… .Opinber viðhorf í Indónesíu er að snúast gegn Tik Tok, sem er vinsælt meðal 13 til 15 ára barna, eins og það er með úrklippum unglinga sem stunda ögrandi hegðun. Eitt slíkt myndband sýnir unglingadans. Það skar síðan niður í lík, að því er virðist ættingi unglinga.

Fyrir utan nekt / klám eru svæðisbundnar reglur sem eiga sérstaklega við:

  • trúarleg hatursáróður sem hvetur til ofbeldis
  • fölsuðum fréttum og dreifist fyrir pólitíska dagskrá
  • ærumeiðandi tungumál gegn einstaklingi / stofnun

Listinn getur haldið áfram út frá því svæði sem þú starfar á og yfirstandandi málfrelsi sem til staðar er í þeirri landafræði

Hér er útdráttur frá Wikipedia síðu fyrir Orkut - hið einu sinni vinsæla félagslega net:

Árið 2008 tilkynnti Google að Orkut yrði stjórnað að fullu og starfrækt í Brasilíu, af Google Brasilíu, í borginni Belo Horizonte. Þetta var ákveðið vegna mikils brasilísks notendagrunns og vaxandi lagalegra mála

Hugleiddu þetta, allur rekstur bandarísks félagslegs nets var færður til annars lands til að fylgja betur staðbundnum lögum þess.

Hvað telst nekt / klám

Jafnvel grunnskilgreiningin á því hvað telst „nekt“ eða „klám“ er mjög huglæg og jafn handahófskennd og reglur samfélagsins. Hugleiddu Instagram sem leyfir „karlkyns geirvörtur“ en bannar „kvenkyns geirvörtur“.

Sumir gera kleift að sýna nekt í vissum sérstökum tilvikum.

Hugleiddu Tumblr sem nýlega uppfærði innihaldsreglur þess með nokkrum áhugaverðum undantekningum:

Bannað efni inniheldur myndir, myndbönd og GIF af kynfærum manna, geirvörtur kvenna og hvers kyns fjölmiðla sem varða kynlíf, þar á meðal myndskreytingar. Undantekningarnar fela í sér naknar klassískar styttur og pólitísk mótmæli sem eru með nekt. Nýju viðmiðunarreglurnar útiloka texta, svo erótík er áfram leyfð. Myndir og listir sem eru með nekt eru samt í lagi - svo framarlega sem kynlífi er ekki lýst - og það eru brjóstagjafir og eftir fæðingarmyndir

Við skulum sjá innihaldsleiðbeiningar fyrir önnur helstu samfélagsnet:

Ég vona að ég hafi tekið fram að það sé mjög erfiður að búa til staðla fyrir innihald vegna huglægs eðlis þeirra.

Við skulum gera ráð fyrir að þú hafir búið til breitt fyrsta sett af reglum sem virka fyrir umsókn þína. Næsta skref er að annað hvort ráða stjórnendur manna, reiða sig á samfélag þitt til að „tilkynna“ um slíkt efni eða nota AI til að greina það eða venjulega blanda af öllum 3.

Að nota stjórnendur manna

Lykilspurningarnar sem þú þarft að svara við ráðamenn manna eru:

Hvað kostar það? Hver er afköst og viðbragðstími? Hvernig meta þeir venjulega myndbandið? Hvernig mun flæðið líta út? Hvernig skilgreinir þú skýra staðla til að draga úr huglægni, sérstaklega í bráðatilvikum?

Við fórum á undan og náðum til 7 útvistunarstofu stjórnenda og komum aftur óljósum svörum (4). Þeir eru venjulega BPO-sveitir vopnaðir hundruðum verktaka fyrir gagnafærslu sem byggist á lágu launaþróunarhagkerfi. Þú getur fundið svör þeirra hér.

Verkefni
Mælikvarði.ai
Webpurify
Foiwe
Olapic
Assivo
Stjórnendur UGC
  1. Kostnaður:

Verðsvörin sem við fengum.

UGC stjórnendur er ódýrasti kosturinn af þessum 3 fyrir myndir sem kosta $ 0,01 / mynd.

2. Veltutími: Webpurify nefnir afgreiðslutíma <2 mín. Allir aðrir eru opnir fyrir því. Þegar um er að ræða mikið magn verður þjónustan að viðhalda stórum vinnuafli stjórnenda til að starfa á næstum rauntíma sem er sumum áríðandi.

3. Myndskeið: Webpurify nefnir einnig að gera myndbönd á $ 0,15 / mínútu.

Annar veitandi, UGC stjórnendur eru verðlagðir á $ 2 / klukkustund. Miðað við að þeir geti skoðað 5 1 mín vídeó á mínútu, þá eru það ~ $ 0,07 / mínúta af vídeóinu

Hugleiddu þetta fyrir Youtube þar sem 400 klukkustundum af vídeói er hlaðið upp á hverri mínútu. = 2400 mínútur af vídeó / mínútu.
Margfaldaðu það með heildarfjölda mínútna á ári (60 x 24 x 365) og það er yfirþyrmandi kostnaður upp á $ 1,2 milljarða á ári!
Jafnvel að setja 50% tillit til magnafsláttar, ~ 600 milljónir dala.

Hið huglæga eðli ákvörðunar hvaða innihald er leyfilegt að vera, skiptir miklu að hafa ákveðinn fjölda stjórnenda manna á sínum stað. En eins og þú sérð geta þeir orðið mjög dýrir mjög hratt.

Áföll

Mikilvægt að bæta við er að starfið er mjög truflandi og getur valdið áverka hjá einstaklingunum sem gera það dag út og inn. Fyrrum stjórnandi efnis stefndi á Facebook og sagði ofbeldisfullar myndir valda PTSD. Frábær heimildarmynd sem ber heitið „Stjórnendur“ sem sýnir líf sumra þessara einstaklinga:

Jafnvel Facebook með öllu járnklæddu fyrirkomulagi er ennþá hætt við lagalegu verklagi vegna „ómannúðlegrar“ vinnubragða. Útdráttur úr sömu grein í New York Times:

„Þú myndir fara í vinnuna klukkan 9 á hverjum morgni, kveikja á tölvunni þinni og horfa á einhvern láta klippa sig á höfðinu,“ sagði maður sem kaus að vera nafnlaus en vitnað var í málsóknina sem sagði við The Guardian í fyrra. „Á hverjum degi, hver mínúta, það er það sem þú sérð. Höfuð eru skorin af. “

Þetta er erfitt starf.

Nákvæmni

Þrátt fyrir að setja skýrar viðmiðunarreglur, geta stjórnendur manna enn verið viðkvæmir fyrir villum þar sem búist er við að þeir vinni hratt til að takast á við mikið magn og uppfylla skilgreint SLA þeirra. Búist er við að stjórnandi frá stofnun sem við ræddum við á Indlandi myndi meðallagi 10-15 <1 mínútu myndbönd á mínútu með því að skjóta fljótt í gegnum þau.

Þeir berjast sérstaklega við brúnarmál og endar með því að fremja fullt af fölskum jákvæðum, þ.e.a.s. að kalla eitthvað klám sem er það ekki. Þetta getur endað með því að hindra málfrelsi sem sumir af þessum kerfum standa fyrir og notendur geta gert uppreisn vegna tvöfaldra staðla.

Heimild: Mic

Til að draga saman eru stjórnendur manna:

  • Óumflýjanlegt, eins og nú, vegna huglægs eðlis innihaldsins
  • Dýr, sérstaklega þegar þú mælist
  • Hætt við áverka
  • Háð tilhneigingu til villna, sérstaklega þegar magn er mikið og í brún tilvikum

Svo það verður mjög mikilvægt að fylgjast með því hvort stjórnendur þínir standa sig á fullnægjandi hátt.

Mælingar til að fylgjast með árangri stjórnanda

Þetta eru tölfræðin sem þú ættir venjulega að fylgjast með til að sjá hvernig einstökum stjórnendum þínum gengur, þó að þú getir notað mismunandi mælikvarða út frá fyrirtækjakröfum þínum. Mælingarnar eru innblásnar af gervigreind og leggja áherslu á það tvennt sem getur skaðað mest:

Falslegar jákvæður

Að kalla eitthvað „klám“ sem er „ekki klám“

Falsar neikvæðar

Að kalla eitthvað „ekki klám“ en er klám (er sárt mest!)

Nákvæmni

Fjöldi mynda rétt greind (klám er klám, öruggt að vera örugg). Meira um heilsufarsmælingu sem þú þarft að fylgjast með til að tryggja að þú ert kominn á réttan kjöl.

Nákvæmni

Fjöldi greindra klámmynda er í raun klám. Því hærra því betra.

Ef þú ert með fyrirtæki þar sem málfrelsi / tjáningarfrelsi er mikilvægt (til dæmis Reddit) þarftu að ganga úr skugga um að stjórnendur merki ekki neina mynd sem er í samræmi við reglurnar sem „ekki öruggar“. Mikilvægasta mælikvarðinn þinn er nákvæmni.

Muna

Í heildar klámmyndunum hversu margar greindu þær. Því hærra því betra.

Ef þú ert með fyrirtæki þar sem þú þarft að koma til móts við áhorfendur þína, heilsusamlegt fjölskylduáhorf sem hentar efni, verður þú að ganga úr skugga um að öll mynd sem er ekki samkvæmt reglunum standist ekki síurnar þínar. Mikilvægasta mælikvarðinn þinn er þá muna.

F-1 stig

Heilnæmari mælikvarði þar á meðal bæði nákvæmni og muna. Því hærra því betra.

Ef þú þarft að vera í miðlínu milli þess að hindra ekki málfrelsi og framfylgja ströngum reglum, þá er F1 stigið þitt mælikvarði til að fylgjast með.

Svona reiknar þú þá:

Hér er flæðirit til að hjálpa þér að skilja hugtökin betur:

Með því að fara yfir slembid% sýnishorn af daglegu starfi hvers stjórnanda og setja viðmið er hægt að fylgjast með árangri þeirra.

Við höfum líka tekið eftir því að það að merkja undirflokkinn sem fleygt er (Gore, suggestive nudity, explicit nudity, eiturlyf osfrv.) Og fylgjast með tölfræði innan þessara flokka er miklu meira innsýn í skipulagningu framtíðarþjálfunaráætlana þinna.

Notkun gervigreindar

Það eru mörg API í viðskiptalegum tilgangi á markaðnum sem greina NSFW efni.

Með því að nota djúpt taugakerfi bjóða þessi API til að læra vélar sem þjónustu til að miðla efni á notendapallinn sem fyrst og fremst finnur nekt, klám (kynlífsathafnir) og gore. Lykilspurningarnar sem þarf að svara við val á API eru:

Hvað kostar það? Hver er viðbragðstími? Hvaða tölfræði notar þú til að meta árangur þeirra? Hver er skipulag og aðlögunartími?

Við bárum saman eftirfarandi API:

Amazon
Clarifai
DeepAI
Google
Microsoft
Nudedetect
Nanonets
Picpurify
Sightengine

Kostnaður

Þetta kostar hve mikið fyrir hverja mynd:

Nanonets er lægsta verð á $ 0,0009 / mynd og síðan Amazon & Microsoft er 0,001 $ / mynd.

Teiknar þetta:

Verðlagning á API

Meðalverðlagning á hverja mynd kemur út $ 0,001

Bera þetta saman við ódýrasta verð fyrir stjórnendur manna sem er 0,01 $. Mannlegar stjórnendur eru 10 sinnum hærri en verð fyrir AI API veitendur! Sjón það í gegnum línurit:

Mælingar

Mælingarnar til að meta eru þær sömu og stjórnendur manna: Nákvæmni, nákvæmni, muna og F1. Það er frábær grein sem gefur samanburð á bestu API fyrir NSFW Image Moderation frá og með 2018 með þessum tölum.

Skipulag og samþætting

Flest þessara API eru vefþjónusta og auðvelt að samþætta þau.

Þeir hafa venjulega nokkrar línur af kóða sem þú þarft til að samþætta og fara í gegnum vefslóð myndar eða bætis (hrá skrá).

Nanonets veitir aukinn kost á því að búa til tengikvímynd fyrir líkanið þitt og hýsa hana á netþjóninum þínum.

sudo nvidia-docker hlaupa -p 8081: 8080 docker.nanonets.com/is/modlung_id}}:gpu

Sýnishornslína til að kóða til að keyra líkanið í tengikassa.

Viðbragðstími

Flest forritaskil lofa viðbragðstíma 200–300 hundruð millisekúndur. Þetta nær þó ekki til ferðatíma milli netþjónanna og getur einnig verið breytilegt eftir stærð myndarinnar sem þú sendir. Svo þú ættir sennilega að láta símafyrirtækið þitt hafa miðlara á þínu svæði fyrir skjótan viðbragðstíma eða nota bara bryggjuþjónustu Nanonets og dreifa henni á staðnum.

Berðu þetta saman við þjónustustjórnun Webpurify sem lofar viðbragðstíma <2 mín. Það er 10x viðbragðstími miðað við API!

Til að draga þetta ágætlega saman eru API forrit byggð á vélanámi miðað við stjórnendur manna:

  • Ódýrari
  • Hraðari
  • Auðveldara að kvarða
  • Vélar glíma ekki við áverka (!)

Þannig að í heildina henta vélar örugglega mun betur í starfið en mennirnir.

Svo af hverju þurfum við enn stjórnendur manna?

Jæja, svarið við því er að vélar henta enn ekki vel til að takast á við huglægni og auðvelt er að plata þær.

  1. Hlutdrægni kynþátta

Lítum á eftirfarandi mynd:

Þú getur séð upprunalegu myndina hér. VIÐVÖRUN: Það er skýrt

Við prófuðum ofangreinda mynd með 2 af þjónustunum sem nefndar voru hér að ofan:

Clarifai

Clarifai flokkaði það ranglega sem SFW með 91% sjálfstrausti

Picpurify

Picpurify ranglega flokkar það sem SFW

Svo hvað gerðist hér? Mynstrið og sýnileiki fata konunnar ruglaði taugakerfin og þau gátu ekki flokkað myndina sem NSFW eða gefið allt aðra spá.

Skortur á þjálfunargögnum nakinna japönskra kvenna í hefðbundnum kimono getur skapað þessa tegund af hlutdrægni fyrir þessi API, sem eru aðallega byggð utan Bandaríkjanna og Evrópu og þjálfa tengslanet sitt á aðallega myndum af einstaklingum af þjóðerni í meirihluta á sínu svæði. Svo ef þú ert með notendur fyrir utan þessi svæði og ert að hlaða inn staðbundnu klám (eða öðru móðgandi efni), þá eru flest forritaskil tilbúin til notkunar ekki of mikil hjálp hér.

2. Samfélagslegt samhengi

Eins og kannað er hér að ofan, þá er hægt að hæðast að því hvað er í lagi á einu svæði. Þar sem flestir AI API veitendur eru byggðir út frá vesturhluta svæða, eru þeir venjulega ekki í takt við íhaldssamari heimshluta. Þannig að spurningin um hvað er NSFW er mjög sértæk fyrir þig, lýðfræðilegar notendur þínar og svæðin sem þú starfar á. Ljóst er að API sem er tilbúið til notkunar er ekki svarið og þar með þörfin fyrir stjórnendur manna.

Forsíðugerð Ariana Grande er ljósmyndasafnað til að fylgja hógværðalöggjöf í Íran og Sádi Arabíu (heimild: Petapixel)

3. Ein stærð passar ekki öllum

Flestir API veitendur gefa einkunn hvort myndin er ásættanleg, eða að auki gætu þau merkt hana samkvæmt fyrirfram ákveðnum metatögnum. Amazon merkir myndirnar sem hér segir:

Nú gætirðu haft nokkrar af þínum eigin merkjum til að búa til miðað við þann sess sem þú þjónar sem falla á milli þessara flokka. Þú hefur ekki möguleika á að gera það. Merking (sem er burðarás tilmæla) er brauð og smjörið í flestum félagslegum UGC forritum í dag og ef þú notar eitthvað af forritaskilum sem eru tilbúin til notkunar, þá verðurðu fastur við fyrirfram ákveðna merkimiða.

Hvernig á að draga úr ósjálfstæði stjórnenda manna

Stöðugt að þjálfa fyrirmyndir þínar til að bera kennsl á eyðurnar sem vantar er leiðin til að draga úr ósjálfstæði manna. Endurþjálfun þýðir í grundvallaratriðum að bæta við sértæka NSFW gagnapakkanum og þjálfa það „ofan á“ fyrirliggjandi fyrirmynd. Þannig verður líkanið betra með að bera kennsl á hluti sem það hefur áður misst af.

Svo segðu til dæmis að það eru myndir á vettvangi þínum sem eru gyðingahatur að eðlisfari og þú vilt banna þær til að tryggja haturslaust umhverfi. Valinn API veitir þinn síar ekki slíkar myndir eins og er og þú vilt búa til gagnapakka af þessum hálf-hálfgerðar myndum sem fylgja dæmigerðu mynstri. Þú getur búið til gagnapakka af þessum myndum og þjálft aftur ofan á fyrirliggjandi líkan svo það geti byrjað að flokka þær sem „óöruggar“.

En flestir API veitendur láta þig ekki gera það eða það er innifalið í „Enterprise“ flokkaupplýsingar þeirra.

Sláðu inn Nanonets

Við hjá Nanonets gerum okkur grein fyrir þessu tiltekna máli og höfum bætt við eiginleikanum til að bæta við eigin myndum og skilgreina viðbótarmerkin þín efst á efnisstjórnunarlíkani okkar svo að þú getir bætt heildar nákvæmni fyrir þig.

Bættu nákvæmni fyrir hýslalíkanið okkar á app.nanonets.com

Með því að nota flutninganám, þjálfum við líkan sem lærir af gögnum þínum og aðlagast þínum þörfum.

Málsrannsókn: Stærsta indverska samfélagsnetið

Vandamál

Við áttum stærsta staðbundna samfélagsnet Indlands og yfir 50 milljón mánaðar virkir notendur koma til okkar með mjög sérstakt vandamál. Valinn API veitandi þeirra var að gera villur þegar sendar voru indverskar myndir. Nákvæmni fyrri þjónustuaðila þeirra var ~ 72% á slíkum myndum.

Af hverju virkaði núverandi lausn þeirra ekki?

ML-gerð er aðeins eins góð og gögnin sem hún er afhjúpuð. Flest núverandi líkamsþjálfunarlíkön hafa verið þjálfuð í almennum gögnum. Þeir geta því ekki spáð fyrir um notandi-myndað efni sem framleitt er á staðnum með lágum gæðum myndavéla á snjallsímum á landsbyggðinni á Indlandi.

Þessar myndir eru mjög ólíkar í innihaldi, húðlit, myndavél o.fl. en þær myndir sem eru aðgengilegar og finnast í leitarvélinni að eigin vali eða einhverjum gagnapakka sem er aðgengileg.

Lausn:

Við spurðum starfsemina um næmni þeirra sem krafist er fyrir lýðfræðilegar notendur sem þeir þjóna og um 10.000 myndir - bæði jákvæð og neikvæð sýnishorn.

Við notuðum þessi gögn til að þjálfa nýja líkan ofan á fyrirliggjandi líkan. Þetta gerði okkur kleift að fínstilla næmni og fletta ofan af líkaninu fyrir efni sem er sértækt fyrir vettvang þeirra.

Úrslit:

Við vorum núna með líkan sem nákvæmni batnaði um rúm 23% og stökk í ~ 95%! Allur æfingin endalok frá því að skilgreina vandamálið yfir í að deila gögnum og síðan að lokum afhenda líkan tók <1 mánuð.

nákvæmni batnað um rúm 23% og stökk í ~ 95%!

Getan til að stilla líkan okkar að sérstökum lýðfræði og skilgreiningum á NSFW gerir það kleift að vera miklu öflugri og duglegri til að takast á við þetta vandamál.