Big Data vs. Data Warehouse. Hver er munurinn?

Tæknin þróast á þeim tíma sem ómögulegt er að halda í við og stjórnendur öldrunartækni munu fljótlega komast að því að allir þessir grunnnámsgreinar í tækni verða fljótt gamaldags. Ef þú ert yfirmaður tæknifulltrúa hjá stóru fyrirtæki hefurðu ekki tíma til að fræðast um nýja tækni vegna þess að þú ert of upptekinn við að berjast við eldsvoða og sjá til þess að þú lítur vel út á næsta stjórnarfundi í framan við allt hitt sem er að reyna að gera það sama. Á einhverjum tímapunkti gætirðu fundið fyrir þér að spyrja: hver er munurinn á stórum gögnum gagnvart gagnageymslum?

Sérhver tæknisérfræðingur ætlar að þekkja gagnagrunninn. Þetta er einfaldlega safn gagna sem vex með tímanum og sem þú lærir áhugaverða hluti með því að spyrjast fyrir. Svo er hugmyndin um gagnageymslu sem er það sem nafnið gefur til kynna. Við skulum ekki komast yfir allt “Kimball vs. Inmon” samtalið og halda þessu raunverulegu einföldu.

Gagnageymsla er fjöldi ólíkra gagnagrunna í stofnun sem hægt er að tengja með sameiginlegum lykli. Til dæmis gætum við tengt skrár yfir marga gagnagrunna með því að nota sérsniðinn reit sem heitir CUSTOMER_ID. Hér eru gagnagrunnar í ýmsum deildum þar sem skrár eru til sem við gætum viljað tengja með CUSTOMER_ID:

Með því að nota CUSTOMER_ID geturðu þá auðveldlega prentað út á einni síðu, lista yfir alla reikninga sem ekki hafa verið greiddir og listi yfir 10 síðustu þjónustubiðnir sem sölumaður getur síðan tekið með sér á sölusamkomu. Auðvitað, í dag notum við bara Salesforce fyrir allt þetta, en þetta einfalda dæmi gefur þér hugmynd um hversu gagnlegt það getur verið að tengja ólíkar gagnaheimildir. Það er það sem gagnageymslur snúast um, nema að þeir taka það skrefinu lengra og nota tengd gögn til að taka ákvarðanir á mjög háu stigi. Þegar þú byggir gagnageymslu, þá veistu venjulega hvaða spurningum þú gætir viljað svara vegna þess að einhver C-stigs einstaklingur biður um að mæla ákveðnar lykilárangur (KPI). Þú ferð ekki bara að byggja gagnageymslur til að byggja þau vegna þess að þetta er dýrt verkefni. Nú skulum við tala um „stór gögn“ og gagnageymslur.

Það fyrsta sem við þurfum að skilgreina er hugtakið „stór gögn“ sem skilgreinir sig ansi mikið. Þú hefur líklega heyrt þá tölfræði sem oft er vitnað til um að 98% allra gagna hafi verið búin til á síðustu 2 árum. Þetta eru stór gögn. Hægt er að anna öll glæsilegu mengi gagnaútblásturs sem nú er búið til (manstu námuvinnslu?) Til að draga fram innsýn. Í hátækniheimi nútímans gætum við viljað skapa innsýn sem við vitum ekki að séu til. Donald Rumsfeld vísaði á snjallan hátt til þessara „óþekktu óþekktar“ hlutina sem við vitum ekki að við vitum ekki um. Í heimi sálfræðinnar er þessu hugtaki vísað til Johari gluggans. Þú þekkir þann sem er í sölu sem er ekki meðvitaður um þá staðreynd að tilvist þeirra gerir það að verkum að allir í kringum sig vilja draga Peter Pan af næsta háhýsi? Sú staðreynd að viðkomandi er ekki meðvitaður um hversu pirrandi þeir eru - og það að fólkið í kringum viðkomandi getur ekki nákvæmlega sett fingurinn á hvers vegna - er „óþekkt óþekkt“ að því leyti að enginn veit hvers vegna Rob í sölu er bara stór , feitur, andstyggilegur prik. Engu að síður, að halda áfram.

Sent á 7wData.be.