Big Data V - Përfaqëson karakteristikat ose sfidat e të dhënave të mëdha

Big Data V - Përfaqëson karakteristikat ose sfidat e të dhënave të mëdha

Të gjithë përcaktojnë Big Data me një grup prej 3 ose 4 ose 10 Vs. A po na japin në të vërtetë këto V-të përkufizimin e konceptit të të dhënave të mëdha apo është diçka tjetër që ata po përpiqen të na thonë? Arsyeja kryesore për përdorimin e këtij karakterizimi të bazuar në V është për të nxjerrë në pah sfidat që vijnë të mbushura me këto të dhëna të mëdha. Sfida të tilla si - kapja, pastrimi, kurimi, integrimi, ruajtja, përpunimi dhe shumë të tjera.

Këto V po japin udhëzime për përgatitjen e vetes për Sfidat e mundshme. Sfidat që mund t'ju vijnë kur do të filloni të menaxhoni të dhënat tuaja të mëdha të cilat:

  • Rriten në vëllime të mëdha
  • Rriten me shpejtësi të madhe
  • Gjeneron varietete të mëdha
  • Ndryshimet me ndryshueshmëri të madhe
  • Kërkon proces për të ruajtur vërtetësinë e madhe
  • Me transformimin jep një vizualizim të madh
  • ka vlera të mëdha të fshehura
  • Këto V shpjegojnë aspektet e rëndësishme të të dhënave të mëdha dhe një strategjie të të dhënave të mëdha që organizata nuk mund t'i injorojë. Le të shohim të gjitha V-të që kontribuojnë në atributet e ndryshme të të dhënave të mëdha:

    1. Vëllimi:

    100 terabajt të dhëna ngarkohen çdo ditë në Facebook; Akamai analizon 75 milionë ngjarje në ditë për të synuar reklamat në internet; Walmart trajton 1 milion transaksione klientësh çdo orë. 90% e të gjitha të dhënave të krijuara ndonjëherë janë gjeneruar në 2 vitet e fundit.

    Figurat e mësipërme përshkruajnë me të vërtetë se çfarë do të thotë kur themi vëllime të mëdha të të dhënave. Janë këto karakteristika të para të të dhënave që e bëjnë atë një të dhënë të madhe. Nga ana tjetër, ky vëllim i madh i të dhënave na paraqet një sfidë për ruajtjen e këtyre të dhënave.

    Shih gjithashtu: 19 Mjetet më të mira të Minierimit të të Dhënave

    2. Shpejtësia:

    1 në 1999, çdo minutë të çdo dite, ne ngarkojmë 100 orë video në YouTube, dërgojmë mbi 200 milionë emaile dhe dërgojmë 300,000 cicërima.

    Numrat e volumit janë në themel të një numri. trend edhe më i madh, që është se 90% e të dhënave ekzistuese janë krijuar vetëm në dy vitet e fundit. Kjo përshkruan shpejtësinë ose shpejtësinë me të cilën krijohen, ruhen, analizohen dhe vizualizohen të dhënat.

    Sfida që kanë organizatat është të përballen me shpejtësinë e madhe që të dhënat krijohen dhe përdoren në kohë reale.

    3. Shumëllojshmëri

    Në të kaluarën, të gjitha të dhënat që krijoheshin ishin të dhëna të strukturuara, ato vendoseshin mirë në kolona dhe rreshta, por ato ditë kanë mbaruar. 90% e të dhënave të gjeneruara sot janë të pastrukturuara, vijnë në të gjitha format dhe format – nga të dhënat gjeo-hapësinore, te cicërima të cilat mund të analizohen për përmbajtjen dhe ndjenjat, deri te të dhënat vizuale si foto dhe video.

    Shumëllojshmëria përshkruan një nga sfidat më të mëdha të të dhënave të mëdha. Mund të jetë i pastrukturuar dhe mund të përfshijë kaq shumë lloje të ndryshme të dhënash nga XML tek video në SMS. Organizimi i të dhënave në një mënyrë kuptimplote nuk është detyrë e thjeshtë, veçanërisht kur vetë të dhënat ndryshojnë me shpejtësi.

    4. Ndryshueshmëria

    Ndryshueshmëria shpesh ngatërrohet me Varietetin. Një shembull i thjeshtë për ta dalluar atë është: mendoni për Starbucks – ka kaq shumë shije në kafenë e ftohtë. Kjo është shumëllojshmëri. Supozoni se blini Cafe Mocha çdo ditë dhe ka shije dhe erë pak më ndryshe nga çdo ditë e mëparshme. Është Ndryshueshmëria.

    Ndryshueshmëria në kontekstin e të dhënave të mëdha i referohet disa gjërave të ndryshme. Njëra është numri i mospërputhjeve në të dhëna. Këto duhen gjetur me anë të metodave të zbulimit të anomalive dhe të jashtme në mënyrë që të ndodhë ndonjë analizë kuptimplotë. Të dhënat e mëdha janë gjithashtu të ndryshueshme për shkak të morisë së dimensioneve të të dhënave që rezultojnë nga lloje dhe burime të shumta të ndryshme të të dhënave. Ndryshueshmëria mund t'i referohet gjithashtu shpejtësisë së paqëndrueshme me të cilën ngarkohen të dhënat e mëdha në bazën tuaj të të dhënave.

    Shiko gjithashtu: Mjetet më të mira të pastrimit të të dhënave jashtë linje

    5. Vërtetësia

    Ajo që është thelbësore për të kuptuar Big Data është natyra e çrregullt, e zhurmshme e tyre dhe sasia e punës që shkon për të prodhuar një bazë të dhënash të saktë përpara se të fillojë analiza. Është e kotë nëse të dhënat që analizohen janë të pasakta ose të paplota.

    Kjo situatë lind kur rrjedhat e të dhënave vijnë nga burime të ndryshme që paraqesin një shumëllojshmëri formatesh me raporte të ndryshme sinjal-zhurmë. Mund të jetë i mbushur me këto gabime të grumbulluara deri në momentin që arrin në analitikën e të dhënave të mëdha.

    Vërtetësia ka të bëjë me sigurimin e të dhënave të sakta, gjë që kërkon procese për të mbajtur të dhënat e këqija që të mos grumbullohen në sistemet tuaja. Shembulli më i thjeshtë janë kontaktet që hyjnë në sistemin tuaj të automatizimit të marketingut me emra të rremë dhe informacione të pasakta kontakti. Sa herë e keni parë Mickey Mouse në bazën tuaj të të dhënave? Është sfida klasike e "plehrave brenda, mbeturinave jashtë".

    6. Vizualizimi

    Kjo është pjesa e vështirë e Big Data, dështimi në të cilin e bën këtë vëllim të madh të të dhënave të padobishme. Një detyrë thelbësore për çdo sistem të përpunimit të të dhënave të mëdha është të transformojë shkallën e madhe të tij në diçka lehtësisht të kuptueshme dhe të zbatueshme. Për konsum njerëzor, një nga metodat më të mira për këtë është konvertimi i tij në formate grafike.

    Mjetet aktuale të vizualizimit të të dhënave të mëdha përballen me sfida teknike për shkak të kufizimet e teknologjisë në memorie dhe shkallëzueshmëria, funksionaliteti dhe koha e dobët e përgjigjes. Grafikët tradicionalë nuk mund të plotësojnë nevojën për të paraqitur një miliard pika të dhënash, kështu që ju nevojiten mënyra të ndryshme të paraqitjes së të dhënave si grupimi i të dhënave ose përdorimi i hartave të pemëve, shpërthimet e diellit, koordinatat paralele, diagramet e rrjetit rrethor ose pemët konike.

    7. . Vlera

    Vlera është fundi i lojës. Vlera e mundshme e Big Data është e madhe. Pasi të kujdeseni për vëllimin, shpejtësinë, shumëllojshmërinë, ndryshueshmërinë, vërtetësinë dhe vizualizimin – që kërkon shumë kohë dhe përpjekje – është e rëndësishme të jeni të sigurt që organizata juaj po merr vlerë nga të dhënat.

    Sigurisht që organizata juaj po merr vlerë nga të dhënat.

    Natyrisht. , të dhënat në vetvete nuk janë aspak të vlefshme. Vlera është në analizat e bëra mbi ato të dhëna dhe se si të dhënat shndërrohen në informacion dhe përfundimisht shndërrohen në njohuri.

    7 V-të e mësipërme ju tregojnë për 3 aspekte të rëndësishme të Big Data, d.m.th. përkufizimin, karakteristikat dhe sfidat. Por kur njerëzit filluan të bënin kërkime mbi të dhënat e mëdha për shpikjen e metodave për t'u përballur më sipër, ata ndeshën me disa V të tjera. Megjithëse ata nuk luajnë atë rol vendimtar në të dhënat e mëdha, por plotësojnë listën e Karakteristikave dhe Sfidave.

    8. Vlefshmëria

    Ngjashëm me vërtetësinë, vlefshmëria i referohet sa të sakta dhe korrekte janë të dhënat për përdorimin e synuar. Vërtetësia e të dhënave të mëdha është një çështje vlefshmërie, që do të thotë se të dhënat janë të sakta dhe të sakta për përdorimin e synuar. Të dhënat e qarta të vlefshme janë çelësi për marrjen e vendimeve të duhura. Vërtetimi i të dhënave është ai që vërteton transmetimin e pakorruptuar të të dhënave.

    9. Qëndrueshmëria

    Vetëm mendoni për pohimet e mëposhtme:

  • Çfarë efekti ka koha e ditës ose dita e javës në sjelljen e blerjes?
  • A ka një rritje në Twitter ose Facebook përmend një rritje ose ulje të blerjeve?
  • Si konvergojnë gjeo-vendndodhja, disponueshmëria e produktit, koha e ditës, historia e blerjeve, mosha, madhësia e familjes, kufiri i kredisë dhe lloji i automjetit për të parashikuar prirja e një konsumatori për të blerë?
  • Detyra jonë e parë është të vlerësojmë qëndrueshmërinë e atyre të dhënave, sepse, me kaq shumë lloje të dhënash dhe variablash për t'u marrë parasysh në ndërtimin e një modeli parashikues efektiv, ne duam që shpejt dhe me kosto testoni dhe konfirmoni në mënyrë efektive rëndësinë e një variabli të caktuar përpara se të investoni në krijimin e një modeli plotësisht të paraqitur. Me fjalë të tjera, ne duam ta vërtetojmë atë hipotezë përpara se të ndërmarrim veprime të mëtejshme dhe, në procesin e përcaktimit të qëndrueshmërisë së një variabël, ne mund të zgjerojmë pikëpamjen tonë për të përcaktuar nëse variablat e tjerë – ato që nuk ishin pjesë e hipotezës sonë fillestare – kanë një ndikim domethënës në rezultatet tona të dëshiruara ose të vëzhguara.

    10. Paqëndrueshmëri

    Sa të vjetra duhet të jenë të dhënat tuaja përpara se të konsiderohen të parëndësishme, historike ose jo më të dobishme? Sa kohë duhet të mbahen të dhënat?

    Kur flasim për paqëndrueshmërinë e të dhënave të mëdha, mund të kujtojmë lehtësisht politikën e ruajtjes së të dhënave të strukturuara që zbatojmë çdo ditë në bizneset tona. Pasi të skadojë periudha e ruajtjes, ne mund ta shkatërrojmë lehtësisht atë.

    Megjithatë, për shkak të shpejtësisë dhe vëllimit të të dhënave të mëdha, paqëndrueshmëria e saj duhet të merret parasysh me kujdes. Tani duhet të vendosni rregulla për monedhën dhe disponueshmërinë e të dhënave, si dhe të siguroni rikthim të shpejtë të informacionit kur kërkohet.

    11. Dobësia

    A ju kujtohet Hack-u i Ashley Madison në 2015? Apo ju kujtohet në maj 2016 CRN raportoi se "një haker i quajtur Peace postoi të dhëna në rrjetin e errët për t'i shitur, të cilat supozohet se përfshinin informacione për 167 milionë llogari të LinkedIn dhe 360  milionë emaile dhe fjalëkalime për përdoruesit e MySPace".

    Big. Të dhënat sjellin me vete shqetësime të reja sigurie. Sidomos me këto karakteristika bëhet sfidë zhvillimi i një programi sigurie për Big Data. Në fund të fundit, një shkelje e të dhënave është një shkelje e madhe.

    Pra, çfarë na tregon e gjithë kjo për natyrën e Big Data? Epo, është masiv dhe që zgjerohet me shpejtësi, por është gjithashtu i zhurmshëm, i çrregullt, që ndryshon vazhdimisht, në qindra formate dhe praktikisht i pavlefshëm pa analizë dhe vizualizim.

    Vëllimi, shpejtësia dhe shumëllojshmëria nuk janë vetëm parametrat kryesorë. të të dhënave të mëdha, por ato janë edhe arsyeja për të lindur konceptin e të dhënave të mëdha dhe tiparet kryesore ndarëse midis të dhënave normale dhe të dhënave të mëdha. Edhe pse ato janë të brendshme për vetë Big Data, Ndryshueshmëria, vërtetësia, vizualizimi dhe vlera e V-së tjetër janë atribute të rëndësishme që pasqyrojnë kompleksitetin gjigant që Big Data u paraqet atyre që do të përpunojnë, analizojnë dhe përfitojnë prej tyre.

    Pa dyshim, Big Data është një prirje kyçe që IT-ja e korporatave duhet të akomodojë me infrastrukturat e duhura kompjuterike. Por pa analitikë me performancë të lartë dhe shkencëtarë të të dhënave për t'i kuptuar të gjitha, ju rrezikoni të krijoni thjesht kosto të mëdha pa krijuar vlerën që përkthehet në avantazhin e biznesit.

    Lexo: 0

    yodax