Mis on suurandmed?

Suurandmed on andmete mõõtmised, mis on kasvanud nii suureks, et tavalised andmebaasid ei suuda mahutada ega töötada suure hulga teabega. Andmed on kolmes suuruses: väikesed, keskmised ja suured; ükski neist mõõtmistest ei ole range; selle asemel sõltub igaüks rohkem kasutuslihtsusest ja sellest, millist tüüpi masin teabega hakkama saab. Suurandmete jaoks on vaja spetsiaalseid masinaid, mis on palju suuremad ja keerukamad kui tavaliste andmebaaside jaoks kasutatavad. Seda tüüpi andmeid leidub tavaliselt valitsusasutustes ja teadusasutustes, kuid mõned väga suured veebisaidid sisaldavad ka seda suurt hulka teavet.

Andmed on saadaval kolmes standardsuuruses, kuid mitte ranges suuruses. Väikesed andmed mahuvad ühte arvutisse või masinasse, näiteks sülearvutisse. Keskmised andmed mahuvad kettamassiivile ja neid haldab kõige paremini andmebaas. Andmebaasid, olenemata sellest, kui suured on, ei suuda suurandmetega töötada ja nende asemel kasutatakse palju spetsiaalseid süsteeme. Kuigi puuduvad ranged juhised selle kohta, mis on suurandmed, algavad need tavaliselt terabaidi (TB) tasemelt ja ulatuvad petabaitide (PB) tasemeni.

Katse töötada suurte andmetega andmebaasis, mis pole selle andmemahu jaoks spetsialiseerunud, põhjustab mitmeid olulisi probleeme. Andmebaas ei suuda käsitleda infohulka, mistõttu tuleb osa andmeid kustutada. See on sama, kui prooviks mahutada 100 gigabaiti (GB) arvutisse, millel on ainult 50 GB kõvakettaruumi; seda ei saa teha. Järelejäänud andmed on nii kontrollimiseks kui haldamiseks kohmakad, sest mis tahes funktsiooni täitmine võtab kaua aega ja andmebaas tuleb uute esitamiste jaoks sulgeda.

Kuigi masinaid on võimalik osta ja andmebaasidesse uusi andmeid lisada, tekitab see raske probleemi. Seda seetõttu, et andmebaasitarkvara on loodud töötama ainult keskmise teabega. Suuremad andmekogumid põhjustavad vigu ja haldusprobleeme, kuna tarkvara lihtsalt ei saa liikuda ega töötada suurte andmetega ilma probleemideta.

Suurte andmetega enamik organisatsioone ega veebisaite ei puutu. Kaitse- ja sõjaväeasutused kasutavad seda teavet mudelite loomiseks ja katsetulemuste salvestamiseks ning paljud suured teadusasutused vajavad neid spetsiaalseid masinaid sarnastel põhjustel. Mõned väga suured veebisaidid vajavad suuri andmemasinaid, kuid veebisaidid pole sellel turul nii levinud kui agentuurid. Need organisatsioonid peavad säilitama kõik oma andmed, sest see aitab tulevasi andmeid paremini analüüsida ja prognoose teha.