Mis on andmete deduplikatsioon?

Andmete deduplikatsioon on andmete tihendamise meetod, mille käigus dubleeritud andmed kustutatakse, säilitades süsteemis ühe koopia igast teabeühikust, mitte lubades mitmetel areneda. Säilitatud koopiatel on viited, mis võimaldavad süsteemil need alla laadida. See tehnika vähendab vajadust salvestusruumi järele ja võimaldab süsteeme kiiremini töös hoida, lisaks piirab andmete salvestamisega seotud kulutusi. See võib töötada mitmel viisil ja seda kasutatakse mitut tüüpi arvutisüsteemides.

Failitasemel andmete dubleerimisel otsib süsteem dubleeritud faile ja kustutab lisad. Plokitaseme deduplikatsioon vaatab kõrvaliste andmete tuvastamiseks failides sisalduvaid andmeplokke. Inimesed võivad paljudel põhjustel kahekordistada andmeid ning andmete dubleerimise kasutamine võib süsteemi sujuvamaks muuta, muutes selle kasutamise lihtsamaks. Süsteem saab perioodiliselt andmeid läbi ajada, et kontrollida duplikaate, kõrvaldada lisad ja luua viiteid mahajäetud failidele.

Selliseid süsteeme nimetatakse mõnikord intelligentseteks tihendussüsteemideks või ühe eksemplari salvestussüsteemideks. Mõlemad terminid viitavad ideele, et süsteem töötab nutikalt andmete salvestamisel ja failis, et vähendada süsteemi koormust. Andmete deduplikatsioon võib olla eriti väärtuslik suurte süsteemide puhul, kus salvestatakse andmeid mitmest allikast ja salvestuskulud pidevalt kasvavad, kuna süsteemi tuleb aja jooksul laiendada.

Need süsteemid on loodud olema osa suuremast andmete tihendamise ja haldamise süsteemist. Andmete dubleerimine ei saa kaitsta süsteeme viiruste ja tõrgete eest ning oluline on kasutada piisavat viirusetõrjet, et hoida süsteem ohutuna ja piirata failide viiruslikku saastumist, tehes samal ajal varukoopiaid eraldi asukohta, et lahendada katkestuste või failide kahjustamise tõttu tekkinud andmekadu. seadmed ja nii edasi. Andmete tihendamine enne varundamist säästab aega ja raha.

Süsteemid, mis kasutavad andmete deduplikatsiooni oma salvestusruumis, võivad töötada kiiremini ja tõhusamalt. Neid tuleb siiski perioodiliselt laiendada, et mahutada uusi andmeid ja lahendada turvaprobleeme, kuid need peaksid olema vähem altid dubleeritud andmete kiireks täitumiseks. See on eriti levinud probleem meiliserverite puhul, kus server võib salvestada kasutajate jaoks suuri andmemahtusid ja olulised osad võivad koosneda duplikaatidest, nagu samad manused, mida korratakse ikka ja jälle; Näiteks on paljud töölt e-kirju saatvad inimesed lisanud jalused e-kirjade lahtiütluste ja ettevõtte logodega ning need võivad serveriruumi kiiresti ära süüa.