Miti in resnice o deduplikaciji

Nakup diskovnega sistema je ena večjih, morda največja infrastrukturna nabava. Prava odločitev je tista, kjer za najboljšo možno ceno dobimo rešitev, ki bo zadovoljila naše potrebe. Vsem skupne pa so potrebe po visoki razpoložljivosti, zanesljivosti, varnosti, zmogljivosti in učinkovitosti sistema. Diskovni sistemi, ki lahko med svoje funkcionalnosti uvrstijo tudi deduplikacijo, so prav gotovo konkurenčnejši, saj lahko deduplikacija izrazito pozitivno vpliva na učinkovitost in celo zmogljivost sistemov.
Kaj je deduplikacija?
Deduplikacija je proces odpravljanja podvojenih podatkov in s tem sprostitev zasedenih pomnilnih kapacitet in izboljšanja zmogljivosti diskovnih sistemov.
Razni tipi deduplikacij se razlikuje po tem ali se postopki izvajajo na nivoju datotek ali pa na nivoju podatkovnih blokov. Pri prvem tipu algoritmi med seboj primerjajo datoteke, pri drugem pa bloke podatkov. Če so primerjane datoteke med seboj enake, se ohrani le en unikaten zapis te datoteke, oziroma bloka podatkov. Granulacija ali resolucija je seveda mnogo boljša pri deduplikaciji na nivoju bloka podatkov, kar vodi tudi v večjo uspešnost odpravljanja redundantnih podatkov, še posebej v virtualiziranih okoljih.
Naslednja delitev je po času izvajanja; če gre za postopke, ki se izvajajo ob zapisu novega podatka, gre za inline deduplikacijo. Ti postopki lahko močno obremenijo standardne bralno-pisalne procese na sistemu. Drugače je pri post-process deduplikaciji, kjer se postopki končajo v času po končanem postopku pisanja podatkov na medij. Tu se kritični postopki lahko izvajajo v času, ko je sistem razbremenjen, oziroma takrat, ko se ne izvajajo kaki poslovno kritični procesi. Postopke deduplikacije ločimo še po tem, če se ti izvajajo na primarnem, oziroma produkcijskem(=aktivnem) sistemu ali na sekundarnem, oziroma arhivskem (=pasivnem) sistemu.
NetApp deduplikacija
Velika večina proizvajalcev diskovnih sistemov nudi deduplikacijo na datotečnem nivoju in le na sekundarnem, arhivskem sistemu. Izjema je ameriško podjetje NetApp, ki že vrsto let nudi odlično rešitev za deduplikacijo na nivoju podatkovnih blokov in se kot post-process izvaja tudi na primarnih produkcijskih sistemih. Tipični prihranki diskovnih kapacitet, ki jih proizvajalec navaja, so za okolja virtualnih strežnikov in desktopov kar 70%, za datotečne strežnike 30% in za backup podatke 95%.
Njihova rešitev virtualnega tiringa preko uporabe Flash Cache SSD modulov za bralni drugonivojski predpomnilnik za pogosto dostopane podatke, izjemno pospešuje SATA (in ostale) diskovne konfiguracije. Poleg tega se zaveda deduplikacije podatkov na diskih. V okolju virtualnih strežnikov to pomeni, da se npr. 10 podobnih virtualnih mašin (VM) deduplicira in se tudi v predpomnilniku nahaja le eden unikaten zapis VM. To seveda pomeni, da ima deduplikacija tudi močen pozitiven vpliv na zmogljivost diskovnega sistema, saj se lahko v predpomnilniku zadržuje dosti več informacij.
Netapp deduplikacija je z velikimi prihranki na diskovnih kapacitetah in posrednem povečanju zmogljivosti diskovnega sistema vsekakor primer tehnologije, ki proizvajalcu bistveno poveča konkurenčnost na zahtevnem trgu diskovnih sistemov.
Največji ponudnik NetApp diskovnih sistemov v Sloveniji je podjetje Our Space Appliances d.o.o., ki je v 10 letih delovanja uspešno implementiral več kot 50 diskovnih sistemov na slovenskem in srbskem tržišču.
Prijavi napako v članku