Co naprawdę ogranicza szybkość odtwarzania z backupu?

Co naprawdę ogranicza szybkość odtwarzania z backupu?

Gdy przychodzi „ten moment”, że trzeba odtwarzać dane i systemy z kopii zapasowych bardzo szybko przekonujemy się, że nasze dwugodzinne RTO nijak się ma do rzeczywistości. W dodatku, przyczyna powolnego odtwarzania z backupu rzadko leży tam, gdzie się jej intuicyjnie spodziewamy. Codzienna rutyna związana z wykonywaniem kopii zapasowych zostaje gwałtownie przerwana i mamy oto nowe wyzwanie, którym jest odtwarzanie. Co ciekawe dla wielu ta sytuacja jest pierwszą próbą całego procesu i nierzadko bardzo bolesną lekcją.

Odtwarzanie to proces, a nie pojedyncza operacja

Myśląc o szybkim odtwarzaniu z kopii zapasowych albo planując obniżenie RTO warto pamiętać, że odtwarzanie to nie jest tylko „kopiowanie pliku z repozytorium na serwer docelowy”. To łańcuch kilku następujących po sobie operacji, gdzie przepustowość całego procesu jest równa przepustowości najwolniejszego ogniwa. Aby zrozumieć złożoność odtwarzania z kopii zapasowej, przedstawię uproszczoną sekwencję procesu:

  1. Odczyt metadanych. Oprogramowanie backupowe (w tym przykładzie Veeam) odczytuje plik metadanych i identyfikuje, jakie pliki składają się na wybrany punkt przywracania: ostatni pełny backup plus wszystkie kolejne przyrostowe, które trzeba nałożyć, żeby dotrzeć do żądanego momentu w czasie.
  2. Rehydratacja. Dane w repozytorium nie są gotowym do skopiowania obrazem maszyny. Są skompresowanymi i zdeduplikowanymi blokami rozrzuconymi po wielu plikach. Żeby mogły wrócić w postaci maszyny wirtualnej (VM) na serwer produkcyjny, muszą zostać najpierw zdekompresowane i złożone w logiczny obraz. Ten etap to właśnie rehydratacja i to tutaj najczęściej chowa się wąskie gardło.
  3. Transfer przez „pośredników” (proxy). W przypadku technologii Veeam, do transferu używane są dwa procesy: jeden po stronie repozytorium (czyta i rehydratuje), drugi po stronie docelowej (zapisuje dane na produkcyjną pamięć masową poprzez silnik wirtualizacji). To, co mierzymy jako „prędkość odtwarzania w MB/s”, to efektywna prędkość tego strumienia, a nie odczyt z repozytorium backupu, ani nie przepustowość łącza.
  4. Zapis na docelowej pamięci masowej (target). Szybkość zapisu na macierzy produkcyjnej zależna jest od trybu transportu (Direct SAN, Hot-Add, NBD), bo każdy ma inną charakterystykę wydajnościową.
  5. Rejestracja i uruchomienie VM. Po zapisaniu wszystkich bloków maszyna jest rejestrowana w inwentarzu silnika wirtualizacji na klastrze produkcyjnym i może zostać uruchomiona.

Gdzie najczęściej jest wąskie gardło?

Skoro wiemy już jak wygląda proces odtwarzania, łatwo się domyśleć, że nie wystarczy mieć wysoko przepustową sieć, bo słaba wydajność repozytorium albo klastra wirtualizacji kompletnie zdegraduje szybkość odtwarzania, a to przecież nie wyczerpuje tematu.

Poniżej lista typowych wąskich gardeł procesu odtwarzania z backupu uszeregowana od najczęstszych.

1️⃣ Repozytorium (source). Odtwarzanie z backupu to operacja zarówno dyskowa jak i obliczeniowa, więc duże znaczenie ma I/O i CPU urządzenia. Repozytorium na wolnych dyskach SATA albo z niedowymiarowanym CPU potrafi dać stały sufit na poziomie 200–300 MB/s, niezależnie od tego, co będziemy mieli w innych miejscach.

2️⃣ Docelowa pamięć masowa (target). Macierz produkcyjna i klaster wirtualizacji pod obciążeniem odtwarzania często okazuje się wolniejsza, niż było to w ulotce produktowej producenta. Szczególnie gdy równolegle musi obsługiwać inne maszyny wirtualne lub kilka równoczesnych sesji odtwarzania.

3️⃣ Pośrednik (proxy). Serwer proxy Veeam odbiera dane ze źródła, przetwarza je i przekazuje do miejsca docelowego. W praktyce proxy staje się wąskim gardłem rzadziej niż repozytorium czy storage docelowy. Może się to jednak zdarzyć, gdy damy mu za mało mocy obliczeniowej przy wielu równoległych sesjach albo zbyt wiele zadań odtwarzania jednocześnie.

4️⃣ Sieć (network). Dopiero na tym etapie dochodzimy do limitów związanych z interfejsami sieciowymi i przepustowością sieci. Łącze staje się wąskim gardłem głównie, gdy odtwarzanie realizowane jest przez sieć rozległą (WAN), np. gdy źródłem jest off-site backup zlokalizowany w centrum danych. W przypadku sieci lokalnej (LAN) w większości przypadków przepustowość sieci nie jest problemem.

Warto też mieć na uwadze, że w przypadku backupu, a nie odtwarzania, źródłem jest pamięć masowa macierzy, a nośnik docelowy to repozytorium backupu, czyli odwrotnie niż w procesie odtwarzania.

Dlaczego repozytorium jest częstym winowajcą?

Przez rehydratację. Dane w repozytorium backupu nie są gotowym obrazem maszyny, to skompresowane i zdeduplikowane bloki danych. Rehydratacja to proces odwrotny: dekompresja i złożenie tych bloków z powrotem w pełny, logiczny obraz, który wirtualizator (target) potrafi uruchomić.

Żeby to zrobić, serwer repozytorium musi wykonać trzy rzeczy naraz:

  • zdekompresować bloki – algorytm kompresji (LZ4, zlib lub inny wybrany przy tworzeniu zadania backupu) musi zostać odwrócony dla każdego bloku danych,
  • odnaleźć fizyczne bloki – deduplikacja oznacza, że jeden blok fizyczny może być referencjonowany przez wiele maszyn lub wiele punktów przywracania, proces musi to „rozplątać”,
  • złożyć łańcuch – zaczynając od ostatniego pełnego backupu, nakłada kolejne przyrostowe aż do wybranego punktu w czasie, blok po bloku.

Efektem jest strumień „gotowych” danych płynący do klastra produkcyjnego. I właśnie ten strumień jest tym, co mierzymy jako prędkość odtwarzania.

Jak więc widać, rehydratacja potrzebuje mocy obliczeniowej i sprawnego systemu dyskowego. Tymczasem, częstym błędem popełnianym przez zespoły jest budowa repozytorium backupu na starym gracie, który został wycofany z pracy w klastrze produkcyjnym.

Od czego zacząć szukanie wąskiego gardła?

Proponuje analizę w 3 krokach poprzez odpowiedzi na poniższe pytania.

1. Czy problem jest od początku, czy narasta? Jeśli odtwarzanie idzie wolno od pierwszej minuty, może to wskazywać na problem po stronie repozytorium lub proxy. Jeżeli start jest przyzwoity, ale proces zwalnia w trakcie, wówczas możliwe, że docelowa pamięć masowa nie wyrabia pod narastającym obciążeniem.

2. Ile zadań odtwarzania odbywa się równolegle? Każda równoległa sesja konkuruje o te same zasoby. Czasem uruchomienie mniejszej liczby sesji daje każdej więcej zasobów i łączny czas odtwarzania jest krótszy.

3. Jaki mamy najstarszy punkt przywracania? Im dalej wstecz sięgamy, tym więcej przyrostowych kopii Veeam musi złożyć w całość. To przekłada się bezpośrednio na obciążenie repozytorium i na czas odtwarzania.

Testowe odtwarzanie jako panaceum na niespodzianki

Rzadko kiedy sprawdzamy, czy coś działa, gdy nie jesteśmy do tego zmuszeni. W standardowych operacjach odtwarzanie z kopii zapasowych dotyczy zwykle przywracania określonych plików lub folderów, skrzynek pocztowych lub obiektów bazy danych. Sytuacja, gdy odtwarzamy większość systemów jest scenariuszem niezwykle rzadkim.

Jednak, gdy już dojdzie do odtwarzania całego systemu po incydencie bezpieczeństwa, a biznes stoi, wszyscy patrzą na ręce zespołu IT. Nie ma wówczas miejsca na tuning konfiguracji infrastruktury, bo każda godzina to realne straty finansowe. Dlatego, namawiam, testujcie odtwarzanie w miarę regularnie, chociaż raz na kwartał. Warto też użyć mechanizmów automatyzujących proces, w przypadku Veeam będzie to SureBackup. Da Wam to odpowiedzi, czy nadal mieścicie się w zakładanym RTO, co zmniejszy ciśnienie w już i tak stresującym procesie przywracania systemów. Pamiętajmy, że istotą systemu backup nie jest tworzenie kopii zapasowych, lecz odtwarzanie z kopii zapasowych!

Made by human BRAIN

Czy małe i średnie firmy potrzebują Disaster recovery?

Czy małe i średnie firmy potrzebują Disaster recovery?

Znawcy tematu (celowo unikam słowa eksperci) twierdzą, że Ciągłość Działania i Disaster recovery są dla firm z ustabilizowanymi przychodami. Firmy te z natury rzeczy doskonalą procesy. Co Wy na to? No właśnie, jak zwykle to zależy. Czy mała firma udostępniająca swoje systemy transakcyjne klientom i kontrahentom przetrwa kryzys w postaci dwudniowego przestoju serwerów? Pewnie tak, ale statystycznie ma o wiele mniejsze szanse niż firma duża.

W Stanach Zjednoczonych Ameryki, powstała ku przestrodze i pewnie „na zachętę” 😉 pewna statystyka. Mówi się w niej, że aż 93% firm, których centra danych nie funkcjonowały 10 lub więcej dni, ogłosiły upadłość w ciągu roku. Na dokładkę, ponad 60% firm, które całkowicie utraciły dane, zamknięto w przeciągu sześciu miesięcy. Statystyka pochodzi z NARA, czyli National Archives and Records Administration, co w wolnym tłumaczeniu oznacza: Krajową Administrację Archiwów i Rejestrów. Danych źródłowych nie widziałem, ale domyślam się, że próba została dobrana rzetelnie przez wzgląd na rangę instytucji.

Jak to wygląda u nas? Polskich statystyk chyba jeszcze nikt nie zrobił (kto widział lub słyszał niech napisze, odwdzięczę się!). Tyle, że my Polacy jesteśmy bardzo zaradni i nie takie rzeczy przeżyliśmy 😉 A tak na poważnie. Odporność biznesu jest pochodną rodzaju biznesu i rozkładu przychodów. Jeśli na przykład nasze przychody mają liniowy charakter, wówczas nakłady na Ciągłość Działania są niezbędne. Jeśli działamy projektowo, wtedy mamy mniejszą wrażliwość na przerwy dostępności infrastruktury informatycznej i aplikacji.

Pamiętajmy przy tym wszystkim o tym jaką mamy „poduchę”. Chodzi o to, jakie mamy kapitały własne, aktywa szybko zbywalne, stan konta, itd. Zazwyczaj, małe firmy mają płynność opartą na rolowaniu należności. Wówczas, wszelkie zasoby gotówki są w obrocie lub są natychmiast reinwestowane, a limity kredytowe są bardzo małe lub nie ma ich wcale. W takiej sytuacji, przerwa napływu gotówki powoduje natychmiastowe problemy płatnicze. O tym, że jak krytyczna jest płynność finansowa przekonywać nie muszę. Jeśli do tego dołożyć: problemy wizerunkowe związane z przestojem, kary umowne, to niebezpiecznie zbliżamy się do scenariusza, który może położyć firmę. Dlatego, moim zdaniem Disaster recovery jako usługa (DRaaS) to pozycja obowiązkowa dla małego i średniego biznesu.

Darmowa konsultacja - anty.expert

Ciągłość Działania

Ciągłość Działania

Zbyt wielu menadżerów uważa, że Ciągłość Działania to fanaberia bogatych firm, które mają dużo wolnych zasobów.  Często też pada argument, że prawdopodobieństwo zdarzenia, które unieruchomi organizację jest na tyle małe, że nie warto poświęcać temu czasu. Poza tym, przecież w razie czego coś wymyślimy, prawda? Jeśli masz podobną opinię i nie masz obaw, że zakłócę Twoje dobre samopoczucie, zapraszam do lektury.

Czym właściwie jest Ciągłość Działania (Business Continuity)?  Napiszę własnymi słowami, bez książkowych definicji. Chodzi o to, by działać nieprzerwanie. Proste? Mamy być przygotowani na nieprzewidziane i właśnie na takie okoliczności zbudować scenariusze przetrwania. Skuteczna reakcja firmy w sytuacji kryzysowej minimalizuje przestój. Zespół ma wiedzieć co należy robić. Jako że takie momenty w życiu firmy mogą zadecydować o jej przyszłych losach, nie ma tu miejsca na improwizację.

W planowaniu Ciągłości Działania, pod uwagę bierzemy zarówno zagadnienia techniczne – awarie maszyn, systemów IT jak i obszar biznesu, w tym problemy naszych dostawców, oraz kapitał ludzki. Dla uproszczenia, organizacje skupiają się zazwyczaj na procesach krytycznych. Czyli takich, które warunkują przetrwanie. Wskazuje je nam analiza BIA (Business Impact Analysis), czyli Analiza Wpływu na Biznes.

Kto się powinien tym zająć? Ciągłość Działania to już planowanie strategiczne, a więc obszar odpowiedzialności zarządu. W praktyce, cała organizacja musi być zaangażowana w planowanie. W szczególności właściciele procesów, czyli osoby odpowiedzialne, za poszczególne odcinki, np.: sprzedaż, marketing, zaopatrzenie, itd. I choć, cechą immanentną menadżera jest przewidywanie i szacowanie ryzyk, to jednak nasza orientacja na sukcesie rynkowym wycelowana jest w pogoń za przychodami. I w tej gonitwie, często ginie nam dbałość o zdolność do wywiązania się z powziętych zobowiązań, czyli realizację pozyskanych zleceń bez względu na okoliczności.

Niestety, ciągle jeszcze problematyka z zakresu zapewnienia Ciągłości Działania dla małych i średnich firm w Polsce, to temat tabu. Mało kto o nim wie, a jeśli już, to zagadnienie spychane jest na bliżej nieokreśloną przyszłość. Mimo odpowiedzialności Zarządu przed udziałowcami czy akcjonariuszami, w tym odpowiedzialności osobistej, nie przejawiamy zainteresowania przetrwaniem firmy, którą zarządzamy. Czy to się zmieni? Jak pokazują doświadczenia naszych europejskich sąsiadów, raczej tak.

Darmowa konsultacja - anty.expert

Czy mojej firmie potrzebne jest zapasowe centrum danych?

Czy mojej firmie potrzebne jest zapasowe centrum danych?

Pytanie z gatunku podchwytliwych 😉 Trzeba wiedzieć uprzednio jaki wpływ na procesy w naszej organizacji ma IT? Wystarczy przeprowadzić prostą projekcję. Jeśli to, że cały sprzęt informatyczny nie działa, a informatyk jest na urlopie, nie przeszkadza zbytnio firmie w prowadzeniu biznesu, lub jeśli przestój IT nie zatrzymuje procesów krytycznych, odpowiedź jest oczywista i nie trzeba czytać dalej. Komu zatem potrzebne jest zapasowe centrum danych?

Jeśli jednak Twoja organizacja silnie związana jest z przetwarzaniem danych, a najważniejsze procesy obsługiwane są przez aplikacje, trzeba się pochylić głębiej i policzyć. Co policzyć? Ano nic innego tylko koszt przestoju. Koszt ogólny będzie policzyć najłatwiej. Ci bardziej skrupulatni mają policzony koszt przestoju pojedynczego procesu. Ja do tego nie namawiam, bo bliskie jest mi podejście praktyczne i stronię od dorabiania sobie zajęć 😉

Jaki jest zatem koszt zatrzymania całej firmy? Przykładowo: firma usługowo-handlowa zatrudniająca 25 osób, pracuje 5 dni w tygodniu przez 8h dziennie, a jej roczny przychód to 15 mln złotych. Wyliczając „wartość” przestoju badamy zasadniczo dwa czynniki: utracone przychody i wynagrodzenie. W dużym uproszczeniu wygląda to tak (dla 2017 r): 15 mln / 250 dni / 8h = 7 500 zł/h. Teraz wynagrodzenia: średnia krajowa (koszt pracodawcy) 5 590 zł * 12/2 000 h = 33,54 zł/h * 25 os = 838 zł/h. Podsumowując, godzina przestoju tej firmy to 8 338 zł, za to dniówka to już 66 704 zł. Mało to czy dużo, sami oceńcie. Rzecz jasna, to nie koniec kosztów. Nie ośmielę się jednak w ten sposób oszacować kar umownych czy kosztów utraconej reputacji, bo byłoby to świętokradztwo ;-). Pamiętajmy też, że po takiej wpadce, część naszych klientów, dla bezpieczeństwa swojej ciągłości dostaw, może zechcieć zweryfikować warunki handlowe u konkurencji?

Warto liczyć i pamiętać, że zapewnienie ciągłości działania np. poprzez usługę: DRCaaS lub DRaaS, to w istocie odpowiedź na zapotrzebowanie „cyfrowych czasów”. Rynek oczekuje by firmy były dostępne non-stop. Wysoka dostępność aplikacji i danych poprawia produktywność. Technologia kreuje nową rzeczywistość, ale i stwarza możliwości by sprostać nowym wyzwaniom. Na zapewnienie ciągłości działania jeszcze kilka lat temu stać było tylko największe firmy i banki. Obecnie, dzięki wirtualizacji i usługodawcom chmurowym powstały usługi: DRCaaS i DRaaS jako odpowiedź na potrzeby i możliwości małych i średnich firm.

Darmowa konsultacja - anty.expert

Co to jest DRaaS? Kopia zapasowa czy coś więcej?

Co to jest DRaaS? Kopia zapasowa czy coś więcej?

W wolnym tłumaczeniu – odtwarzanie po awarii jako usługa. Wiem, to nadal tylko definicja, w dodatku mało trafna. Disaster recovery as a Service, to w istocie usługa zapewnienia ciągłości działania systemów informatycznych serwowana przez zewnętrznego dostawcę. Usługa jest doskonałym substytutem zapasowego centrum danych (DRC).

Chodzi o to by zabezpieczyć całą maszynerię, a nie tylko chronić dane. Jeśli w serwerowni poleje się woda albo pojawi się ogień (a to naprawdę się zdarza), wówczas sam fakt posiadania kopii zapasowych nie pozwoli nam wystartować od razu. Zdarzenie, które uszkodzi nam sprzęt, wymusza naprawę, co zazwyczaj oznacza wymianę albo zakup. Gwarancja producenta tu nie pomoże. Co wtedy? Wtedy jest różnie, zespół IT próbuje na szybko załatwić „pożyczaka”, no i szukamy substytutów, np. chmury. Tyle, że jeśli nigdy nie spisaliśmy procedury, to działania będą chaotyczne i stracimy mnóstwo czasu. A w tym przypadku czas to pieniądz. Warto wcześniej przygotować organizację na działanie w warunkach awaryjnych. Ja, w tym zakresie namawiam do outsourcingu, bo w ten sposób wstrzykujemy naszej organizacji zweryfikowany know-how i nie ponosimy inwestycji.

Jak działa DRaaS? Mamy dwie główne składowe usługi: replikację oraz serwery wirtualne. Replikacja czyli nieustanne kopiowanie zapewnia niejako odwzorowanie naszych systemów i danych na serwerach przydzielonych nam przez dostawcę DRaaS. Obrazy wędrują w zadanych interwałach czasowych lub po każdej zmianie. Serwery wirtualne czekają na sytuację w której będą potrzebne. Dostawca rezerwuje/gwarantuje nam odpowiednie konfiguracje, zgodne ze źródłem, oraz zasoby sieciowe. I teraz, gdy mamy solidny kryzys w naszej serwerowni sami decydujemy o przełączeniu. Nasze konfiguracje, dane i aplikacje wystartują w centrum danych dostawcy. Do aplikacji dostawać się będziemy bezpiecznymi kanałami VPN, łącząc się poprzez Internet, np. z domu. Można także zapewnić tymczasowe miejsce pracy dla zespołu, ośrodki szkoleniowe mają dobrą ofertę. Na koniec, jeszcze „tylko” trzeba wrócić, do stanu sprzed awarii.

Czy DRaaS zastępuje backup? Nie, w żadnym wypadku! Backup, czyli kopie bezpieczeństwa to podstawa, a DRaaS to następny krok.

Chętnie poznam Wasze definicje DRaaS, gdyż ciągle szukam zgrabnej formułki. Zachęcam do lektury wpisu: czy każdej organizacji potrzebne jest zapasowe centrum danych.

Darmowa konsultacja - anty.expert