Viability sp. z o.o.

Co naprawdę ogranicza szybkość odtwarzania z backupu?

17 kwietnia 202617 kwietnia 2026

Gdy przychodzi „ten moment”, że trzeba odtwarzać dane i systemy z kopii zapasowych bardzo szybko przekonujemy się, że nasze dwugodzinne RTO nijak się ma do rzeczywistości. W dodatku, przyczyna powolnego odtwarzania z backupu rzadko leży tam, gdzie się jej intuicyjnie spodziewamy. Codzienna rutyna związana z wykonywaniem kopii zapasowych zostaje gwałtownie przerwana i mamy oto nowe wyzwanie, którym jest odtwarzanie. Co ciekawe dla wielu ta sytuacja jest pierwszą próbą całego procesu i nierzadko bardzo bolesną lekcją.

Odtwarzanie to proces, a nie pojedyncza operacja

Myśląc o szybkim odtwarzaniu z kopii zapasowych albo planując obniżenie RTO warto pamiętać, że odtwarzanie to nie jest tylko „kopiowanie pliku z repozytorium na serwer docelowy”. To łańcuch kilku następujących po sobie operacji, gdzie przepustowość całego procesu jest równa przepustowości najwolniejszego ogniwa. Aby zrozumieć złożoność odtwarzania z kopii zapasowej, przedstawię uproszczoną sekwencję procesu:

Odczyt metadanych. Oprogramowanie backupowe (w tym przykładzie Veeam) odczytuje plik metadanych i identyfikuje, jakie pliki składają się na wybrany punkt przywracania: ostatni pełny backup plus wszystkie kolejne przyrostowe, które trzeba nałożyć, żeby dotrzeć do żądanego momentu w czasie.
Rehydratacja. Dane w repozytorium nie są gotowym do skopiowania obrazem maszyny. Są skompresowanymi i zdeduplikowanymi blokami rozrzuconymi po wielu plikach. Żeby mogły wrócić w postaci maszyny wirtualnej (VM) na serwer produkcyjny, muszą zostać najpierw zdekompresowane i złożone w logiczny obraz. Ten etap to właśnie rehydratacja i to tutaj najczęściej chowa się wąskie gardło.
Transfer przez „pośredników” (proxy). W przypadku technologii Veeam, do transferu używane są dwa procesy: jeden po stronie repozytorium (czyta i rehydratuje), drugi po stronie docelowej (zapisuje dane na produkcyjną pamięć masową poprzez silnik wirtualizacji). To, co mierzymy jako „prędkość odtwarzania w MB/s”, to efektywna prędkość tego strumienia, a nie odczyt z repozytorium backupu, ani nie przepustowość łącza.
Zapis na docelowej pamięci masowej (target). Szybkość zapisu na macierzy produkcyjnej zależna jest od trybu transportu (Direct SAN, Hot-Add, NBD), bo każdy ma inną charakterystykę wydajnościową.
Rejestracja i uruchomienie VM. Po zapisaniu wszystkich bloków maszyna jest rejestrowana w inwentarzu silnika wirtualizacji na klastrze produkcyjnym i może zostać uruchomiona.

Gdzie najczęściej jest wąskie gardło?

Skoro wiemy już jak wygląda proces odtwarzania, łatwo się domyśleć, że nie wystarczy mieć wysoko przepustową sieć, bo słaba wydajność repozytorium albo klastra wirtualizacji kompletnie zdegraduje szybkość odtwarzania, a to przecież nie wyczerpuje tematu.

Poniżej lista typowych wąskich gardeł procesu odtwarzania z backupu uszeregowana od najczęstszych.

1️⃣ Repozytorium (source). Odtwarzanie z backupu to operacja zarówno dyskowa jak i obliczeniowa, więc duże znaczenie ma I/O i CPU urządzenia. Repozytorium na wolnych dyskach SATA albo z niedowymiarowanym CPU potrafi dać stały sufit na poziomie 200–300 MB/s, niezależnie od tego, co będziemy mieli w innych miejscach.

2️⃣ Docelowa pamięć masowa (target). Macierz produkcyjna i klaster wirtualizacji pod obciążeniem odtwarzania często okazuje się wolniejsza, niż było to w ulotce produktowej producenta. Szczególnie gdy równolegle musi obsługiwać inne maszyny wirtualne lub kilka równoczesnych sesji odtwarzania.

3️⃣ Pośrednik (proxy). Serwer proxy Veeam odbiera dane ze źródła, przetwarza je i przekazuje do miejsca docelowego. W praktyce proxy staje się wąskim gardłem rzadziej niż repozytorium czy storage docelowy. Może się to jednak zdarzyć, gdy damy mu za mało mocy obliczeniowej przy wielu równoległych sesjach albo zbyt wiele zadań odtwarzania jednocześnie.

4️⃣ Sieć (network). Dopiero na tym etapie dochodzimy do limitów związanych z interfejsami sieciowymi i przepustowością sieci. Łącze staje się wąskim gardłem głównie, gdy odtwarzanie realizowane jest przez sieć rozległą (WAN), np. gdy źródłem jest off-site backup zlokalizowany w centrum danych. W przypadku sieci lokalnej (LAN) w większości przypadków przepustowość sieci nie jest problemem.

Warto też mieć na uwadze, że w przypadku backupu, a nie odtwarzania, źródłem jest pamięć masowa macierzy, a nośnik docelowy to repozytorium backupu, czyli odwrotnie niż w procesie odtwarzania.

Dlaczego repozytorium jest częstym winowajcą?

Przez rehydratację. Dane w repozytorium backupu nie są gotowym obrazem maszyny, to skompresowane i zdeduplikowane bloki danych. Rehydratacja to proces odwrotny: dekompresja i złożenie tych bloków z powrotem w pełny, logiczny obraz, który wirtualizator (target) potrafi uruchomić.

Żeby to zrobić, serwer repozytorium musi wykonać trzy rzeczy naraz:

zdekompresować bloki – algorytm kompresji (LZ4, zlib lub inny wybrany przy tworzeniu zadania backupu) musi zostać odwrócony dla każdego bloku danych,
odnaleźć fizyczne bloki – deduplikacja oznacza, że jeden blok fizyczny może być referencjonowany przez wiele maszyn lub wiele punktów przywracania, proces musi to „rozplątać”,
złożyć łańcuch – zaczynając od ostatniego pełnego backupu, nakłada kolejne przyrostowe aż do wybranego punktu w czasie, blok po bloku.

Efektem jest strumień „gotowych” danych płynący do klastra produkcyjnego. I właśnie ten strumień jest tym, co mierzymy jako prędkość odtwarzania.

Jak więc widać, rehydratacja potrzebuje mocy obliczeniowej i sprawnego systemu dyskowego. Tymczasem, częstym błędem popełnianym przez zespoły jest budowa repozytorium backupu na starym gracie, który został wycofany z pracy w klastrze produkcyjnym.

Od czego zacząć szukanie wąskiego gardła?

Proponuje analizę w 3 krokach poprzez odpowiedzi na poniższe pytania.

1. Czy problem jest od początku, czy narasta? Jeśli odtwarzanie idzie wolno od pierwszej minuty, może to wskazywać na problem po stronie repozytorium lub proxy. Jeżeli start jest przyzwoity, ale proces zwalnia w trakcie, wówczas możliwe, że docelowa pamięć masowa nie wyrabia pod narastającym obciążeniem.

2. Ile zadań odtwarzania odbywa się równolegle? Każda równoległa sesja konkuruje o te same zasoby. Czasem uruchomienie mniejszej liczby sesji daje każdej więcej zasobów i łączny czas odtwarzania jest krótszy.

3. Jaki mamy najstarszy punkt przywracania? Im dalej wstecz sięgamy, tym więcej przyrostowych kopii Veeam musi złożyć w całość. To przekłada się bezpośrednio na obciążenie repozytorium i na czas odtwarzania.

Testowe odtwarzanie jako panaceum na niespodzianki

Rzadko kiedy sprawdzamy, czy coś działa, gdy nie jesteśmy do tego zmuszeni. W standardowych operacjach odtwarzanie z kopii zapasowych dotyczy zwykle przywracania określonych plików lub folderów, skrzynek pocztowych lub obiektów bazy danych. Sytuacja, gdy odtwarzamy większość systemów jest scenariuszem niezwykle rzadkim.

Jednak, gdy już dojdzie do odtwarzania całego systemu po incydencie bezpieczeństwa, a biznes stoi, wszyscy patrzą na ręce zespołu IT. Nie ma wówczas miejsca na tuning konfiguracji infrastruktury, bo każda godzina to realne straty finansowe. Dlatego, namawiam, testujcie odtwarzanie w miarę regularnie, chociaż raz na kwartał. Warto też użyć mechanizmów automatyzujących proces, w przypadku Veeam będzie to SureBackup. Da Wam to odpowiedzi, czy nadal mieścicie się w zakładanym RTO, co zmniejszy ciśnienie w już i tak stresującym procesie przywracania systemów. Pamiętajmy, że istotą systemu backup nie jest tworzenie kopii zapasowych, lecz odtwarzanie z kopii zapasowych!

Lista dostawców DRaaS w Polsce

18 lutego 202218 lutego 2022

Disaster Recovery as a Service jako substytut, a czasem także sukcesor, klasycznego DRC ma się dobrze w Polsce. Ekosystem usługodawców ciągle się powiększa. Co prawda tych, dla których DRaaS stanowi ważną linię biznesu właściwie nie ma, to jednak fakt, że jest wybór, także ma znaczenie. Oto zaktualizowana lista dostawców DRaaS, zawierająca najważniejsze parametry i cechy usługi oraz opis zaplecza usługodawców.

DRaaS to dla wielu firm pierwszy krok do chmury, dlatego nie może zabraknąć tej usługi w polskich centrach danych. Wśród nowych graczy na liście dostawców DRaaS w tej edycji znajdziecie takie firmy jak Netia, T-Mobile Polska i Beyond. Poza operatorami, którzy rozbudowują swoje oferty, bazując na własnej chmurze obliczeniowej, znaleźć można także specjalizowanych dostawców. Tym razem lista dotyczy wyłącznie usługi DRaaS. Klasyczne DRC, a więc podejście projektowe, robi praktycznie każdy operator, w tym spore grono integratorów.

Wśród naszych krajowych dostawców DRaaS dominują dwie technologie:

VMware (VMware vCloud Director + VMware vCloud Availability);
Veeam (Veeam Cloud Connect + vCloud Director).

W przypadku DRaaS realizowanego w oparciu o Veeam, zwykle usługodawcy dają możliwość obsługi dwóch wirtualizatorów: vSphere (ESXi) oraz HyperV. Rozwiązanie VMware póki co, umożliwia obsługę tylko jednego silnika wirtualizacji – vSphere

Przy wyborze dostawcy zwracajcie uwagę na właściwie rozumienie parametru RPO (Recovery Point Objective). Dostawcy bazujący na VMware vCloud Availability oddzielają interwał replikacji od liczby punktów przywracania. Na nic się zda nabycie usługi z RPO na poziomie 15 minut, jeżeli jednocześnie otrzymamy tylko 6 punktów przywracania na dobę. Dlatego w tabeli traktuję RPO jako pochodną liczby punktów przywracania na dobę. Jeżeli dostawca daje ich maksymalnie 24, wówczas RPO wynosi 60 minut. W przypadku RTO nie powinno być niespodzianek. Zwróćmy jednak uwagę, że w przypadku usługodawców z technologią od VMware, zwykle odtworzenie awaryjne, czyli tryb failover, będzie wymagał naszej ręcznej orkiestracji. Dostawcy z technologią Veeam, już od dawna dają Wam możliwość zdefiniowania sekwencji podniesień poszczególnych maszyn.

Zestawienia w postaci tabelarycznej, by można było łatwo poddać je własnej edycji. Każdą tabelkę możecie skopiować lub pobrać w kilku formatach. Kolejność alfabetyczna.

Lista dostawców DRaaS - luty 2022

Firma	Strona Usługi	Lokalizacja centrum danych	SLA centrum danych	SLA usługi	ISO 27001	ISO 22301	Czas uruchomienia	Darmowy okres próbny	Technologia	Obsługiwane hypervisory	Obsługa maszyn fizycznych	Portal usługi	Metoda rozliczenia	Wynajem licencji OS/DB	RPO (min)	RTO (min)	Konfiguracja środowiska klienta	Okres związania umową	Cykl rozliczeniowy
3S Data Center	https://cutt.ly/Cloud2B	Katowice, Warszawa	99.999%	99.50%	Tak	Nie	4h	14 dni	Veeam	ESXi, Hyper-V	Tak	Tak	Abonament miesięczny, w cenie testy przez 7 dni na m-c. Licencje OS/DB (o ile wymagane) za cały miesiąc.	Tak	15	30	Tak	miesiąc	miesiąc
Beyond	https://cutt.ly/beyondpl	Poznań	99.9999%	99.5%	Tak	Nie	48 h	14 dni	VMware	ESXi	Nie	Tak	Ryczałt miesięczny z opłatą rezerwacyjną. Licencje OS/DB (o ile wymagane) za cały miesiąc.	Tak	60	15	Tak	rok	miesiąc
Engave	https://cutt.ly/Engave	Warszawa (Netia)	99.99%	99%	Tak	Nie	2 h	14 dni	Veeam	ESXi, Hyper-V	Nie	Nie	Ryczałt miesięczny za replikację. Uruchomienie awaryjne rozliczane za użycie.	Nie	15	120	Tak	6 miesięcy	miesiąc
Exea Data Center	https://cutt.ly/Exea	Toruń	99.99%	99.99%	Tak	Tak	1 h	30 dni	Veeam	ESXi	Nie	Tak	Ryczałt miesięczny za replikację. Uruchomienie awaryjne rozliczane za godziny (raz na pół roku). Licencje OS/DB (o ile wymagane) za cały miesiąc.	Tak	15	15	Tak	miesiąc	miesiąc
Netia	https://cutt.ly/Netia	Warszawa	99.99%	99.5%	Tak	Nie	48 h	14 dni	VMware	ESXi	Nie	Tak	Ryczałt miesięczny z opłatą rezerwacyjną. Licencje OS/DB (o ile wymagane) za cały miesiąc.	Tak	60	15	Nie	rok	miesiąc
T-Mobile Polska	https://cutt.ly/TMobile	Katowice, Warszawa	99.99%	99.95%	Tak	Tak	48 h	14 dni	VMware	ESXi	Nie	Tak	Ryczałt miesięczny z opłatą rezerwacyjną. Licencje OS/DB (o ile wymagane) za cały miesiąc.	Tak	60	15	Nie	rok	miesiąc

Jeżeli nie ma na tej liście ważnego gracza, koniecznie daj znać.

Jeżeli masz pytania lub chcesz porozmawiać o dostawcach wymienionych na tej liście, skorzystaj z darmowej konsultacji. Link do mojego kalendarza znajdziesz poniżej.

Ciągłość działania Centrum Danych

10 marca 202112 marca 2025

Od czasu do czasu, gdy dochodzi do katastrofy, czyli zdarzenia o naturze niszczącej, pojawia się pytanie o granice odpowiedzialności operatora Centrum Danych. Wówczas też, wiele osób z branży, samozwańczo przywdziewa szaty eksperta od Odtwarzania Awaryjnego rozumiejącego Ciągłość Działania Centrum Danych. Z takim nadaniem, bez pardonu biczuje zwykle nieszczęśnika. Zazwyczaj, chodzi o to, że w opinii „ekspertów”, wszystko powinno być zdublowane. Najlepiej replikowane do innego Data Center. Tylko, czy aby na pewno? Czy operator ośrodka przetwarzania może zabezpieczyć przed katastrofą każdego klienta?

Zacznę od przekrojowego przedstawienia usług świadczonych przez typowe Data Center, bo zrozumienie tego aspektu jest kluczowe. Nie jest tak, jak uważa wielu, że Centrum Danych zajmuje się głównie dostarczaniem chmury publicznej. Ba, większość biznesu dla typowego DC, to kolokacja, wynajem kiosków, czy całych komór. Dochodzą także tzw. dedyki, czyli instalacje serwerowo-sieciowe przygotowywane dla konkretnego klienta. Dopiero na końcu stawki są usługi przetworzone, repozytoria, archiwizacja, backup i chmura publiczna oraz prywatna plus różne usługi dodatkowe.

Widzicie już pewnie do czego zmierzam. Co usługodawca może wiedzieć o Planie Odtwarzania Awaryjnego klienta, który wynajmuje u niego 2 szafy rack postawione obok siebie? Operator świadczy w tym przypadku usługę kolokacji. Zapewnia szafy, dostarcza zakontraktowaną moc (prąd), realizuje połączenia sieciowe i dba odpowiednie warunki środowiskowe (temperatura, wilgotność powietrza, itp.). Natomiast, nie ma wiedzy o tym, co klient w tych szafach trzyma. Albo weźmy klaster serwerów dedykowanych, które klient odbiera do poziomu wirtualizatora. Czy taka usługa jest odporna na pożar Centrum Danych? Kompletnie nie! Chyba że klient wykupi sobie podobna usługę w innym DC i zsynchronizuje te zasoby. Może też robić kopie zapasowe lub nabyć usługę DRaaS. Ważne przy tym, by repliki składować w innym ośrodku. Zatem, czy operator Centrum Danych może samodzielnie zabezpieczyć klienta przed katastrofą? Bez jego chęci i woli, nie ma o tym mowy.

Trochę inaczej wygląda to z perspektywy hiperskalerów, które budują ośrodki przetwarzania wyłącznie na potrzeby swoich chmur. Jednak, nawet i w tym przypadku nic nie dzieje się samo.

Nie wiem, czy słyszeliście o „wspólnej odpowiedzialności” (shared responsibility)? Dostawcy chmury publicznej jasno definiują, za co odpowiadają przy każdym z typów usług. Gdy uruchamiamy serwer wirtualny (VPS), sami musimy zadbać o jego ciągłość działania. Służy temu na przykład Site Recovery (Azure), oczywiście to usługa dodatkowo płatna. Jeśli nie zdecydujemy się na takie zabezpieczenie, będziemy musieli pogodzić się z ewentualnymi konsekwencjami, w razie katastrofy.

Wszystko ma swoją cenę. Nie zapłacisz teraz, zapłacisz później, zwykle jeszcze więcej. Dlatego, analizując ryzyka, ważmy koszty ich materializacji. Zestawmy ze sobą, całkowite koszty przestoju oraz odtwarzania awaryjnego. Dodajmy konsekwencje utraty wizerunku i klientów. Porównajmy to z ceną usługi, nawet na 3 lata, która ten przestój skróci lub wyeliminuje. Dodajmy jeszcze do tego nasz święty spokój, który dostajemy w bonusie 🙂 . Taka jest właśnie recepta na ciągłość działania bez względu na to jakie Centrum Danych wybierzemy.

Nadmiarowość, czy odtwarzanie po awarii?

4 sierpnia 20197 marca 2022

Czym jest uptime i jak się to ma do czasu przestoju? Ile dziewiątek po przecinku gwarantuje względny spokój, gdy mowa jest o wysokiej dostępności infrastruktury informatycznej? I na koniec, na co postawić: na nadmiarowość, czy może na błyskawiczne odtwarzanie po awarii?

Czy wiesz jaki poziom dostępności mają Twoje systemy? Najlepsze centra danych w Polsce (np.: Atman, Beyond, Exea, Polcom, T-mobile), mogą pochwalić się niezawodnością na poziomie 99,99%. Oznacza to, że ich przestój w skali roku nie przekroczy godziny. Zwracam jednak uwagę, że procenty dotyczą określonych usług. Już tłumaczę. Powiedzmy, że zdecydujemy się na usługę kolokacji, czyli wynajmujemy miejsce w szafach teletechnicznych w centrum danych. Usługodawca deklaruje cztery dziewiątki. Czy w związku z tym nasze środowisko także będzie miało dostępność na poziomie 99,99%? Najprawdopodobniej nie. Wysoka dostępność dotyczy systemów zbudowanych w centrum danych, w tym zasilania, łączności, klimatyzacji, itp. Wystarczy, że architektura naszego rozwiązania została zaprojektowana bez nadmiarowości. Czyli do szaf wynajętych w centrum danych włożymy pojedyncze urządzenia. Wówczas niestety, poziom dostępności naszego środowiska IT będzie równy poziomowi dostępności najsłabszego elementu.

Czas nieprzerwanej pracy systemów określany jako uptime, dotyczy każdego elementu infrastruktury IT. Projektując wysokodostępne środowisko IT należy eliminować pojedyncze punkty awarii. Robimy to dublując urządzenia z najniższym przeciętnym uptime. Właściwie, to robimy to dublując wszystko co się da 🙂 Jedyne odstępstwa dotyczą usług, których niedostępność nie zatrzymuje procesów krytycznych dla działalności operacyjnej. W ten sposób istotnie zmniejszamy ryzyko wystąpienia przestojów. Naturalnie, poszczególne systemy nie muszą mieć jednakowego poziomu dostępności. Ustalanie precyzyjnych wskaźników dla każdej usługi wpływa wprost na poziom nakładów na środowisko IT i na rodzaj i koszt Disaster recovery.

Wysoka dostępność (HA) jest pochodną nadmiarowości. Odtwarzanie awaryjne uznać powinniśmy za uzupełnienie HA, bo odpowiada na problemy, których nie rozwiąże nawet rozproszony geograficznie klaster wysokiej dostępności. Disaster recovery (np. DRaaS) to ostatnia deska ratunku, gdy nasze systemy padną ofiarą cyberataku lub co bardziej prawdopodobne, staną się niedostępne przez jakiegoś wirusa szyfrującego. Moje doświadczenia pokazują, że nadmiarowość i odtwarzanie po awarii, które według najlepszych praktyk ITIL powinny być komplementarne, bardzo często rozdziela tytułowe „czy”.

Czy małe i średnie firmy potrzebują Disaster recovery?

29 lipca 201917 listopada 2020

Znawcy tematu (celowo unikam słowa eksperci) twierdzą, że Ciągłość Działania i Disaster recovery są dla firm z ustabilizowanymi przychodami. Firmy te z natury rzeczy doskonalą procesy. Co Wy na to? No właśnie, jak zwykle to zależy. Czy mała firma udostępniająca swoje systemy transakcyjne klientom i kontrahentom przetrwa kryzys w postaci dwudniowego przestoju serwerów? Pewnie tak, ale statystycznie ma o wiele mniejsze szanse niż firma duża.

W Stanach Zjednoczonych Ameryki, powstała ku przestrodze i pewnie „na zachętę” 😉 pewna statystyka. Mówi się w niej, że aż 93% firm, których centra danych nie funkcjonowały 10 lub więcej dni, ogłosiły upadłość w ciągu roku. Na dokładkę, ponad 60% firm, które całkowicie utraciły dane, zamknięto w przeciągu sześciu miesięcy. Statystyka pochodzi z NARA, czyli National Archives and Records Administration, co w wolnym tłumaczeniu oznacza: Krajową Administrację Archiwów i Rejestrów. Danych źródłowych nie widziałem, ale domyślam się, że próba została dobrana rzetelnie przez wzgląd na rangę instytucji.

Jak to wygląda u nas? Polskich statystyk chyba jeszcze nikt nie zrobił (kto widział lub słyszał niech napisze, odwdzięczę się!). Tyle, że my Polacy jesteśmy bardzo zaradni i nie takie rzeczy przeżyliśmy 😉 A tak na poważnie. Odporność biznesu jest pochodną rodzaju biznesu i rozkładu przychodów. Jeśli na przykład nasze przychody mają liniowy charakter, wówczas nakłady na Ciągłość Działania są niezbędne. Jeśli działamy projektowo, wtedy mamy mniejszą wrażliwość na przerwy dostępności infrastruktury informatycznej i aplikacji.

Pamiętajmy przy tym wszystkim o tym jaką mamy „poduchę”. Chodzi o to, jakie mamy kapitały własne, aktywa szybko zbywalne, stan konta, itd. Zazwyczaj, małe firmy mają płynność opartą na rolowaniu należności. Wówczas, wszelkie zasoby gotówki są w obrocie lub są natychmiast reinwestowane, a limity kredytowe są bardzo małe lub nie ma ich wcale. W takiej sytuacji, przerwa napływu gotówki powoduje natychmiastowe problemy płatnicze. O tym, że jak krytyczna jest płynność finansowa przekonywać nie muszę. Jeśli do tego dołożyć: problemy wizerunkowe związane z przestojem, kary umowne, to niebezpiecznie zbliżamy się do scenariusza, który może położyć firmę. Dlatego, moim zdaniem Disaster recovery jako usługa (DRaaS) to pozycja obowiązkowa dla małego i średniego biznesu.