Nadmiarowość, czy odtwarzanie po awarii?

Nadmiarowość, czy odtwarzanie po awarii?

Czym jest uptime i jak się to ma do czasu przestoju?  Ile dziewiątek po przecinku gwarantuje względny spokój, gdy mowa jest o wysokiej dostępności infrastruktury informatycznej? I na koniec, na co postawić: na nadmiarowość czy może na błyskawiczne odtwarzanie po awarii?

Czy wiesz jaki poziom dostępności mają Twoje systemy?  Najlepsze centra danych w Polsce (np.: Atman, Beyond, Exea, Polcom, T-mobile), mogą pochwalić się niezawodnością na poziomie 99,99%. Oznacza to, że ich przestój w skali roku nie przekroczy godziny. Zwracam jednak uwagę, że procenty dotyczą określonych usług. Już tłumaczę. Powiedzmy, że zdecydujemy się na usługę kolokacji, czyli wynajmujemy miejsce w szafach teletechnicznych w centrum danych. Usługodawca deklaruje cztery dziewiątki. Czy w związku z tym nasze środowisko także będzie miało dostępność na poziomie 99,99%? Najprawdopodobniej nie. Wysoka dostępność dotyczy systemów zbudowanych w centrum danych, w tym zasilania, łączności, klimatyzacji, itp. Wystarczy, że architektura naszego rozwiązania została zaprojektowana bez nadmiarowości. Czyli do szaf wynajętych w centrum danych włożymy pojedyncze urządzenia. Wówczas niestety, poziom dostępności naszego środowiska IT będzie równy poziomowi dostępności najsłabszego elementu.

Czas nieprzerwanej pracy systemów określany jako uptime, dotyczy każdego elementu infrastruktury IT. Projektując wysokodostępne środowisko IT należy eliminować pojedyncze punkty awarii. Robimy to dublując urządzenia z najniższym przeciętnym uptime. Właściwie, to robimy to dublując wszystko co się da 🙂 Jedyne odstępstwa dotyczą usług, których niedostępność nie zatrzymuje procesów krytycznych dla działalności operacyjnej. W ten sposób istotnie zmniejszamy ryzyko wystąpienia przestojów. Naturalnie, poszczególne systemy nie muszą mieć jednakowego poziomu dostępności. Ustalanie precyzyjnych wskaźników dla każdej usługi wpływa wprost na poziom nakładów na środowisko IT i na rodzaj i koszt Disaster recovery.

Wysoka dostępność (HA) jest pochodną nadmiarowości. Odtwarzanie awaryjne uznać powinniśmy za uzupełnienie HA, bo odpowiada na problemy, których nie rozwiąże nawet rozproszony geograficznie klaster wysokiej dostępności. Disaster recovery (np. DRaaS) to ostatnia deska ratunku, gdy nasze systemy padną ofiarą cyberataku lub co bardziej prawdopodobne, staną się niedostępne przez jakiegoś wirusa szyfrującego. Moje doświadczenia pokazują, że nadmiarowość i odtwarzanie po awarii, które według najlepszych praktyk ITIL powinny być komplementarne, bardzo często rozdziela tytułowe „czy”.

Planowanie odtwarzania po awarii – 7 grzechów głównych

Planowanie odtwarzania po awarii – 7 grzechów głównych

Jako samozwańczy „ewangelista” z zakresu ciągłości działania – czuję się usprawiedliwiony sięgając po katechizm 😉 Nie będę jednak prawił kazań. Opowiem tylko o typowych błędach jakie towarzyszą planowaniu odtwarzania po awarii, pamiętając przy tym o lekkostrawnej formie.

    1. Pycha. Nam się nic nie przytrafi. Zadziwiająco często spotykam menadżerów którzy jak mantrę powtarzają: „Przecież nigdy się to nie zdarzyło, po co więc chronić się przed takim ryzykiem?” Wtedy zalecam BIA (Analiza wpływu na biznes), która wprost odpowiada na pytanie czy warto czy też nie.
    2. Chciwość. Ta inwestycja nie przyniesie pieniędzy. Biznes nie lubi inwestować gdy nie widzi policzalnych zwrotów. Ciągłość działania porównać można do polisy ubezpieczeniowej, gdzie nakłady to koszt. Niestety, nie wiadomo, czy zaangażowane środki się zwrócą – czyli czy na przykład dzięki nim uratujemy organizację od przestoju. Pozostaje chłodna analizy ryzyk i ich wpływu na biznes oraz kosztów przestoju.
    3. Nieczystość. Nadmiarowość to nie odtwarzanie po awarii. Posiadanie klastra wysokiej dostępności, wyeliminowanie pojedynczych punktów awarii infrastruktury czy świetnie zabezpieczone centrum danych to solidny fundament ciągłości działania. Nie jest to jednak ochrona przed każdym ryzykiem. Przeciętny informatyk wyrwany ze snu bez wahania wskaże kilka scenariuszy, które zatrzymają IT Twojego przedsiębiorstwa.
    4. Zazdrość. Pomijanie właścicieli procesów. Zapominamy, lub co gorsza nie chcemy włączyć do planowania wszystkich interesariuszy. To strzał w kolano. Bez ich wiedzy nie będzie skutecznego odtworzenia po awarii.
    5. Nieumiarkowanie. Wszystko jest krytyczne. Klasyka. Zwykle, gdy zespół IT arbitralnie decyduje o tym, jakie zasoby mają być zabezpieczone na wypadek awarii, mamy sytuację, w której zasoby centrum zapasowego równe są zasobom centrum podstawowego.
    6. Gniew. Dlaczego działa tak wolno? Aspekt wydajności środowiska zapasowego jest częstym zarzewiem konfliktów wewnętrznych i zewnętrznych. Pamiętajmy, że to proteza, niezbędna do czasu powrotu stanu normalnego. Mamy podtrzymać procesy krytyczne. Poza tym testujmy praktycznie nasz plan odzyskiwania po awarii.
    7. Lenistwo. Zbytnie zaufanie do dostawcy DRaaS. Odtwarzanie po awarii jako usługa wymaga zaangażowania każdej strony umowy. Dostawca odpowiada za technologię i zasoby po swojej stronie. My natomiast, zadbajmy o uruchomienia testowe czy też cykliczne aktualizujmy plan odtwarzania po awarii. Przy okazji, zmianie może ulec zapotrzebowanie na zasoby dostawcy.

Czy DRCaaS = DRaaS? Zapasowe centrum danych

Czy DRCaaS = DRaaS? Zapasowe centrum danych

Disaster Recovery Center lub zamiennie DR Site, to po prostu zapasowe centrum danych. Miejsce w którym utrzymujemy sprzęt podobny lub tożsamy z tym z ośrodka podstawowego. Idea jest taka, aby w razie awarii podstawowego centrum danych możliwie szybko uruchomić nasze systemy i aplikacje z ośrodka zapasowego. Dodawanie do DRC czy do DRS członu „as a service” (jako usługa), oznacza, że może chodzić o DRC w wirtualnym wydaniu.

No dobrze, co to oznacza? Przyjmijmy, że mamy dostawcę, który oferuje nam Zapasowe Centrum Danych. Zazwyczaj jest to kawałek miejsca w szafie lub wiele szaf zlokalizowanych w Centrum Danych. Miejsce to, z natury rzeczy spełnia określone kryteria jakości usług. Głównie chodzi o nadmiarowość wszelkich systemów, poczynając od chłodzenia, zasilania, gaszenia, a na przyłączach telekomunikacyjnych i energetycznych kończąc. W klasycznym podejściu instalujemy tam nasze serwery. Oznacza to jednak, że dublujemy naszą infrastrukturę. Możemy „zaoszczędzić” decydując się na odwzorowanie częściowe, tylko dla zasobów krytycznych. W takim przypadku mamy zarówno koszty inwestycji jak i powiększone koszty operacyjne, bo trzeba płacić za miejsce w centrum danych dostawcy.

Innym rozwiązaniem jest DRCaaS lub DRSaaS. Różnica w stosunku do DRC/DRS polega na tym, że dostawca daje nam zasoby sprzętowe w postaci wirtualnych przydziałów w ramach własnych zasobów fizycznych. I tak, zamiast serwera otrzymujemy wirtualny serwer, zamiast przełącznika – przełącznik wirtualny, itd. Całość zasobów z naszego ośrodka podstawowego odwzorowujemy w przydzielonym przez dostawcę środowisku. Zwykle dostawcy oddają nam interfejs, dzięki któremu informatycy mogą zbudować zapasowe środowisko samodzielnie.

No i na deser odpowiedź na pytanie z tytułu, czy DRCaaS = DRaaS? Otóż nie – to są różne, choć funkcjonalnie podobne usługi. DRC jako usługa, to takie wirtualne centrum danych, które konfigurujemy na przykład dla potrzeb disaster recovery, ale nie tylko. Tymczasem DRaaS to usługa skupiona przede wszystkim na utrzymaniu ciągłości działania wirtualnego środowiska IT klienta. Zwykle usługa jest łatwa w implementacji, gdyż bazuje na znanej technologii najczęściej powiązanej z tą, używaną w środowisku informatycznym klienta. Obie usługi są też zwykle inaczej rozliczane. Na koniec można napisać, że DRaaS może być częścią usługi DRCaaS, ale nie na odwrót.

Ile wytrzyma biznes bez Internetu?

Ile wytrzyma biznes bez Internetu?

Zapewniam, że bardzo krótko. Firmy badawcze podają, że już godzinne odcięcie to dla 50% firm w Europie straty zauważalne. Czy u nas jest inaczej? Raczej nie, to dlaczego tak mało przedsiębiorstw posiada łącze zapasowe? Polaku, tnij koszty, ale we właściwych miejscach! Dostęp do Internetu ma obecnie wyższy priorytet niż telefon. Nie ma się co dziwić, aplikacje mnożą się jak bakterie, a każda z nich do życia potrzebuje sieci.

Przypowieść z życia wzięta, niestety typowa. Firma usługowa, dla której komunikacja z otoczeniem to podstawa. Koparka rozkopuje kanalizację wtórną (to ta rura w ziemi, w którą wkłada się kable) i przecina światłowody oraz przyłącza miedziane. W efekcie wiele firm traci wszelką łączność i biznes zostaje bez Internetu. Czy da się zapobiec takiemu zdarzeniu? Wątpię. Za to, da się zabezpieczyć organizację przed całkowitą utratą łączności. Ruch telefoniczny i tak migruje na komórki, ale czy z komórek mamy wchodzić do sieci, gdy biznes zostaje bez Internetu? Oczywiście, to byłaby solidna dziura w bezpieczeństwie.

Jeśli dublujesz łącze, rób to z głową. Jaki sens mają dwa łącza od tego samego operatora? Albo, po co dwóch operatorów, z których każdy wchodzi do budynku tym samym światłowodem. Redundancja łącza, aby była rzeczywistą, winna zostać zrealizowana przez dwóch niezależnych dostawców w oparciu o różne media transmisji, czyli na przykład radio i światłowód. Jednocześnie, usługi nie mogą być obsługiwane przez pojedyncze urządzenie. Z tego powstaje wzór łatwy do zapamiętania: 2-2-2, czyli dwóch dostawców, dwa media i dwa urządzenia. Trzymajcie się tego a Internetu Wam nie zabraknie 😉

Oferty w zakresie łącza zapasowego są od zawsze, a teraz w dodatku operatorzy radiowi, zdywersyfikowali usługi. Bez problemu możemy mieć radiówkę przy której rozliczamy się wielkość portu (przepustowość) i za ruch. Gdy łącze jest bezczynne mamy niewielką stałą opłatę abonamentową. Prawda, że pięknie!? Niektórzy operatorzy tworzą też oferty od razu uwzględniające zapas, np. w oparciu o LTE/3G. Uważajcie jednak aby na końcu były dwa a nie jedno urządzenie (reguła 2-2-2), dostawca zwykle chce zaoszczędzić. Poza tym jeśli macie zespół większy niż 10 osób, to współdzielenie dostępu komórkowego będzie bardzo mało komfortowe.