Ciągłość działania Centrum Danych

Ciągłość działania Centrum Danych

Od czasu do czasu, gdy dochodzi do katastrofy, czyli zdarzenia o naturze niszczącej, pojawia się pytanie o granice odpowiedzialności operatora Centrum Danych. Wówczas też, wiele osób z branży, samozwańczo przywdziewa szaty eksperta od Odtwarzania Awaryjnego rozumiejącego Ciągłość Działania Centrum Danych. Z takim nadaniem, bez pardonu biczuje zwykle nieszczęśnika. Zazwyczaj, chodzi o to, że w opinii „ekspertów”, wszystko powinno być zdublowane. Najlepiej replikowane do innego Data Center. Tylko, czy aby na pewno? Czy operator ośrodka przetwarzania może zabezpieczyć przed katastrofą każdego klienta?

Zacznę od przekrojowego przedstawienia usług świadczonych przez typowe Data Center, bo zrozumienie tego aspektu jest kluczowe. Nie jest tak, jak uważa wielu, że Centrum Danych zajmuje się głównie dostarczaniem chmury publicznej. Ba, większość biznesu dla typowego DC, to kolokacja, wynajem kiosków, czy całych komór. Dochodzą także tzw. dedyki, czyli instalacje serwerowo-sieciowe przygotowywane dla konkretnego klienta. Dopiero na końcu stawki są usługi przetworzone, repozytoria, archiwizacja, backup i chmura publiczna oraz prywatna plus różne usługi dodatkowe.

Widzicie już pewnie do czego zmierzam. Co usługodawca może wiedzieć o Planie Odtwarzania Awaryjnego klienta, który wynajmuje u niego 2 szafy rack postawione obok siebie? Operator świadczy w tym przypadku usługę kolokacji. Zapewnia szafy, dostarcza zakontraktowaną moc (prąd), realizuje połączenia sieciowe i dba odpowiednie warunki środowiskowe (temperatura, wilgotność powietrza, itp.). Natomiast, nie ma wiedzy o tym, co klient w tych szafach trzyma. Albo weźmy klaster serwerów dedykowanych, które klient odbiera do poziomu wirtualizatora. Czy taka usługa jest odporna na pożar Centrum Danych? Kompletnie nie! Chyba że klient wykupi sobie podobna usługę w innym DC i zsynchronizuje te zasoby. Może też robić kopie zapasowe lub nabyć usługę DRaaS. Ważne przy tym, by repliki składować w innym ośrodku. Zatem, czy operator Centrum Danych może samodzielnie zabezpieczyć klienta przed katastrofą? Bez jego chęci i woli, nie ma o tym mowy.

Trochę inaczej wygląda to z perspektywy hiperskalerów, które budują ośrodki przetwarzania wyłącznie na potrzeby swoich chmur. Jednak, nawet i w tym przypadku nic nie dzieje się samo.

Nie wiem, czy słyszeliście o „wspólnej odpowiedzialności” (shared responsibility)? Dostawcy chmury publicznej jasno definiują, za co odpowiadają przy każdym z typów usług. Gdy uruchamiamy serwer wirtualny (VPS), sami musimy zadbać o jego ciągłość działania. Służy temu na przykład Site Recovery (Azure), oczywiście to usługa dodatkowo płatna. Jeśli nie zdecydujemy się na takie zabezpieczenie, będziemy musieli pogodzić się z ewentualnymi konsekwencjami, w razie katastrofy.

Wszystko ma swoją cenę. Nie zapłacisz teraz, zapłacisz później, zwykle jeszcze więcej. Dlatego, analizując ryzyka, ważmy koszty ich materializacji. Zestawmy ze sobą, całkowite koszty przestoju oraz odtwarzania awaryjnego. Dodajmy konsekwencje utraty wizerunku i klientów. Porównajmy to z ceną usługi, nawet na 3 lata, która ten przestój skróci lub wyeliminuje. Dodajmy jeszcze do tego nasz święty spokój, który dostajemy w bonusie 🙂 . Taka jest właśnie recepta na ciągłość działania bez względu na to jakie Centrum Danych wybierzemy.

Darmowa konsultacja - anty.expert

Czym się różni PaaS od hostingu?

Czym się różni PaaS od hostingu?

PaaS (Platform as a Service) i współdzielony hosting są usługami dla zupełnie innych odbiorców, dlatego istotnie się różnią, pomimo pozornego podobieństwa. Platforma jako usługa ma konsolę z ilością ustawień przypominającą kokpit samolotu. Hosting z kolei bardziej przypomina pilota od Apple TV 😊 Kto korzystał z obu tych usług, nigdy ich nie pomyli. Nadmienię jednak, że ostatnio, szczególnie u największych usługodawców, oblicze hostingu trochę się zmienia.

Mniej więcej 20 lat temu zbudowałem biznes „hostingowy” B2B (nie podejmuje się tłumaczenia tej nazwy), i byłem wówczas w Polsce jednym z nielicznych dostawców. Sam od lat jestem użytkownikiem współdzielonego hostingu od GoDaddy (cPanel) i Zenbox. Jakieś 3 lata temu odkryłem alternatywę w postaci Platformy jako Usługi (PaaS). A w ubiegłym roku postanowiłem włączyć się do gry jako usługodawca PaaS. Poznałem zatem blaski i cienie każdego rozwiązania, w dodatku z obu perspektyw – dostawcy i klienta.

Zacznę od tego, że hosting nie spełnia kryteriów chmury. Otóż, według National Institute of Standards and Technology, chmurę definiuje kilka charakterystycznych elementów (str 2). O ile przy hostingu możemy mówić w jakimś stopniu o samoobsłudze, o tyle już o rozliczeniu za użycie, czy automatycznej skalowalności możemy zapomnieć. Hosting ma być prosty i ładnie opakowany. Zwykle klient dostaje do wyboru 3 sztywne pakiety, bo większy wybór wywołuje niepotrzebny ból głowy. Niekiedy usługodawca umożliwia klientowi przełączanie się między pakietami, trzeba to jednak zrobić ręcznie. Tyle w kwestii skalowalności, a teraz przejdźmy do kwestii rozliczeń.

Cechą podstawową hostingu jest ryczałt. Zapewne ten fakt, jak i agresywna polityka cenowa dostawców sprawia, że hosting jest tak atrakcyjny dla klientów. Ale uwaga, bo tu jest haczyk. Jak wiemy z lekcji ekonomii, zasoby są zwykle ograniczone. Bardzo to uwydatnia się przy hostingu, gdzie współdzielenie mocy obliczeniowej, pamięci i przestrzeni dyskowej nie zawsze odbywa się w sposób uczciwy. Każdy dostawca zakłada jakąś nadsubskrypcję usług. Przyjmuje zatem, że kupujący nie wykorzysta 100% zasobów przypisanych mu w ramach pakietu. Mało tego, często przyjmuje się, że klient sięgnie po nie więcej niż 10-20%. Przy kilkuset klientach to już spora oszczędność. I tu jest właśnie największa słabość tej oferty.

No dobrze, a co z odpornością na awarie? Wybierając ofertę dostawców hostingu nie mamy zupełnie kontroli nad poziomem niezawodności usługi. Owszem, możemy robić backup bazy danych, czy kopię zapasową plików, jednak na tym kończy się nasza lista możliwości.

Takie opcje jak balansowanie ruchu, klastry wysokiej dostępności, regiony geograficzne, replikacja czy autoskalowalność to domena rozwiązań klasy PaaS lub IaaS, a więc chmury publicznej. W rezultacie, niezawodność usług hostingowych zależy od decyzji biznesowych dostawcy. Te decyzje są zwykle pokłosiem poziomu świadomości technicznej, nakładów oraz wynikającej z nich architektury rozwiązania.

Jak wygląda odtwarzanie awaryjne naszego e-commerce w sytuacji jakiegoś incydentu po stronie dostawcy hostingu? Oznacza najczęściej oczekiwanie aż usługa znowu zacznie działać. Można oczywiście podjąć próbę uruchomienia wszystkiego u innego usługodawcy, a potem zrobić przekierowanie domeny w serwerze nazw, ale będzie to proces żmudny i, może się okazać, że niepotrzebny. Tutaj trzeba oddać sprawiedliwość hostingodawcom, bo choć wpadki zaliczają, to zwykle przerwy w dostępności są krótkotrwałe. Gorzej, gdy wydarzy się coś katastrofalnego w skutkach. Wówczas, RTO może wynieść nawet kilka dni (wspomniana odbudowa w innym miejscu), a RPO może oznaczać zgubienie transakcji z 24 godzin, pod warunkiem, że kopie zapasowe bazy trzymamy w innym miejscu.

Spójrzmy na zagadnienie z perspektywy Platformy jako Usługi. Możliwości konfiguracyjne są bardzo rozbudowane, co sprawia, że nieobeznany użytkownik poczuje się zagubiony.

PaaS nie jest dla kogoś kto nie wie, co to jest Apache, NGINX, Varnish, PHP, Memcached, albo czym różni się baza SQL od NoSQL, czy skalowanie stanowe od bezstanowego. Nagrodą za tę wiedzę jest kontrolowana skalowalność, nadmiarowość i bezpieczeństwo usługi oraz spore możliwości.

Przyjmijmy, że aplikacja, którą mamy używać wymaga różnych, precyzyjnie skonfigurowanych bibliotek oprogramowania, aby działać optymalnie. W hostingu jest to właściwie niemożliwe, a w PaaS to podstawowa funkcjonalność. Podobnie jest z dynamicznym przydzielaniem większej ilości zasobów obliczeniowych. Gdy uruchomicie kampanię i nagle do Waszego sklepu „zajrzy” 1000x więcej klientów niż dotychczas, co wtedy? W 99% przypadków wasz dostawca hostingu wyświetli im komunikat błędu kategorii pięćset – np. limit zasobów, wewnętrzny błąd serwera, itp. Coś takiego nie wydarzy się jednak w przypadku PaaS. Chmura załatwia to w locie, dodając pamięć, moc, a jak trzeba także kolejne serwery. Dostaniecie też powiadomienie, że obciążenie wzrosło, aby ewentualnie samemu zdecydować jak ma się dalej zachować wasze środowisko.

Sceptyk od razu przyczepi się, że to pewnie sporo kosztuje. I tak i nie. Owszem, nie ma ryczałtu, więc jest trochę niepewności dotyczącej tego, jaki będzie ostateczny koszt. Dużo zależy od sposobu korzystania z usługi. Moje analizy wykazały, że dla podobnych usług ceny są prawie takie same. W GoDaddy na przykład ryczałt roczny za 1 publiczny adres IP to koszt 287 zł netto. Na platformie PaaS Cloudlets.Zone to 3 gr za godzinę, a więc 262 zł brutto za rok. W dodatku nie trzeba przedpłacać. Jeśli uwzględnić możliwość usypiania środowisk w chmurze to już naprawdę hosting staje się mało opłacalny. Po co na przykład system do wideokonferencji ma działać całą dobę? Można go przecież automatycznie zagasić, powiedzmy o 22:00, by potem kalendarzowo włączyć o 7:00.

Mam nadzieję, że lektura tego artykułu dała odpowiedzi na postawione w tytule pytanie. Choć hosting pojawił się o wiele wcześniej, niż moda na chmurę, wciąż jeszcze ma się dziś dobrze, z resztą nie tylko w Polsce. Tym niemniej, wraz z rosnącymi potrzebami i świadomością klientów, PaaS może okazać się potencjalnym, bardzo ciekawym następcą rozwiązań hostingowych.

Wypróbuj PaaS

Lokalna kopia chmury na przykładzie Office365

Lokalna kopia chmury na przykładzie Office365

Pewnie już zauważyliście nawoływania firmy Veeam, by zapewnić sobie kopię lokalną danych przechowywanych w chmurze Microsoft. Jeśli zastanawiacie się po co to robić, wyjaśnię w kilku zdaniach, kiedy taka kopia może stać się absolutnie niezbędna. Bonusowo, ten wpis zawiera instruktażowe nagranie wideo, jak skopiować nasze dane z usługi Office365 na dysk lokalny, krok po kroku.

Zacznę od tego, że jak zwykle chodzi o właściwe zrozumienie usług, które nabywamy i uważne czytanie regulaminów. Finalnie przecież, odpowiedzialność za właściwie funkcjonowanie naszych systemów zawsze spada na nas. Ktoś powie, ale przecież mamy SLA (Service Level Agreement) z Microsoftu. Zerknijmy zatem, co obiecuje nam dostawca, gdy mowa o Office365 i usłudze Exchange, SharePoint czy OneDrive, tutaj wersja pełna SLA, a poniżej esencja skażona nieco moim spojrzeniem.

  1. Po pierwsze uptime na poziomie 99,9%, czyli czas nieprzerwanej pracy, a więc, co podkreślam – poziom dostępności usługi. Łatwo policzyć, że usługa może być niedostępna około 9h rocznie i nikt nas za to nie będzie przepraszał. Microsoft pozwala liczyć przestój na użytkownika, a więc uwzględnia także iloczyn.
  2. Rekompensaty finansowe, które stanowią procent wartości opłaty za usługę, a więc nigdy nie przewyższą miesięcznego kosztu użytkowania Office365. Zazwyczaj w gradacji:
    • < 99,9% – 25%
    • < 99,0% – 50%
    • < 95,0% – 100%

Jeśli w tym miejscu liczyliście na więcej, to niestety tak to przeważnie wygląda u usługodawców chmurowych i w branży telekomunikacyjnej.

SLA firmy Microsoft jest rozbudowane i zawiera także gwarancje jakości w zakresie dostarczania poczty czy też efektywności antywirusa i filtrów antyspamowych. Spróbujcie jednak znaleźć zadośćuczynienie za utratę danych! O dane zadbaj sam!

Kiedy więc przyda się kopia? Gdy usuniecie, zaszyfrujecie, nadpiszecie swoje dane lub „pomoże” Wam w tym jakiś złośliwy robak. Gdy Wasz administrator usunie niewłaściwe konto. Jeśli zechcecie zmienić dostawcę. A może zrobicie sobie roczne wakacje, także od płacenia. Może się zdarzyć i to wcale nie jest takie rzadkie, że dostawca wypowie Wam umowę, bo naruszycie jakiś punkt regulaminu. Jak widać, kilka powodów robienia lokalnej kopii chmury się znalazło 🙂

Poniżej wideo – jak to zrobić.

Darmowa konsultacja - anty.expert

Czy małe i średnie firmy potrzebują Disaster recovery?

Czy małe i średnie firmy potrzebują Disaster recovery?

Znawcy tematu (celowo unikam słowa eksperci) twierdzą, że Ciągłość Działania i Disaster recovery są dla firm z ustabilizowanymi przychodami. Firmy te z natury rzeczy doskonalą procesy. Co Wy na to? No właśnie, jak zwykle to zależy. Czy mała firma udostępniająca swoje systemy transakcyjne klientom i kontrahentom przetrwa kryzys w postaci dwudniowego przestoju serwerów? Pewnie tak, ale statystycznie ma o wiele mniejsze szanse niż firma duża.

W Stanach Zjednoczonych Ameryki, powstała ku przestrodze i pewnie „na zachętę” 😉 pewna statystyka. Mówi się w niej, że aż 93% firm, których centra danych nie funkcjonowały 10 lub więcej dni, ogłosiły upadłość w ciągu roku. Na dokładkę, ponad 60% firm, które całkowicie utraciły dane, zamknięto w przeciągu sześciu miesięcy. Statystyka pochodzi z NARA, czyli National Archives and Records Administration, co w wolnym tłumaczeniu oznacza: Krajową Administrację Archiwów i Rejestrów. Danych źródłowych nie widziałem, ale domyślam się, że próba została dobrana rzetelnie przez wzgląd na rangę instytucji.

Jak to wygląda u nas? Polskich statystyk chyba jeszcze nikt nie zrobił (kto widział lub słyszał niech napisze, odwdzięczę się!). Tyle, że my Polacy jesteśmy bardzo zaradni i nie takie rzeczy przeżyliśmy 😉 A tak na poważnie. Odporność biznesu jest pochodną rodzaju biznesu i rozkładu przychodów. Jeśli na przykład nasze przychody mają liniowy charakter, wówczas nakłady na Ciągłość Działania są niezbędne. Jeśli działamy projektowo, wtedy mamy mniejszą wrażliwość na przerwy dostępności infrastruktury informatycznej i aplikacji.

Pamiętajmy przy tym wszystkim o tym jaką mamy „poduchę”. Chodzi o to, jakie mamy kapitały własne, aktywa szybko zbywalne, stan konta, itd. Zazwyczaj, małe firmy mają płynność opartą na rolowaniu należności. Wówczas, wszelkie zasoby gotówki są w obrocie lub są natychmiast reinwestowane, a limity kredytowe są bardzo małe lub nie ma ich wcale. W takiej sytuacji, przerwa napływu gotówki powoduje natychmiastowe problemy płatnicze. O tym, że jak krytyczna jest płynność finansowa przekonywać nie muszę. Jeśli do tego dołożyć: problemy wizerunkowe związane z przestojem, kary umowne, to niebezpiecznie zbliżamy się do scenariusza, który może położyć firmę. Dlatego, moim zdaniem Disaster recovery jako usługa (DRaaS) to pozycja obowiązkowa dla małego i średniego biznesu.

Darmowa konsultacja - anty.expert

IT Disaster Recovery Plan w wersji mini

IT Disaster Recovery Plan w wersji mini

Krótko i konkretnie o tym, co powinno się znaleźć w Planie Odtwarzania po awarii dla obszaru IT. Kto zmierzył się z tym tematem ten wie, że są atrakcyjniejsze formy spędzania czasu. Mimo wszystko, gdy się już go popełni, satysfakcja gwarantowana 😉 Jeśli zabieracie się za samodzielne opracowanie planu, być może ten artykuł pomoże Wam uporządkować myśli.

Dla porządku, IT Disaster Recovery Plan jest częścią Zarządzania Ciągłością Działania (Business Continuity Management – BCM), a dokładnie jest jednym z dokumentów Planu Ciągłości Działania. Celem BCM jest zapewnienie dostępności krytycznych procesów i zasobów nawet w sytuacji kryzysowej, a więc na przykład w trakcie awarii. BCM obejmuje wszelkie procesy i zasoby występujące w organizacji. Tymczasem Plan Odtwarzania po awarii skupia się na obszarze teleinformatycznym.

Jak każdy plan, wymaga formy pisemnej. Warto go mieć pod ręką. Co powinien zawierać IT Disaster Recovery Plan, wymieniam w kolejności:

  1. Analiza Ryzyk, czyli przed czym mamy się chronić. Podczas analizy proponuję skupić się na procesach krytycznych. Biznes musi wiedzieć też o pozostałych operacjach, które nie zostaną obsłużone w razie awarii. Pamiętajmy, że to zarząd ostatecznie zdecyduje, które procesy mamy podtrzymać.
  2. Analiza Wpływu na Biznes (BIA) skoro mamy już opisane zagrożenia, to teraz przypisujemy im oddziaływanie. Przyczyna – skutek – konsekwencje. Polecam tutaj proste tabelki i matrycę, która „wyostrza optykę”. Bardzo ważne to wyliczenia, np. koszty przestoju, utraconych korzyści, itd.
  3. Katalog usług i map zależności – to zadanie może być przykre, bo pisanie katalogu usług dla klienta wewnętrznego, gdy służyć ma tylko jednemu celowi, słabo się broni. Jak dla mnie, wystarczy przyłożyć każdy proces krytyczny do odpowiedniego systemu czy aplikacji i tak powstanie nam lista zasobów, które musimy podtrzymać podczas awarii.
  4. Parametryzacja RTO & RPO, czyli określamy dla każdego procesu oczekiwany czas odtworzenia oraz akceptowalny przez organizację poziom utraty danych. Namawiam, by „odczarować” akronimy.

Koniecznie trzeba zrobić przymiarkę, ile będzie kosztował przyjęty zakres ochrony. Jeśli poza podstawowymi procesami mamy chronić także coś więcej, koniecznie sprawdźmy czy to ekonomicznie uzasadnione. Znowu, niech zdecyduje biznes.

Według mnie to najważniejsze punkty IT Disaster Recovery Planu. Mniej znaczy więcej. Zawsze można coś dopisać 🙂

Darmowa konsultacja - anty.expert