Viability sp. z o.o.

Jak zapewnić ciągłość działania biznesów cyfrowych w trakcie wojny w cyberprzestrzeni?

23 lutego 202212 marca 2025

Usługi cyfrowe są nieodłącznym elementem naszego życia. Przyzwyczajeni jesteśmy do ich nieustannej dostępności. Dlatego nie jest wcale łatwo budować scenariusze na wypadek zakłócenia funkcjonowania systemu bankowego, niedostępności Internetu, czy na przykład całodniowego blackout’u. Biorąc jednak pod uwagę doświadczenia innych państw (np. Estonii) oraz „warunki wojenne”, należy uwzględnić i takie czynniki w swoich planach BCP. Chodzi o to, by skutecznie chronić ciągłość działania biznesów cyfrowych.

Mamy od wczoraj alarm CHARLIE–CRP i całkiem prawdopodobne, że już wkrótce będzie to DELTA-CRP. Dla instytucji odpowiedzialnych za obiekty infrastruktury krytycznej w naszym kraju, takich jak: banki, elektrownie, firmy telekomunikacyjne, elektrociepłownie, itd., oznacza to zwiększoną gotowość i konieczność prowadzenia całodobowych dyżurów. Chodzi o zapewnienie szczególnego nadzoru w obszarze bezpieczeństwa i ciągłości działania systemów. Czy w związku z tym i my powinniśmy w jakiś sposób zabezpieczyć ciągłość działania biznesów cyfrowych na wypadek wojny w cyberprzestrzeni?

Wektory ataków w cyberprzestrzeni skierowane są na cele, których zakłócenie funkcjonowania odczują duże społeczności. Przykładowo, niedostępność niektórych usług bankowych albo ogrzewania i ciepłej wody na określonym terenie. Mogą to być również długotrwałe wyłączenia energii elektrycznej. Jak widać na przykładach, mimo że atak nie będzie wymierzony w nasz biznes, w jego efekcie może nastąpić zakłócenie ciągłości działania. Jak przeciwdziałać takim sytuacjom?

Oto kilka sposobów zwiększających odporność naszego biznesu cyfrowego na przestój, spowodowany skutkami wojny w cyberprzestrzeni.

Dublowanie dostawców. Wykorzystajmy rozproszony charakter usług internetowych. W Internecie nie da się po prostu wyciągnąć „globalnej wtyczki”. Dlatego, jeżeli masz e-commerce zlokalizowany w Polsce, to replikuj całą witrynę do usługodawcy spoza RP lub na inny kontynent. Wykorzystaj darmowe usługi do ręcznego lub automatycznego zarządzania ruchem, np. CloudFlare. W razie problemów w Polsce, możesz łatwo przełączyć swoich klientów na swój sklep uruchomiony np. w USA.
System bezpieczeństwa. Skorzystaj z komercyjnych narzędzi zabezpieczających, jak na przykład: BitNinja, czy Imunify360, które automatycznie odetną Twoje aplikacje od wielu znanych zagrożeń, a w szczególności od miejsc w sieci o wątpliwej reputacji.
Monitorowanie w trybie ciągłym swoich aplikacji oraz SLA dostawcy. To da Ci szansę na szybką reakcję w razie ataku lub awarii po stronie usługodawcy. Jeżeli coś się stanie z Twoim sklepem, a masz replikę lub kopię, pozwoli Ci to szybko odtworzyć usługę w bezpiecznej lokalizacji. Monitorowanie możesz zorganizować przy pomocy: UptimeRobot lub UpDown.io.
Dodatkowe kanały płatności. Skorzystaj z bramek płatności niezależnych od polskiego systemu bankowego. Dość popularne na zachodzie systemy to PayPal i Stripe. W razie problemów z bankowością w Polsce, nadal będzie możliwe realizowanie transakcji płatniczych. W przypadku sprzedaży dóbr fizycznych ważne jest, aby zaplanować zapasowy łańcuch dostaw.
Kanały komunikacji kryzysowej. Warto zawczasu zorganizować alternatywne metody komunikacji, by zespół wiedział, jak ma się ze sobą porozumiewać w przypadku awarii operatorów GSM, czy niedostępności serwera pocztowego. Z pomocą może przyjść sporo darmowych narzędzi, jak na przykład komunikatory typu: Signal, Viber, Slack, Mattermost, itd.

Masz wątpliwości jak zabezpieczyć swój biznes cyfrowy i potrzebujesz szybkiej pomocy? Może zastanawiasz się, czy DRaaS lub DRC jest dla Ciebie? Skorzystaj z naszej darmowej konsultacji.

Ciągłość działania Centrum Danych

10 marca 202112 marca 2025

Od czasu do czasu, gdy dochodzi do katastrofy, czyli zdarzenia o naturze niszczącej, pojawia się pytanie o granice odpowiedzialności operatora Centrum Danych. Wówczas też, wiele osób z branży, samozwańczo przywdziewa szaty eksperta od Odtwarzania Awaryjnego rozumiejącego Ciągłość Działania Centrum Danych. Z takim nadaniem, bez pardonu biczuje zwykle nieszczęśnika. Zazwyczaj, chodzi o to, że w opinii „ekspertów”, wszystko powinno być zdublowane. Najlepiej replikowane do innego Data Center. Tylko, czy aby na pewno? Czy operator ośrodka przetwarzania może zabezpieczyć przed katastrofą każdego klienta?

Zacznę od przekrojowego przedstawienia usług świadczonych przez typowe Data Center, bo zrozumienie tego aspektu jest kluczowe. Nie jest tak, jak uważa wielu, że Centrum Danych zajmuje się głównie dostarczaniem chmury publicznej. Ba, większość biznesu dla typowego DC, to kolokacja, wynajem kiosków, czy całych komór. Dochodzą także tzw. dedyki, czyli instalacje serwerowo-sieciowe przygotowywane dla konkretnego klienta. Dopiero na końcu stawki są usługi przetworzone, repozytoria, archiwizacja, backup i chmura publiczna oraz prywatna plus różne usługi dodatkowe.

Widzicie już pewnie do czego zmierzam. Co usługodawca może wiedzieć o Planie Odtwarzania Awaryjnego klienta, który wynajmuje u niego 2 szafy rack postawione obok siebie? Operator świadczy w tym przypadku usługę kolokacji. Zapewnia szafy, dostarcza zakontraktowaną moc (prąd), realizuje połączenia sieciowe i dba odpowiednie warunki środowiskowe (temperatura, wilgotność powietrza, itp.). Natomiast, nie ma wiedzy o tym, co klient w tych szafach trzyma. Albo weźmy klaster serwerów dedykowanych, które klient odbiera do poziomu wirtualizatora. Czy taka usługa jest odporna na pożar Centrum Danych? Kompletnie nie! Chyba że klient wykupi sobie podobna usługę w innym DC i zsynchronizuje te zasoby. Może też robić kopie zapasowe lub nabyć usługę DRaaS. Ważne przy tym, by repliki składować w innym ośrodku. Zatem, czy operator Centrum Danych może samodzielnie zabezpieczyć klienta przed katastrofą? Bez jego chęci i woli, nie ma o tym mowy.

Trochę inaczej wygląda to z perspektywy hiperskalerów, które budują ośrodki przetwarzania wyłącznie na potrzeby swoich chmur. Jednak, nawet i w tym przypadku nic nie dzieje się samo.

Nie wiem, czy słyszeliście o „wspólnej odpowiedzialności” (shared responsibility)? Dostawcy chmury publicznej jasno definiują, za co odpowiadają przy każdym z typów usług. Gdy uruchamiamy serwer wirtualny (VPS), sami musimy zadbać o jego ciągłość działania. Służy temu na przykład Site Recovery (Azure), oczywiście to usługa dodatkowo płatna. Jeśli nie zdecydujemy się na takie zabezpieczenie, będziemy musieli pogodzić się z ewentualnymi konsekwencjami, w razie katastrofy.

Wszystko ma swoją cenę. Nie zapłacisz teraz, zapłacisz później, zwykle jeszcze więcej. Dlatego, analizując ryzyka, ważmy koszty ich materializacji. Zestawmy ze sobą, całkowite koszty przestoju oraz odtwarzania awaryjnego. Dodajmy konsekwencje utraty wizerunku i klientów. Porównajmy to z ceną usługi, nawet na 3 lata, która ten przestój skróci lub wyeliminuje. Dodajmy jeszcze do tego nasz święty spokój, który dostajemy w bonusie 🙂 . Taka jest właśnie recepta na ciągłość działania bez względu na to jakie Centrum Danych wybierzemy.

Czym się różni PaaS od hostingu?

24 stycznia 202119 grudnia 2021

PaaS (Platform as a Service) i współdzielony hosting są usługami dla zupełnie innych odbiorców, dlatego istotnie się różnią, pomimo pozornego podobieństwa. Platforma jako usługa ma konsolę z ilością ustawień przypominającą kokpit samolotu. Hosting z kolei bardziej przypomina pilota od Apple TV 😊 Kto korzystał z obu tych usług, nigdy ich nie pomyli. Nadmienię jednak, że ostatnio, szczególnie u największych usługodawców, oblicze hostingu trochę się zmienia.

Mniej więcej 20 lat temu zbudowałem biznes „hostingowy” B2B (nie podejmuje się tłumaczenia tej nazwy), i byłem wówczas w Polsce jednym z nielicznych dostawców. Sam od lat jestem użytkownikiem współdzielonego hostingu od GoDaddy (cPanel) i Zenbox. Jakieś 3 lata temu odkryłem alternatywę w postaci Platformy jako Usługi (PaaS). A w ubiegłym roku postanowiłem włączyć się do gry jako usługodawca PaaS. Poznałem zatem blaski i cienie każdego rozwiązania, w dodatku z obu perspektyw – dostawcy i klienta.

Zacznę od tego, że hosting nie spełnia kryteriów chmury. Otóż, według National Institute of Standards and Technology, chmurę definiuje kilka charakterystycznych elementów (str 2). O ile przy hostingu możemy mówić w jakimś stopniu o samoobsłudze, o tyle już o rozliczeniu za użycie, czy automatycznej skalowalności możemy zapomnieć. Hosting ma być prosty i ładnie opakowany. Zwykle klient dostaje do wyboru 3 sztywne pakiety, bo większy wybór wywołuje niepotrzebny ból głowy. Niekiedy usługodawca umożliwia klientowi przełączanie się między pakietami, trzeba to jednak zrobić ręcznie. Tyle w kwestii skalowalności, a teraz przejdźmy do kwestii rozliczeń.

Cechą podstawową hostingu jest ryczałt. Zapewne ten fakt, jak i agresywna polityka cenowa dostawców sprawia, że hosting jest tak atrakcyjny dla klientów. Ale uwaga, bo tu jest haczyk. Jak wiemy z lekcji ekonomii, zasoby są zwykle ograniczone. Bardzo to uwydatnia się przy hostingu, gdzie współdzielenie mocy obliczeniowej, pamięci i przestrzeni dyskowej nie zawsze odbywa się w sposób uczciwy. Każdy dostawca zakłada jakąś nadsubskrypcję usług. Przyjmuje zatem, że kupujący nie wykorzysta 100% zasobów przypisanych mu w ramach pakietu. Mało tego, często przyjmuje się, że klient sięgnie po nie więcej niż 10-20%. Przy kilkuset klientach to już spora oszczędność. I tu jest właśnie największa słabość tej oferty.

No dobrze, a co z odpornością na awarie? Wybierając ofertę dostawców hostingu nie mamy zupełnie kontroli nad poziomem niezawodności usługi. Owszem, możemy robić backup bazy danych, czy kopię zapasową plików, jednak na tym kończy się nasza lista możliwości.

Takie opcje jak balansowanie ruchu, klastry wysokiej dostępności, regiony geograficzne, replikacja czy autoskalowalność to domena rozwiązań klasy PaaS lub IaaS, a więc chmury publicznej. W rezultacie, niezawodność usług hostingowych zależy od decyzji biznesowych dostawcy. Te decyzje są zwykle pokłosiem poziomu świadomości technicznej, nakładów oraz wynikającej z nich architektury rozwiązania.

Jak wygląda odtwarzanie awaryjne naszego e-commerce w sytuacji jakiegoś incydentu po stronie dostawcy hostingu? Oznacza najczęściej oczekiwanie aż usługa znowu zacznie działać. Można oczywiście podjąć próbę uruchomienia wszystkiego u innego usługodawcy, a potem zrobić przekierowanie domeny w serwerze nazw, ale będzie to proces żmudny i, może się okazać, że niepotrzebny. Tutaj trzeba oddać sprawiedliwość hostingodawcom, bo choć wpadki zaliczają, to zwykle przerwy w dostępności są krótkotrwałe. Gorzej, gdy wydarzy się coś katastrofalnego w skutkach. Wówczas, RTO może wynieść nawet kilka dni (wspomniana odbudowa w innym miejscu), a RPO może oznaczać zgubienie transakcji z 24 godzin, pod warunkiem, że kopie zapasowe bazy trzymamy w innym miejscu.

Spójrzmy na zagadnienie z perspektywy Platformy jako Usługi. Możliwości konfiguracyjne są bardzo rozbudowane, co sprawia, że nieobeznany użytkownik poczuje się zagubiony.

PaaS nie jest dla kogoś kto nie wie, co to jest Apache, NGINX, Varnish, PHP, Memcached, albo czym różni się baza SQL od NoSQL, czy skalowanie stanowe od bezstanowego. Nagrodą za tę wiedzę jest kontrolowana skalowalność, nadmiarowość i bezpieczeństwo usługi oraz spore możliwości.

Przyjmijmy, że aplikacja, którą mamy używać wymaga różnych, precyzyjnie skonfigurowanych bibliotek oprogramowania, aby działać optymalnie. W hostingu jest to właściwie niemożliwe, a w PaaS to podstawowa funkcjonalność. Podobnie jest z dynamicznym przydzielaniem większej ilości zasobów obliczeniowych. Gdy uruchomicie kampanię i nagle do Waszego sklepu „zajrzy” 1000x więcej klientów niż dotychczas, co wtedy? W 99% przypadków wasz dostawca hostingu wyświetli im komunikat błędu kategorii pięćset – np. limit zasobów, wewnętrzny błąd serwera, itp. Coś takiego nie wydarzy się jednak w przypadku PaaS. Chmura załatwia to w locie, dodając pamięć, moc, a jak trzeba także kolejne serwery. Dostaniecie też powiadomienie, że obciążenie wzrosło, aby ewentualnie samemu zdecydować jak ma się dalej zachować wasze środowisko.

Sceptyk od razu przyczepi się, że to pewnie sporo kosztuje. I tak i nie. Owszem, nie ma ryczałtu, więc jest trochę niepewności dotyczącej tego, jaki będzie ostateczny koszt. Dużo zależy od sposobu korzystania z usługi. Moje analizy wykazały, że dla podobnych usług ceny są prawie takie same. W GoDaddy na przykład ryczałt roczny za 1 publiczny adres IP to koszt 287 zł netto. Na platformie PaaS Cloudlets.Zone to 3 gr za godzinę, a więc 262 zł brutto za rok. W dodatku nie trzeba przedpłacać. Jeśli uwzględnić możliwość usypiania środowisk w chmurze to już naprawdę hosting staje się mało opłacalny. Po co na przykład system do wideokonferencji ma działać całą dobę? Można go przecież automatycznie zagasić, powiedzmy o 22:00, by potem kalendarzowo włączyć o 7:00.

Mam nadzieję, że lektura tego artykułu dała odpowiedzi na postawione w tytule pytanie. Choć hosting pojawił się o wiele wcześniej, niż moda na chmurę, wciąż jeszcze ma się dziś dobrze, z resztą nie tylko w Polsce. Tym niemniej, wraz z rosnącymi potrzebami i świadomością klientów, PaaS może okazać się potencjalnym, bardzo ciekawym następcą rozwiązań hostingowych.

Hiperkonwergencja – zrób to sam (DIY)

5 czerwca 202019 grudnia 2021

Czy da się zbudować rozwiązanie serwerowe klasy korporacyjnej w oparciu o sprzęt dla małego i średniego biznesu? Zdecydowanie tak! Z pomocą przychodzi hiperkonwergencja, która coraz częściej zastępuje silosową architekturę konwergentną. Paliwem do zmiany podejścia jest nie tylko cena, ale coraz powszechniejsza konteneryzacja i architektura mikroserwisów. Dodatkowym bodźcem są zmiany pokoleniowe. Chodzi mi o słabą dostępność inżynierów, którzy potrafią zarządzać złożonymi środowiskami.

Zwyczajowo zacznę od definicji. Co to jest architektura konwergentna? Otóż, jest to ekosystem sprzętowo-aplikacyjny, składający się z serwerów, macierzy oraz sieci i zwykle też silnika wirtualizacji, ale nie jest on niezbędny. W takim podejściu, mamy do czynienia z siecią lokalną (LAN) i siecią dla pamięci masowej (SAN). Ta druga służy dedykowanej komunikacji serwerów z macierzą dyskową. Czym zatem jest hiperkonwergencja (HCI)? Jest uproszczeniem polegającym na połączeniu w jednym urządzeniu: mocy obliczeniowej oraz pamięci masowej. W tym przypadku konieczny jest silnik wirtualizacyjny (hiperwisor), stąd pochodzi pierwszy człon nazwy własnej tej architektury. W rozwiązaniach hiperkonwergentnych często eliminuje się sieć SAN, jako zbędną. Nadmienię, że w rozwiązaniach wysoko wydajnych HCI, szczególnie gdy zastosujemy najszybsze dyski półprzewodnikowe (NVMe), nadal separuje się sieć IP od sieci pamięci masowej. Warto podkreślić, że hiperkonwergencję jest możliwa dzięki pamięci definiowanej programowo (Software Definied Storage). SDS to metoda na zarządzanie rozproszonymi zasobami dyskowymi i sposób na nadmiarowość. Tyle teorii.

HCI można kupić od kilku znanych dostawców, jak: Nutanix, Dell, HPE, itd. Ja jednak, idąc „pod prąd” namawiam do metody – zrób to sam (DIY). Wówczas inwestycja wyjdzie, nawet połowę taniej! Można też zaplanować migrację z częściowym alokowaniem dla HCI swoich obecnych zasobów serwerowych. Wówczas najprościej (ale nie najtaniej), użyć technologii vSAN od VMware. Gdy wpadniesz na pomysł: „zrobię to na OpenSource”, rozważ krótką listę akronimów, które niechybnie poznasz i to zaraz na starcie: SDS, SAN, DRBD, RDMA, IPoIB, RoCE, IBoE, Ceph, NFS, SR-IOV, NFMeoF, itd. Jeśli masz mocny zespół, to wspaniale, na pewno dacie radę. W innym razie rekomenduję wybór dostawcy, który dostarczy know-how w postaci skonfigurowanego sprzętu i aplikacji. Dużo drożej nie będzie, ale na pewno szybciej i bez huśtawki nastrojów.

Nadmiarowość, czy odtwarzanie po awarii?

4 sierpnia 20197 marca 2022

Czym jest uptime i jak się to ma do czasu przestoju? Ile dziewiątek po przecinku gwarantuje względny spokój, gdy mowa jest o wysokiej dostępności infrastruktury informatycznej? I na koniec, na co postawić: na nadmiarowość, czy może na błyskawiczne odtwarzanie po awarii?

Czy wiesz jaki poziom dostępności mają Twoje systemy? Najlepsze centra danych w Polsce (np.: Atman, Beyond, Exea, Polcom, T-mobile), mogą pochwalić się niezawodnością na poziomie 99,99%. Oznacza to, że ich przestój w skali roku nie przekroczy godziny. Zwracam jednak uwagę, że procenty dotyczą określonych usług. Już tłumaczę. Powiedzmy, że zdecydujemy się na usługę kolokacji, czyli wynajmujemy miejsce w szafach teletechnicznych w centrum danych. Usługodawca deklaruje cztery dziewiątki. Czy w związku z tym nasze środowisko także będzie miało dostępność na poziomie 99,99%? Najprawdopodobniej nie. Wysoka dostępność dotyczy systemów zbudowanych w centrum danych, w tym zasilania, łączności, klimatyzacji, itp. Wystarczy, że architektura naszego rozwiązania została zaprojektowana bez nadmiarowości. Czyli do szaf wynajętych w centrum danych włożymy pojedyncze urządzenia. Wówczas niestety, poziom dostępności naszego środowiska IT będzie równy poziomowi dostępności najsłabszego elementu.

Czas nieprzerwanej pracy systemów określany jako uptime, dotyczy każdego elementu infrastruktury IT. Projektując wysokodostępne środowisko IT należy eliminować pojedyncze punkty awarii. Robimy to dublując urządzenia z najniższym przeciętnym uptime. Właściwie, to robimy to dublując wszystko co się da 🙂 Jedyne odstępstwa dotyczą usług, których niedostępność nie zatrzymuje procesów krytycznych dla działalności operacyjnej. W ten sposób istotnie zmniejszamy ryzyko wystąpienia przestojów. Naturalnie, poszczególne systemy nie muszą mieć jednakowego poziomu dostępności. Ustalanie precyzyjnych wskaźników dla każdej usługi wpływa wprost na poziom nakładów na środowisko IT i na rodzaj i koszt Disaster recovery.

Wysoka dostępność (HA) jest pochodną nadmiarowości. Odtwarzanie awaryjne uznać powinniśmy za uzupełnienie HA, bo odpowiada na problemy, których nie rozwiąże nawet rozproszony geograficznie klaster wysokiej dostępności. Disaster recovery (np. DRaaS) to ostatnia deska ratunku, gdy nasze systemy padną ofiarą cyberataku lub co bardziej prawdopodobne, staną się niedostępne przez jakiegoś wirusa szyfrującego. Moje doświadczenia pokazują, że nadmiarowość i odtwarzanie po awarii, które według najlepszych praktyk ITIL powinny być komplementarne, bardzo często rozdziela tytułowe „czy”.