Какво да правим при срив на клауда и трябва ли да се притесняваме?

22.03.2023 4 412 23

Става ли клаудът по-малко надежден? Съобщенията за най-различни клауд сривове са навсякъде и сякаш стават все по-чести.

Отговорът, както винаги, не е просто „да“ или „не“. Малко по-сложно е. Компаниите трябва да имат предвид този фактор и да се подготвят за възможни клауд сривове, за да могат да се справят с тях по-добре.

Повече сривове, но това е очаквано

Според доклада на Uptime Institute за 2022 г., сривовете на публични клауд услуги през последните три години се случват при сравнително същото историческо темпо. Проучването отбелязва, че 80% от мениджърите и операторите на центрове за данни са имали поне един срив през последните три години.

Това означава, че има доста сривове, дори и повечето да са кратки. Но има и още неща към тази картина. Темпото на новите задачи, които се добавят към клауда, надвишава темпото на ръст на сривовете. Така че, макар и да има повече сривове, те не са толкова много колкото би моглода са, особено като се имат предвид новите задачи, които се добавят към клауда постоянно.

Ако тенденцията продължи, след време броят на сривове трябва не само да се забави, но и дори да се понижава, прогнозира Uptime. Институтът отбелязва, че много от операторите на центрове за данни инвестират сериозни средства и усилия, за да подобрят услугите си. С времето операторите на дейта центрове стават все по-добри в управлението на сложни, мащабни архитектури, коментират още авторите на доклада.

Най-честите причини за сривове

Е, кои са най-честите причини за клауд сривовете? Те не се променят много, казва Анди Лорънс, съосновател и изпълнителен директор на Uptime Institute Intelligence. Пред TechBeacon той казва, че водещата причина за сривове остава човешката грешка. Оказва се, че има различни видове човешки грешки и не винаги е лесно те да бъдат определени и квалифицирани.

И все пак, Uptime са намерили начин да следят сривовете, които са причинени от тези грешки. Докладът казва, че около 40% от организациите са имали сериозен клауд срив заради човешка грешка. От тях, в 85% от случаите става дума за служители, които не са спазили установени процедури или пък са грешки, които са били в самите процеси още от описването им.

Интересна подробност е, че в исторически план, спирането на електричеството е най-честата причина за сериозни сривове. Дори и те обаче обикновено са следствие на човешка грешка. Докладът се връща още по-назад във времето и казва, че през последните 25 години около 80% от всички загубени ИТ задачи в центровете за данни са заради електрически сривове.

Следващият разпространен проблем заради мрежата или свързаността. И двете архитектури и топологии стават все по-сложни. Особено, когато организациите използват хибридни клауд конфигурации. „Като цяло клауд архитектурите предоставят високо ниво на наличност на услугите в голям мащаб. Въпреки това, няма архитектура, в която сривовете да са невъзможни и и много от засечените вече проблеми могат да бъдат приписани на трудностите на управлението на такива сложни, мащабни мрежи, софтуер и данни“, пише докладът.

Накратко, сривовете са нещо очаквано. И организациите са приели този факт, тъй като само 13% от участниците в проучването за доклада казват, че клаудът е достатъчно устойчив, за да издържи и осигури работа на всичките им задачи. Докладът също показва, че е изненадващо, че няма повече сривове, като се имат предвид мащабът и количеството на задачи.

Възстановяването е сложно и може да бъде скъпо

Клауд сривовете се случват и някой трябва да ги поправи. В зависимост от мащаба на срива, възстановяването може да бъде доста скъпо и времеемко. Човешката грешка и тук е фактор и то по повече от един начини.

Често комуникацията между различните екипи не е добра. Понякога дори може да е несъществуваща и всички просто са се втурнали да оправят своите задачи и проблеми. Понякога обаче някои решения може да зависят от работата на други, така че липсата на комуникация може да „счупи“ повече неща или да ги остави непоправени по-дълго време. Понякога и поправката може да не е добра и да се налага нова корекция. Или бързането е довело до погрешни конфигурации, които трябва да бъдат поправени незабавно, или по-късно, когато са открити.

Както можем да си представим, разходите също се трупат. През 2019 г. 60% от отговорилите са казали, че средните разходи за един срив са по-малко от 100 000 долара. През 2021 г. само 39% казват същото. А сривовете, които костват между 100 000 долара и 1 млн. долара са се покачили от 28% през 2019 г. до 47% две години по-късно.

„Преди време нещата бяха по-лесни, когато имаше само виртуална машина, защото просто я рестартираш. Сега имаш контейнери, имаш Kubernetes, имаш какво ли не помежду им. В някои ситуации това е по-крехък микс“, казва Нийл Майлс, старши продуктов маркетинг мениджър на ITOM Portfolio към Micro Focus пред TechBeacon.

И това са само цифровите задачи. Понякога сривовете имат и последици в реалния свят. Например в началото на март 2023 г. влаковете в Сидни, Австралия спират заради такъв проблем, продължил около час. Това е първият срив за новата система, която започва работа през 2016 г. И по-лошо- системата не успява да превключи към резервната мрежа и дейта център, така че всички влакове са спрени. Превключването е трябвало да бъде направено ръчно, като се води разследване, за да се разбере защо не е станало автоматично, както е програмирано.

Сривът причинява сериозен транспортен хаос в град с десетки хиляди пътници, които остават по гарите. Повечето от тях бързат да намерят алтернативен транспорт, което означава още разходи не само за влаковите компании, но и за клиентите.

Как да се справим с клауд срив?

Както с много други ИТ задачи, подготовката е ключът. Ако планирате да се справите с клауд срив, когато той се случи и да взимате решения на момента, ще ви чакат доста проблеми и болка. Компаниите трябва да имат готова стратегия, за да са по-добре подготвени и да се справят със ситуацията.

Стратегията ще зависи от множество фактори. Тя трябва да покрива не само тривиални сривове, но и най-лошите варианти. Някои от тях може да са например пожар в центъра за данни, който унищожава сървъри и бекъпи. Има много рискове, които може да се открият, когато една компания започне да проучва възможните клауд сривове. Затова е важно те да бъдат идентифицирани предварително и да се подготви за тях дори и повечето от тях да са с много малка вероятност да се случат.

Реакцията при срив ще зависи и от типа клауд. Например при публичен клауд, компаниите трябва да имат предвид видовете услуги, които използват и как го правят. Разчитат ли на Infrastructure-as-a-Service и виртуални машини върху нея? Какви функции за възстановяване предлага даденият публичен клауд? Могат ли да се добавят други такива функции? Трябва да ли да се плаща за тях или са включени в плана?

Също така всеки публичен клауд ще има различни правила и конфигурация. Някои ще предлагат различни зони и региони, които също имат разлики помежду си. Подготвянето за срив на публичен клауд може да изисква балансиране на разходите, тъй като подготовката може да означава допълнителни инвестиции, които трябва да се направят предварително. Особено за по-големи системи с множество виртуални машини и задачаи.

При частния клауд компаниите имат повече гъвкавост, тъй като сами решават какво да правят, но имат и по-голяма отговорност. Ако нещо се обърка, основната отговорност да го поправи пада върху компанията дори и тя да използва доставчик за инфраструктурата. Хибридният клауд е най-сложен, тъй като има различни начини на връзка между компонентите и съответно как евентуален срив ще се отрази на всеки от тях.

Устойчивостта и наличността на услугите е критичен фактор при клауд сривовете, казва DataCenterKnowledge. Ако тя не е възможна, тогава дублирането на услугата/данните в други зони или регион на публичния клауд е задължително. Използването на два или повече дейта центъра е възможно само за публичния клауд или за някои от богатите компании, които имат свой частен клауд.

Дори и когато използвате публичен клауд и имате възможността да разчитате на два или повече дейта центъра, това изисква допълнителни усилия, за да се пренасочат заявките и данните. Решението са разпределители на задачите, които ще извършат тази дейност. Ако са конфигурирани правилно, разбира се, което отново ни връща към риска от човешка грешка.

Също така е важно да се планира напред. Често най-популярното решение за справяне с клауд срив е превключването към друг регион. Подобен срив обаче засяга хиляди други клиенти, отбелязва DataCenterKnowledge. Така че много от тях може да имат същата идея. И те също ще се втурнат към друг регион, който и без това е ангажиран с неговите си клиенти. Вероятността е голяма да няма достатъчно капацитет и виртуални машини за всички.

Разбира се, малко компании могат да си позволят да плащат за подобен резервен план постоянно, в случай на срив. Затова често решението е просто компанията да е много бърза и да реагира навреме в случай на срив, за да може да превключи към друга зона или решение. Тук наличието на стратегия за действие при срив може да е решаваща, за да помогне за преглеждане и оценка на наличните опции и взимането на бързи решения.

Също така не трябва да се пренебрегва сигурността. Клауд сривовете са спешни ситуации и са третирани различно. По време на спешни случаи хората обикновено пренебрегват други отговорности. Същото може да се случи и с киберсигурността. В бързината да се върнат услугите много правила и контроли на достъпа могат да бъдат променени, криптирането да бъде изключено, портове да бъдат отворени или погрешно конфигурирани и т.н.

Хакерите обаче не стоят да чакат сривът да бъде оправен. Те могат активно да търсят всякакви подобни слабости, за да се възползват от тях. Затова стратегията при сривове трябва да има предвид и стъпки за запазване на адекватно ниво на сигурност и да няма слепи точки. В противен случай компанията рискува да трябва да се справя с две много различни и критични за бизнеса кризи по едно и също време. И това няма да е никак забавно.

amanita muscaria kaufen

10.01.2024 в 02:15

… [Trackback]

[…] Find More Information here to that Topic: blog.neterra.cloud/bg/какво-да-правим-при-срив-на-клауда-и-тря/ […]

Повече сривове, но това е очаквано

Най-честите причини за сривове

Възстановяването е сложно и може да бъде скъпо

Как да се справим с клауд срив?

23 отговори на “Какво да правим при срив на клауда и трябва ли да се притесняваме? ”

Вашият коментар Отказ

Content

Последни публикации

Вашият коментар