Основните стъпки за възстановяване на центъра за данни 

14.08.2024 104 0

Центровете за данни са критична част от ИТ инфраструктурата. Те са и сред най-издръжливите, най-добре изградени и най-обезопасени сгради. Въпреки това могат да се повредят по различни начини. Природните бедствия също могат да ги засегнат и увредят значително. 

Какъвто и да е случаят, възстановяването на центъра за данни е голям и сложен процес, който освен това е и изключително важно да се направи правилно и бързо. Всяка минута срив може да причини сериозни смущения, които да се усетят в цели региони и дори в световен мащаб. Не е изненада, че възстановяването на центрове за данни се превърна в гореща тема, особено сега, когато глобалната зависимост от тези съоръжения започва да нараства експоненциално. 

Според проучване на Uptime Institute от 2023 г. 55% от операторите на центрове за данни са имали поне едно прекъсване през последните три години. Само 10% от прекъсванията са класифицирани като сериозни или тежки през 2023 г. Като цяло броят им намалява. Така че това е добра новина, но не и докато не видим повече цифри. Оказва се, че 70% от инцидентите в центрове за данни причиняват допълнителни разходи от над $100 000. Допълнително проучване на Veritiv показва, че средно има общо по 2,4 спирания на съоръжение на година, а средната продължителност е 138 минути. Излишно е да казваме, че тези 138 минути са доста стресиращи. 

Значението на стратегията за възстановяване

Въпреки че прекъсването на центъра за данни може да е рядко, но когато се случи, то е болезнено и скъпо. Поради това е най-добре да имате подходяща стратегия за възстановяване и да се уверите, че тя е добре обмислена, тествана и е възможно да се използва като добра основа за всяко бедствие. Ключът към всяка подобна стратегия е да осигури фундамента за реагиране при бедствие и възстановяване и да бъде водач по време на стресови моменти. 

Невъзможно е да се предотврати или предвиди всяко бедствие. Ето защо стратегията дори не трябва да се опитва да го направи, тъй като това просто ще доведе до повече проблеми. Така че стратегията трябва да сегментира основните типове бедствия в центъра за данни и след това да надгражда върху всеки. Разбира се, някои бедствия могат да се сливат и комбинират два или повече вида. Наличието на план за всеки ще ви помогне да преминете по-гладко през процеса. 

Основните типове аварии

Както споменахме, едно бедствие може да доведе до друго или те могат да се наслоят. Въпреки това има различни категории, за да е по-лесно да знаете какво да правите за всяка от тях. 

Един от най-често срещаните проблеми е прекъсването на захранването. То често причинява по-трайно прекъсване на услугата и допълнителни повреди на хардуера. Възстановяването на всеки сървър обикновено изисква време, допълнително внимание за всяка конфигурация, обработка на грешки и т.н. 

Следващата причина за сривове е човешка грешка, казва DataCenterKnowledge. Според доклада на Uptime за 2022 г. почти две трети от прекъсванията на центровете за данни са причинени от човешка грешка. В повечето случаи това дори не е „неумишлена грешка“, което означава нещо, направено неволно, защото служителят не е бил информиран или му липсват умения, опит и т.н. Всъщност в 85% от прекъсванията на човешка грешка причините са, защото служителите не са не спазват процедурите или има недостатъци в самите процеси. Сред най-често срещаните човешки грешки са случайно изключване на източници на захранване, претоварване на вериги, неправилни конфигурации. 

Кибератаките са следващият най-разпространен проблем в центъра за данни. Според доклада на AFCOM за състоянието на центъра за данни за 2023 г., две трети от организациите по света са претърпели поне една кибератака през 2022 г. Средното време за прекъсване е пет дни. 

И накрая, имаме природни бедствия. Въпреки че са редки, все пак могат да се случат. В зависимост от бедствието може да има различни видове щети, включително физически и структурни. Пожари, наводнения, земетресения, свлачища, торнада, всичко зависи от района на центъра за данни и всяко съоръжение е изложено на различни рискове. 

Основите на възстановяването

И така след като посочихме някои от основните бедствия, време е да ги планираме. Планът трябва да включва няколко стъпки като отправна точка. Всичко започва с обмисляне на местоположението на центъра за данни, отбелязва компанията Rahi. 

Когато центърът за данни бъде изграден на дадено място, вече е добре известно какви са най-вероятните природни бедствия. В идеалния случай центърът за данни бива изграден предвид тези бедствия, за да може да се справи с тях. Това означава не само здравината на сградата, но и разположението на сървърите. Например – да са на по-високо, ако основният риск за района е наводнение. Или възможно най-ниско, дори под земята, ако най-голямата опасност е торнадо. 

Втората най-важна стъпка е резервното захранване. Разбира се, всеки център за данни има генератори за резервно електричество, UPS и т.н. Много оператори обаче са изненадани да разберат, че те не успяват да се задействат правилно, когато е необходимо, не са достатъчни или просто не функционират. Това само удължава времето на срива и може да го влоши. Много от големите центрове за данни разчитат на повече от един източник на енергия за основното си захранване и също така създават повече от една резервна опция. Тази диверсификация може да бъде малко скъпа за изграждане, но ще се изплати в дългосрочен план. И също така може да бъде добра причина да поискате по-високи цени от клиента, като му покажете гарантирани множество източници на захранване и резерви. 

Защитата на центъра за данни продължава с интериора. Една от най-важните мерки е пожарогасенето. Независимо къде се намира съоръжението, вътрешните пожари винаги са риск. Rahi препоръчва на центровете за данни да използват суха система за „предварително действие“, която е в състояние да потуши повечето пожари, преди да се активира конвенционалната система с пръскачки. Тези сухи системи често използват инертни газове, които премахват кислорода и потискат огъня. Редовното тестване на системите и алармите също е задължително, за да сте сигурни, че всичко ще работи по предназначение, когато е необходимо. 

За центрове за данни в зони на наводнения помпената система също е задължителна. И трябва да бъде автоматизирана и с гарантирана енергия, така че да работи, когато електрическата мрежа е повредена. За земетръсни зони ще трябва да изберете стелажи и шкафове, които са подходящи за сеизмична активност. Те могат да имат специални монтажни скоби, даващи допълнителна опора и сигурност на сървърите. 

Ако е възможно, създайте резервен център за данни. Такъв, който може да се активира, когато има бедствие в основното съоръжение. Това е сред най-добрите решения, но е и най-скъпото, тъй като очевидно изисква удвояване на всичко. И разбира се, трябва да е на достатъчно голямо разстояние, за да бъде защитен от всяко регионално природно бедствие, но не твърде далеч, за да бъде в различен регион и следователно твърде далеч от клиентите. Обикновено 150-200 км. се счита за добра дистанция. 

Следващият стъпки

След това планът за възстановяване на центъра за данни трябва да премине към практическата си част. Това са едни от най-добрите практики и сред първите действия, които да предприемете, когато се случи бедствие. 

На първо място трябва да са служителите. Тяхната безопасност е от първостепенно значение и трябва да бъде гарантирана, преди да се предприеме каквато и да е следваща стъпка. Гарантирането на тяхната безопасност изисква много превантивна работа. Това може да включва ефективно обучение, добра комуникация и създаване и прилагане на споменатата стратегия за възстановяване. 

След това операторът на центъра за данни трябва да премине към активно тестване на стратегията. Това ще помогне да се определят допълнителни слаби места, които трябва да бъдат адресирани, заедно с откриването дали взетите мерки и действия действително са подходящи. Тестовете трябва да започнат в малък мащаб и да бъдат разширени след анализирането на резултатите. 

Друга най-добра практика е да установите контакти с подизпълнители, с които трябва да се свържете при спешни случаи. Те може да са тези, които да предоставят ново оборудване, инструменти или други консумативи, които биха могли да бъдат жизненоважни за навременното възстановяване. 

И накрая, бъдете гъвкави. Възстановяването на центъра за данни ще изисква гъвкавост и навременни реакции от всички участници. Стратегията за възстановяване трябва да вземе и това предвид и да включи гъвкавостта в планирането. Процесите трябва да се тестват и актуализират често и трябва да бъдат разработени по начин, който позволява на служителите да се адаптират към дадената ситуация и ги мотивира да вземат необходимите решения, за да осигурят възможно най-добрите резултати от възстановяването. 

Наличието на всичко това е важно за увеличаване и запазване на доверието на вашите клиенти. Те ще бъдат много по-заинтересовани да се присъединят към вашия център за данни, ако видят, че сте помислили за възможно най-много детайли и сте създали компетентни процедури и мерки, поддържащи центъра за данни и по този начин техните данни и/или съвместно разположени сървъри в безопасност. 

Вашият коментар

Вашият имейл адрес няма да бъде публикуван.