Недостигът на кадри ще затруднява центровете за данни и през 2024 г

31.01.2024 152 0

Центровете за данни са модерни съоръжения и като такива използват много от най-новите и най-добрите технологии от ИТ света. Въпреки това те все още разчитат на хората. При това доста. А човешкият персонал се оказва много важен за цялостната работа на центровете за данни.

Въпреки това операторите на центрове за данни изпитват трудности да намерят и задържат достатъчно квалифициран персонал. Това е проблем, който тормози индустрията от години. Той се изостри допълнително през 2020 г. по време на пандемията. Тогава 70% от мениджърите на центрове за данни намалиха персонала на място и много от тях започнаха да работят само с част от обичайните си служители на терен, показват данни от FacilitiesNet.

Това е проблем, който се създаваше в продължение на години. Проучване на Uptime Institute от 2018 г. показва, че над 50% от операторите на центрове за данни се борят да наемат и задържат квалифициран персонал.

„Както видяхме през 2020 г., често непланираните събития са тези, които най-много предизвикват нашата подготовка и желание за промяна. Технологиите помогнаха на бизнеса да се адаптира към случилото се. Това обаче не означава, че ИТ специалистите не трябваше да преодоляват собствените си предизвикателства. 2020 г. може да се счита за годината, в която и доброто, и лошото в ИТ сектора са се увеличили. Например ИТ организации, използващи облачни услуги преди пандемията, успяха да разчитат на доставчика си, за да поддържат заедно променящата се бизнес среда. Въпреки това организациите, които са управлявали собствената си инфраструктура и са били обременени с недостиг на персонал преди затварянето покрай пандемията, вероятно са видели, че рискът е станал по-ясно изразен“, казва Джъстин Аугат, вицепрезидент по маркетинга за iland пред DataCentreMagazine.

4 години по-късно виждаме, че ситуацията в общи линии е същата. Операторите на центрове за данни все още се борят да запълнят всички позиции в своите съоръжения. И това започва да рефлектира върху качеството на услугата.

Повече прекъсвания, по-големи очаквания

През 2023 г. имаше увеличение на прекъсванията на центровете за данни, които можеха да бъдат избегнати или бяха по-дълги, отколкото биха били, ако имаше достатъчно персонал, отбелязва DataCenterDynamics. Изданието дава конкретен пример за прекъсването на дейта центрове, което Microsoft имаше в Австралия на 30 август 2023 г.

Това прекъсване се случи в Сидни в един от ключовите центрове за данни за източния регион на Австралия на компанията. Клиентите имаха проблеми с достъпа и използването на Azure, Microsoft 365 и Power Platform. Проблемите продължиха 46 часа, което е доста време в тази сфера. Особено в днешната среда, в която клиентите очакват 100% наличност на услугите и дори най-малките смущения ги дразнят, можете да си представите какво са 46 часа проблеми.

Според Microsoft всичко е започнало от спад на мощността. „Този спад изключи част от модулите на охладителната система и докато се работи за възстановяване на охлаждането, температурите в центъра за данни се повишиха до нива над работните прагове. Изключихме малка част от избрани сървъри за изчисления и съхранение, както за да постигнем по-ниски температури, така и за предотвратяване на повреда на хардуера“, казва компанията.

Microsoft също така споделя, че проблемът е причинен от удар на мълния върху електрическа инфраструктура, която се намира на 29 км от центровете за данни. От компанията обясняват подробно какво се е случило:

„Спадът на напрежението доведе до спиране на чилърите на охладителната система за множество центрове за данни. Докато някои чилъри се рестартираха автоматично, 13 не успяха и изискваха ръчна намеса. За да направи това, екипът на място получи достъп до съоръженията на покрива на центъра за данни, където се намират охладителните тела, и продължи последователно да рестартира охладителите, преминавайки от един център за данни към следващия. По времето, когато екипът достигна до последните пет охладителя, изискващи ръчно рестартиране, водата в помпената система за тези охладители беше достигнала температури, които бяха твърде високи, за да позволят рестартирането им. В този сценарий рестартирането се възпрепятства от механизъм за самозащита, който действа, за да предотврати повреда на охладителя, която би възникнала при преработка на вода при повишени температури. Петте охладителя, които не можаха да бъдат рестартирани, поддържаха охлаждане за двете съседни зали за данни, които бяха засегнати от този инцидент.“

В резултат на това част от ИТ оборудването започва да се изключва автоматично, тъй като температурите се повишават. Екипът на място също трябваше да започне постепенно да изключва допълнителна мрежова, изчислителна и сторидж инфраструктура, за да защити данните и оборудването. Това допълнително влоши ситуацията. И както знаем, процесът на пускане и възстановяване на услугите също е нещо, което изисква време и работна ръка. Често след това някои услуги започват да „не слушат“ и изискват допълнителни усилия, за да се върнат онлайн на необходимото ниво.

Недостатъчният персонал ли е виновен

Анализът след инцидента, извършен от Microsoft, показва, че персоналът е сред причините за проблема. Присъстващият персонал е бил квалифициран и с необходимите умения и опит да се справи с проблема, но не достатъчен брой, за да може да свърши цялата работа достатъчно бързо. Вместо това те трябва да бързат да се оправят с различни проблеми и физически не са в състояние да направят повече от това. Microsoft казва още, че има някои грешки, допуснати от присъстващия екип, но не поради липса на умения, а просто поради липса на процедури за последователност, които са били внедрени след това.

В резултат от инцидента Microsoft увеличава персонала, включително за нощната смяна, от трима на седем дежурни инженери. „Нивата на персонал в центъра за данни, публикувани в предварителния PIR, отчитат само персонала в „критична среда“ на място. Това не описва точно общите ни нива на персонал в центъра за данни. За да разясним това погрешно схващане, направихме промяна в предварителните публични PIR, публикувани на страницата „История на състоянието“, казва компанията.

Допълнителен анализ на инцидента обаче открива още несъответствия. В съоръженията има повече хора, но и не всички са в оперативния център. Оказва се, че някои от процедурите биха могли да бъдат обработени и от разстояние.

Компанията твърди, че персоналът е направил всичко възможно. Например 20 охладители в състояние на грешка, 13 изискващи ръчно рестартиране, което означава, че „трябва да бягате до покрива на сградата, за да отидете и ръчно да нулирате охладителя като това трябва да стане възможно най-бързо“.

Риск за всички

Uptime Institute отбелязва, че този тип проблеми представляват риск за всички оператори на центрове за данни. „Това се случва. И потенциално би могло да се случи на всяка организация. Операциите в центъра за данни са критично важни. От гледна точка на съоръженията, времето за работа и наличността е основна мисия за дейта центровете, за да ги поддържат работещи“, казва Рон Дейвис, вицепрезидент по операциите на цифровата инфраструктура в Uptime.

Хубавото е, че технологиите непрекъснато се развиват и подобряват. Така че оборудването, системите и уменията са по-добри, отколкото бяха преди година, камо ли по-назад във времето. Дистанционното наблюдение и автоматизацията на центровете за данни също се подобряват и дават повече възможности за операторите. Въпреки това винаги ще има нужда от хора, които физически да присъстват в центъра за данни. И тъй като дейта центровете стават все по-големи и по-сложни, хората на място трябва да бъдат по-добре подготвени.

Това ни води до въпроса какви са оптималните нива на персонал? Както можете да очаквате, няма универсален отговор. Всеки център за данни е специфичен и има свои собствени нужди, уникален дизайн, изисквания, нива на автоматизация и т.н. Така операторите трябва да определят оптималния персонал индивидуално за всяко съоръжение, казва Джон Буут, председател на групата за енергийна ефективност на Data Center Alliance. В коментар за DataCenterDynamics Буут казва, че има множество фактори, които операторите трябва да вземат предвид.

Например, да помислят дали има опции за външен персонал, способен да реагира при специфични задачи и спешни случаи в рамките на определен период от време, например по-малко от 4 часа. Също така да се извърши конкретен анализ на вътрешните процедури и да се прецени дали са достатъчно ефективни и колко служители са действително необходими, за да ги изпълнят правилно в рамките на разумен срок. Оказва се, че много оператори просто гадаят дали определен брой персонал е достатъчен или не.

След това идва въпросът за намирането и задържането на персонал. Това може да бъде проблем, особено за центрове за данни, които са в отдалечени райони. Едно очевидно решение е операторите просто да отворят кесията. Инвестирането в обучение на персонала, осигуряването на добро заплащане, много бонуси и социални придобивки, добро жилище или транспорт със сигурност ще помогне за задържането на персонала, нали?

Проблемът е, че операторите не искат да избират този подход, тъй като не искат да харчат толкова много пари за персонал, за който не могат да бъдат сигурни, че ще остане. Или дори дали ще се нуждаят от него след няколко години, тъй като технологиите се развиват допълнително и автоматизацията завладява все повече операциите на центровете за данни.

Ето защо Таж Ел-Хаят, регионален директор MENA в Citrix, препоръчва стратегическо набиране на персонал, отбелязва DataCentreMagazine. „Ускоряването на дигиталната трансформация в организациите поради пандемията разкри недостига на умения. Това важи особено за операторите на центрове за данни, от които се изисква да предоставят най-добрата и най-стабилна услуга, докато са изправени пред драстично и внезапно увеличение на натоварването“, казва той.

Ето защо операторите трябва да работят с екипи за набиране на персонал, като изграждат дългосрочни канали за развитие на хора и инвестират в университетски и колежански програми.

„Университетските програми са от съществено значение за изграждането на бъдещ капацитет и особено за създаване на стимули за по-разнообразна работна сила – например насърчаване на повече студентки да се присъединят към ИТ сектора“, казва Ел-Хаят. Единственият начин ИТ индустрията, включително операторите на центрове за данни, да решат проблема с недостига на персонал е дългосрочното планиране. Дори ако това означава инвестиране в непредсказуеми фактори като колко персонал ще е необходим, къде и кога.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван.