Следващата голяма битка: AI процесори за дейта центрове

24.04.2024 32 0

Изкуственият интелект (AI) е голямата тема в ИТ индустрията в момента. Ако ви е писнало да слушате за AI, имаме лоши новини. Тепърва започва.

AI вече има голямо влияние върху ИТ индустрията. Особено когато става въпрос за центрове за данни. Има огромен глад за хардуерни ресурси, способни да изчислят интензивните натоварвания на AI, и няма достатъчно процесори в наличност.

Nvidia е големият победител в тази хардуерна надпревара. Поне засега. Преди няколко години компанията смело заложи голяма част от бъдещето си на идеята, че AI ще бъде следващият голям хит и инвестира огромни ресурси в разработването и производството на процесори, насочени към AI. Този залог се изплати щедро-  донесе на Nvidia милиарди долари приходи. Чиповете са невероятно скъпи, но това не пречи на компаниите да поръчват хиляди от тях и да чакат търпеливо за още наличности.

Естествено, това не остана незабелязано от останалите големи имена. Изведнъж се оформи огромно състезание за чипове, което се разгръща точно пред нас. Nvidia, Intel, Google и Meta представиха свои собствени AI чипове и повечето от тях са насочени точно към една и съща цел – центъра за данни. Това ново състезание се очертава да бъде много интересно, тъй като вече носи големи скокове в иновациите и производителността. Нека да разгледаме набързо усилията, които всяка от тези компании полага.

Целта на Nvidia да даде началото на нова ера на изчисленията

В края на март 2024 г. Nvidia обяви най-новата си хардуерна платформа. Нарича се Blackwell и идва със „скромното“ твърдение, че ще даде началото на нова ера на изчисленията. Blackwell включва шест технологии за ускорено изчисление. „В продължение на три десетилетия преследвахме ускорени изчисления с цел да реализираме трансформиращи пробиви като задълбочено обучение и AI“, казва Дженсън Хуанг, основател и главен изпълнителен директор на NVIDIA. „Генеративният AI е определящата технология на нашето време. Blackwell е двигателят, който задвижва тази нова индустриална революция. Работейки с най-динамичните компании в света, ние ще реализираме обещанието за AI за всяка индустрия.“

Всички водещи имена предстои да използват хардуер Blackwell: Amazon Web Services, Dell, Google, Meta, Microsoft, Oracle, Tesla и xAI.

Blackwell разполага с най-мощния чип в света, както се твърди от Nvidia. Той има 208 милиарда транзистора и е произведен по специално изграден 4NP процес на TSMC. Платформата също така разполага с второ поколение Transformer Engine заедно с поддръжка на Micro-tensor и усъвършенствани алгоритми за управление на динамичния обхват на NVIDIA, интегрирани в рамките на NVIDIA TensorRT™-LLM и NeMo Megatron. В резултат на това Blackwell ще поддържа двойно по-големи изчислителни и моделни размери с нови 4-битови възможности за AI изводи с плаваща запетая.

Платформата включва и петото поколение на NVLink. Той осигурява двупосочна пропускателна способност от 1,8TB/s за GPU, осигурявайки безпроблемна високоскоростна комуникация до 576 GPU за най-сложните LLM.

Графичните процесори, захранвани от Blackwell, включват и специалната търсачка за надеждност, наличност и обслужване, наречен RAS Engine. „Освен това архитектурата Blackwell добавя възможности на ниво чип за използване на базирана на AI превантивна поддръжка за извършване на диагностика и прогнозиране на проблеми с надеждността. Това увеличава максимално времето  непрекъсната работа на системата и подобрява устойчивостта за широкомащабни внедрявания на AI, за да работят без прекъсване в продължение на седмици или дори месеци и да намалят оперативните разходи“, казва компанията.

Разработката също така обещава сигурно изчисление на AI алгоритми с поддръжка на нови протоколи за криптиране на собствен интерфейс, които са от решаващо значение за индустрии, чувствителни към поверителността, като здравеопазване и финансови услуги. И накрая, има специален механизъм за декомпресия, който поддържа най-новите формати, ускорявайки заявките към базата данни, за да осигури най-висока производителност в анализа на данни. През следващите години обработката на данни, за която компаниите харчат десетки милиарди долари годишно, ще бъде все ускорена предимно с GPU.

Акцентът на Nvidia Blackwell е суперчипът GB200 Grace Blackwell. Той обединява два графични процесора B200 Tensor Core заедно с процесор Grace. За най-висока AI производителност, системите, захранвани от GB200, могат да бъдат свързани с платформите NVIDIA Quantum-X800 InfiniBand и Spectrum™-X800 Ethernet, които осигуряват усъвършенствана работа в мрежа със скорости до 800Gb/s, казва Nvidia.

„GB200 е ключов компонент на NVIDIA GB200 NVL72, система с множество възли, течно охлаждане и стелаж за най-интензивните изчислителни натоварвания. Той съчетава 36 Grace Blackwell суперчипа, които включват 72 броя Blackwell GPU и 36 броя Grace CPU, свързани помежду си чрез NVLink от пето поколение. Освен това GB200 NVL72 включва модули за обработка на данни NVIDIA BlueField®-3, за да се даде възможност за ускоряване на облачна мрежа, композируемо съхранение, сигурност с нулево доверие и еластичност на GPU изчисленията в хипермащабни AI облаци. GB200 NVL72 осигурява до 30x увеличение на производителността в сравнение със същия брой графични процесори NVIDIA H100 Tensor Core за работни натоварвания с LLM изводи и намалява разходите и консумацията на енергия с до 25 пъти. Платформата действа като един GPU с 1,4 exaflop-а AI производителност и 30TB бърза памет и е градивен елемент за най-новия DGX SuperPOD” и можете да свържете до 8 B200 GPU за x86 gen AI платформи. Това са огромни числа.

Отговорът на Intel е наречен Gaudi 3

За да не остане по-назад, Intel отговори в началото на април със свой собствен AI чип – Gaudi 3. Компанията смело твърди, че „осигурява средно 50% по-добри изводи и 40% средно по-добра енергийна ефективност от Nvidia H100 – на много по-ниска цена”.

„Иновациите напредват с безпрецедентна скорост, благодарение на силиция – всяка компания бързо се превръща в компания с изкуствен интелект“, казва изпълнителният директор на Intel Пат Гелсингер. „Intel въвежда AI навсякъде в предприятието, от персоналния компютър до центъра за данни до периферията. Нашите най-нови платформи Gaudi, Xeon и Core Ultra предоставят сплотен набор от гъвкави решения, пригодени да отговорят на променящите се нужди на нашите клиенти и партньори и да се възползват от огромните възможности, които предстоят.”

Intel Gaudi 3 обещава 4 пъти повече AI изчисления за BF16 и 1,5 пъти увеличение на капацитета на паметта спрямо своя предшественик. „В сравнение с Nvidia H100, Intel Gaudi 3 се предвижда да осигури средно 50% по-бързо време за обучение в моделите Llama2 със 7B и 13B (млрд.) параметъра и модела с GPT-3 със 175B млрд. параметъра. Освен това се предвижда пропускателната способност на извода на ускорителя Intel Gaudi 3 да надмине H100 с 50% средно и 40% за изводна енергийна ефективност, осреднена по Llama със 7B и 70B параметъра и модели с Falcon със 180B параметъра“, казва компанията.

„Наистина очакваме да бъдем силно конкурентени“ с най-новите чипове на Nvidia, казва Дас Камхоут, вицепрезидент на Xeon в Intel, по време на разговор с репортери. „Ние предлагаме конкурентни цени и нашата отличителна отворена интегрирана мрежа на чип, а освен това използваме и стандартен за индустрията Ethernet. Вярваме, че това е доста добро предложение.“ Чиповете ще бъдат достъпни за OEM партньорите на Intel от второто тримесечие на 2024 г. Сред тях са Dell Technologies, Hewlett Packard Enterprise, Lenovo и Supermicro.

Google се трансформира в хардуерна компания

Intel не можа да остане в светлината на прожекторите за дълго. Само часове след като обяви Gaudi 3, Google показа първия си сървърен чип, създаден със собствени усилия – Axion. Това означава голяма промяна в позицията на компанията. В продължение на десетилетия Google винаги е поставяла на първо място софтуера и е разчитала на хардуер от партньори. Единственото изключение беше процесорът Tensor за Pixel устройства, но те са за крайни потребители.

Сега Axion прави голям скок що се отнася до AI чипове за центрове за данни. Чипът е базиран на ARM архитектура, като Google казва, че ще осигури 30% по-добра производителност от най-бързите ARM базирани виртуални машини с общо предназначение и 50% по-добра производителност от сравними x86 виртуални машини. Той също така ще предложи 60% по-добра енергийна ефективност спрямо базираните на x86 инстанции.

„Съобщението на Google за новия процесор Axion е важен момент за доставянето на персонализиран чип, който е оптимизиран за инфраструктурата на Google и е изграден върху нашата високопроизводителна платформа Arm Neoverse V2. Десетилетия инвестиции в екосистема, съчетани с продължаващите иновации на Google и приноса на софтуер с отворен код, осигуряват най-доброто изживяване за работните натоварвания, които са най-важни за клиентите, работещи на Arm навсякъде“, казва Рене Хаас, главен изпълнителен директор на Arm.

Google е толкова уверен във възможностите на Axion, че ще започне да го използва първо за собствените си услуги. Всъщност той вече започна да го внедрява за услуги като BigTable, Spanner, BigQuery, Blobstore, Pub/Sub, Google Earth Engine и платформата за реклами на YouTube, като има и още в процес на разработка. За разлика от другите две компании, Google няма да продава Axion на никого. Ако искате да се възползвате от възможностите на чипа, трябва да сте клиент на Google Cloud. Това е единственият начин да го използвате по-късно тази година.

Мета влиза в чата с AI чип

И точно когато си мислехме, че сме приключили за известно време с новите чипове за AI центрове за данни, Мета влиза в играта. Компанията обяви ново поколение на MTIA (Meta Training and Inference Accelerator). „Тази нова версия на MTIA удвоява честотната лента на изчисленията и паметта на предишното ни решение, като същевременно поддържа тясната ни връзка с нашите работни натоварвания. Чипът е проектиран да обслужва ефективно моделите за класиране и препоръки, които предоставят висококачествени препоръки на потребителите. Архитектурата на този чип е основно фокусирана върху осигуряването на правилния баланс на изчисления, честотна лента на паметта и капацитет на паметта за обслужване на модели за класиране и препоръки“, казва Meta.

Компанията добавя, че използва чипа MTIA в собствените си центрове за данни. „Вече виждаме положителните резултати от тази програма, тъй като тя ни позволява да се посветим и да инвестираме в повече изчислителна мощност за нашите по-интензивни работни натоварвания с AI. Резултатите досега показват, че този MTIA чип може да се справи както с ниска, така и с висока сложност на класиране и препоръчителни модели, които са ключови компоненти на продуктите на Meta. Тъй като контролираме целия процес, можем да постигнем по-голяма ефективност в сравнение с наличните в търговската мрежа графични процесори“, добавя Meta.

Искате да използвате MTIA? Не може. Поне засега компанията използва чипа само за собствени нужди в собствените си центрове за данни.

Други ИТ гиганти като Amazon и Microsoft също имат свои собствени AI чипове, които обявиха в края на миналата година. Те имат същата идея – да използват чиповете за собствената си облачна инфраструктура. Също така миналата година AMD показа своя графичен процесор Instinct MI300X, насочен към AI сървъри.

Всичко това е повече от страхотна новина за TSMC. Компанията може да не разработва сама AI чипове, но ги произвежда за много от големите имена, сред които Apple и Nvidia. В резултат на това приходите на TSMC за март скочиха с 34,3% на годишна база, което го прави най-бързият темп на растеж от ноември 2022 г. И също така тласна TSMC да бъде най-големият производител на полупроводници в света благодарение на бума на AI.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван.