Amazon Web Services (AWS), облачное подразделение крупнейшего американского ритейлера Amazon, объявило о разработке уникального аппаратного решения для охлаждения графических процессоров Nvidia нового поколения, используемых в вычислениях искусственного интеллекта (ИИ). Эта инициатива отражает растущие требования рынка к эффективной инфраструктуре для поддержки масштабных ИИ-работ и подчеркивает стремление Amazon сохранять лидерство в сфере облачных вычислений.
Графические процессоры Nvidia являются основой современного поколения генеративного ИИ. Однако высокая вычислительная мощность сопровождается значительным энергопотреблением и, как следствие, повышенным тепловыделением. Обычные системы охлаждения уже не способны удовлетворить возросшие требования, что заставляет игроков рынка искать новые технические решения.
Первоначально AWS рассматривала вариант строительства специализированных дата-центров с масштабной жидкостной системой охлаждения, которая могла бы обеспечить оптимальные условия для работы мощных Nvidia GPU. Однако этот подход оказался непрактичным: не только строительство новых центров занимало бы значительное время, но и существующее коммерческое оборудование не соответствовало масштабам деятельности AWS. Вице-президент AWS по вычислениям и машинному обучению Дейв Браун в своем заявлении отметил, что традиционные решения занимают слишком много места и требуют чрезмерного расхода воды, что неприемлемо для компании с миллионами серверов.
В ответ на эти вызовы инженеры Amazon разработали инновационную систему In-Row Heat Exchanger (IRHX) — устройство, которое можно интегрировать как в уже существующие, так и в новые дата-центры, значительно повышая эффективность охлаждения. Это решение отличается от традиционных методов воздушного охлаждения, которые до сих пор оставались достаточными для предыдущих поколений Nvidia GPU.
Новые вычислительные инстансы AWS под названием P6e уже доступны клиентам и оптимизированы под высокоплотные вычислительные задачи, характерные для ИИ. Они построены на базе архитектуры Nvidia GB200 NVL72 — системы, которая включает в себя 72 графических процессора Blackwell в одном серверном стеллаже. Такая конфигурация позволяет эффективно обучать и запускать крупные модели искусственного интеллекта.
Ранее подобные вычислительные кластеры были доступны через Microsoft и CoreWeave, но AWS, будучи крупнейшим мировым поставщиком облачных услуг, существенно расширяет спектр своих возможностей и инфраструктуры. Использование собственных инновационных решений позволяет компании снижать зависимость от внешних поставщиков, оптимизировать расходы и обеспечивать конкурентное преимущество.
Кроме охлаждения, Amazon активно развивает собственные аппаратные платформы. Компания разработала специализированные чипы для общих и ИИ-вычислений, собственные серверы хранения данных и сетевые маршрутизаторы. Такой подход позволяет не только контролировать качество и производительность, но и снижать издержки, что отражается на финансовых результатах AWS, которая в первом квартале продемонстрировала рекордную операционную маржу за последние годы.
Следом за AWS аналогичные усилия предпринимает Microsoft, который в 2023 году представил собственные охлаждающие решения для своих чипов Maia AI — так называемые системы Sidekicks. Это подтверждает, что лидеры облачного рынка осознают стратегическую важность развития аппаратных технологий для поддержки ИИ и высокопроизводительных вычислений.
Развитие инноваций в области охлаждения становится ключевым фактором, позволяющим крупным облачным провайдерам справляться с растущими нагрузками и создавать новые возможности для масштабного внедрения искусственного интеллекта. Инвестиции в такие технологии, как In-Row Heat Exchanger, подчеркивают стратегическое видение Amazon в области устойчивого и эффективного развития облачной инфраструктуры.
На фоне стремительного роста применения ИИ и увеличения спроса на вычислительные ресурсы можно ожидать дальнейших инноваций в аппаратном обеспечении и инфраструктуре. AWS и другие крупные игроки рынка продолжают наращивать свои компетенции, что становится важным драйвером глобальной цифровой трансформации.