Nosso hábito de IA já está mudando a forma como construímos datacenters • The Register
LarLar > blog > Nosso hábito de IA já está mudando a forma como construímos datacenters • The Register

Nosso hábito de IA já está mudando a forma como construímos datacenters • The Register

Jun 29, 2023

Análise A corrida louca para proteger e implantar a infraestrutura de IA está forçando os operadores de datacenters a reavaliar a forma como constroem e administram suas instalações.

Em um datacenter típico, o ar frio é puxado por um rack cheio de sistemas de computação, rede e armazenamento. Na parte traseira, o ar aquecido é então capturado e ejetado pela infraestrutura de refrigeração da instalação.

Esse paradigma funciona bem para racks de 6 a 10 kW, mas começa a desmoronar quando você começa a implantar os tipos de sistemas usados ​​para treinar modelos de IA como o GPT-4. Os nós de GPU modernos podem consumir facilmente a energia de um rack inteiro. E isso está forçando os operadores de datacenter a fazer algumas mudanças sérias no design.

Tesla parece ser o último a perceber isso. Como informamos no início desta semana, a fabricante de veículos elétricos dos EUA está procurando pessoas para ajudá-la a construir “os primeiros datacenters de seu tipo”.

Em um anúncio de emprego recente, a empresa disse que estava procurando um gerente sênior de programa de engenharia para datacenters, que “liderará o projeto e a engenharia ponta a ponta dos primeiros datacenters desse tipo da Tesla e será um dos principais membros do sua equipe de engenharia."

Essa pessoa também seria responsável por supervisionar a construção de um novo datacenter. Isto sugere que isto pode não estar relacionado com relatórios do The Information alegando que a Tesla assumiu recentemente um arrendamento de datacenter em Sacramento abandonado pelo Twitter após a aquisição da rede social pelo CEO Elon Musk.

Embora não esteja exatamente claro o que a empresa quer dizer com “datacenters primeiros de seu tipo” – perguntamos à Tesla e ainda não recebemos resposta – pode ter algo a ver com o acelerador Dojo AI personalizado que exibiu no Hot Chips no ano passado .

A empresa planeja investir mais de US$ 1 bilhão no projeto até o final de 2024 para acelerar o desenvolvimento de seu software de direção autônoma. Falando em julho, Musk revelou que o sistema completo poderia exceder 100 exaFLOPS, do que presumimos ser o desempenho do BF16.

Isso significa que Tesla terá que encontrar um lugar capaz de abrigar a coisa e alguém para manter as luzes acesas e todos esses pontos flutuando. E com base no que sabemos sobre o acelerador Dojo, arquitetar e gerenciar uma instalação capaz de fornecer energia e resfriamento adequados para manter o acelerador de IA funcionando pode ser um pesadelo.

Dojo é um supercomputador combinável, desenvolvido inteiramente internamente pela Tesla. Tudo, desde computação, rede, IO, até a arquitetura do conjunto de instruções, fornecimento de energia, empacotamento e resfriamento, foi construído sob medida com o propósito expresso de acelerar os algoritmos de aprendizado de máquina da Tesla.

O bloco básico deste sistema é o chiplet D1 da Tesla. Vinte e cinco deles são empacotados usando a tecnologia system-on-wafer da TSMC no bloco Dojo Training. Ao todo, o sistema de meio pé cúbico possui 11 GB de SRAM, 9 TB/s de conectividade de malha e pode gerenciar 9 petaFLOPS de desempenho BF16. Você pode encontrar uma análise completa do enorme acelerador de IA em nosso site irmão, The Next Platform.

É claro que reunir todo esse desempenho em um formato tão compacto apresenta alguns desafios únicos, como alimentar e resfriar um único acelerador de 15 kW, sem falar nos seis que compõem o sistema 1 exaFLOPS Dojo V1. E isso são apenas os aceleradores. Você também precisa alimentar e resfriar todos os sistemas de suporte usados ​​para alimentar e coordenar o fluxo de dados através dos aceleradores.

Depois, há a questão da malha de alta velocidade, que pode ser proibitiva em termos de como essas peças podem ser implantadas. Nessas velocidades, quanto mais próximo você puder embalá-los, melhor, mas também maior será a carga térmica. Como tal, não seria surpreendente se Tesla abandonasse totalmente a ideia de usar racks tradicionais em favor de algo completamente único.

Este humilde abutre adoraria ver um retorno aos designs selvagens e malucos de supercomputação de outrora. Os supercomputadores costumavam ser estranhos e divertidos. Não acredite em mim? Basta procurar o CM-1 ou o Cray-2 da Thinking Machine. Essas eram algumas máquinas bonitas.