Andrew é cofundador e CEO da Cerebras Systems. Ele é um empresário dedicado a ultrapassar os limites no espaço da computação. Antes da Cerebras, ele foi cofundador e CEO da SeaMicro, pioneira em microsservidores de alta largura de banda e eficiência energética. A SeaMicro foi adquirida pela AMD em 2012 por US$ 357 milhões. Antes da SeaMicro, Andrew foi vice-presidente de gerenciamento de produtos, marketing e BD da Force10 Networks, que mais tarde foi vendida para a Dell Computing por US$ 800 milhões. Antes da Force10 Networks, Andrew foi vice-presidente de marketing e desenvolvimento corporativo da RiverStone Networks desde o início da empresa até o IPO em 2001. Andrew é bacharel e MBA pela Universidade de Stanford.

A Cerebras Systems está construindo uma nova classe de sistema de computador, projetada desde os primeiros princípios para o objetivo singular de acelerar a IA e mudar o futuro do trabalho da IA.

Você poderia compartilhar a história da gênese por trás da Cerebras Systems?

Meus cofundadores e eu trabalhamos juntos em uma startup anterior que meu CTO Gary e eu iniciamos em 2007, chamada SeaMicro (que foi vendida para a AMD em 2012 por US$ 334 milhões). Meus cofundadores são alguns dos principais arquitetos e engenheiros de computação do setor – Gary Lauterbach, Sean Lie, JP Fricker e Michael James. Quando reunimos a banda em 2015, escrevemos duas coisas em um quadro branco – que queríamos trabalhar juntos e que queríamos construir algo que transformaria a indústria e estaria no Computer History Museum, que é o equivalente a o Hall da Fama da Computação. Ficamos honrados quando o Computer History Museum reconheceu nossas conquistas e adicionou o processador WSE-2 à sua coleção no ano passado, citando como ele transformou o cenário da inteligência artificial.

Cerebras Systems é uma equipe de arquitetos de computação pioneiros, cientistas da computação, pesquisadores de aprendizado profundo e engenheiros de todos os tipos que adoram fazer engenharia destemida. Nossa missão quando nos reunimos era construir uma nova classe de computador para acelerar o aprendizado profundo, que se tornou uma das cargas de trabalho mais importantes do nosso tempo.

Percebemos que o aprendizado profundo tem características únicas, massivas, e crescentes requisitos computacionais. E não é compatível com máquinas legadas, como unidades de processamento gráfico (GPUs), que foram projetadas fundamentalmente para outros trabalhos. Como resultado, a IA hoje é limitada não por aplicativos ou ideias, mas pela disponibilidade de computação. Testar uma única nova hipótese – treinar um novo modelo – pode levar dias, semanas ou até meses e custar centenas de milhares de dólares em tempo de computação. Esse é um grande obstáculo para a inovação.

Então, a gênese do Cerebras foi construir um novo tipo de computador otimizado exclusivamente para aprendizado profundo, começando de uma folha de papel em branco. Para atender às enormes demandas computacionais do aprendizado profundo, projetamos e fabricamos o maior chip já construído – o Wafer-Scale Engine (WSE). Ao criar o primeiro processador em escala de wafer do mundo, superamos desafios de design, fabricação e embalagem – todos considerados impossíveis em todos os 70 anos de história dos computadores. Cada elemento do WSE é projetado para permitir pesquisas de aprendizado profundo em velocidades e escala sem precedentes, alimentando o supercomputador de IA mais rápido do setor, o Cerebras CS-2.

Com todos os componentes otimizados para o trabalho de IA, o CS-2 oferece mais desempenho de computação em menos espaço e menos energia do que qualquer outro sistema. Ele faz isso enquanto reduz radicalmente a complexidade da programação, o tempo de computação do relógio de parede e o tempo de solução. Dependendo da carga de trabalho, de IA a HPC, o CS-2 oferece centenas ou milhares de vezes mais desempenho do que as alternativas legadas. O CS-2 fornece os recursos de computação de aprendizado profundo equivalentes a centenas de GPUs, enquanto fornece a facilidade de programação, gerenciamento e implantação de um único dispositivo.

Nos últimos meses, o Cerebras parece ser em todas as notícias, o que você pode nos dizer sobre o novo supercomputador Andromeda AI?

Anunciamos o Andromeda em novembro do ano passado e é um dos maiores e mais poderosos supercomputadores de IA já construídos. Fornecendo mais de 1 Exaflop de computação de IA e 120 Petaflops de computação densa, o Andromeda tem 13,5 milhões de núcleos em 16 sistemas CS-2 e é o único supercomputador de IA a demonstrar dimensionamento linear quase perfeito em grandes cargas de trabalho de modelo de linguagem. Também é extremamente simples de usar.

A título de lembrete, o maior supercomputador da Terra – Frontier – tem 8,7 milhões de núcleos. Na contagem bruta de núcleos, Andrômeda é mais de uma vez e meia maior. Obviamente, ele faz um trabalho diferente, mas isso dá uma ideia do escopo: quase 100 terabits de largura de banda interna, quase 20.000 núcleos AMD Epyc o alimentam e-ao contrário dos supercomputadores gigantes que levam anos para se levantar-nós levantamos o Andromeda em três dias e imediatamente depois disso, estava entregando um escalonamento linear quase perfeito de IA.

Argonne National Labs foi nosso primeiro cliente a usar o Andromeda, e eles o aplicaram a um problema que estava quebrando seu cluster de 2.000 GPUs chamado Polaris. O problema era executar modelos generativos GPT-3XL muito grandes, enquanto colocava todo o genoma do Covid na janela de sequência, para que você pudesse analisar cada gene no contexto de todo o genoma do Covid. O Andromeda executou uma carga de trabalho genética exclusiva com comprimentos de sequência longos (MSL de 10K) em 1, 2, 4, 8 e 16 nós, com escala linear quase perfeita. A escala linear está entre as características mais procuradas de um grande cluster. O Andromeda forneceu 15,87X de rendimento em 16 sistemas CS-2, em comparação com um único CS-2, e uma redução no tempo de treinamento correspondente.

Você poderia nos falar sobre o parceria com Jasper que foi revelada em final de novembro e o que isso significa para ambas as empresas?

Jasper é uma empresa muito interessante. Eles são líderes em conteúdo generativo de IA para marketing e seus produtos são usados ​​por mais de 100.000 clientes em todo o mundo para escrever textos para marketing, anúncios, livros e muito mais. É obviamente um espaço muito empolgante e em rápido crescimento no momento. No ano passado, anunciamos uma parceria com eles para acelerar a adoção e melhorar a precisão da IA ​​generativa em aplicativos corporativos e de consumo. Jasper está usando nosso supercomputador Andromeda para treinar seus modelos profundamente intensivos em computação em uma fração do tempo. Isso ampliará o alcance dos modelos generativos de IA para as massas.

Com o poder do supercomputador Cerebras Andromeda, Jasper pode avançar drasticamente no trabalho de IA, incluindo o treinamento de redes GPT para ajustar as saídas de IA a todos os níveis de complexidade e granularidade do usuário. Isso melhora a precisão contextual dos modelos generativos e permitirá que Jasper personalize o conteúdo em várias classes de clientes de maneira rápida e fácil.

Nossa parceria permite que Jasper invente o futuro da IA ​​generativa, fazendo coisas impraticáveis ​​ou simplesmente impossível com a infraestrutura tradicional e para acelerar o potencial da IA ​​generativa, trazendo seus benefícios para nossa crescente base de clientes em todo o mundo.

Em recente comunicado de imprensa, o National Energy Technology Laboratory e o Pittsburgh Supercomputing Center Pioneer anunciaram a primeira Simulação Computacional de Dinâmica de Fluidos no motor Cerebras em escala de wafer. Você poderia descrever o que é especificamente um mecanismo em escala de wafer e como ele funciona?

Nosso Wafer-Scale Engine (WSE) é o revolucionário processador de IA para nosso sistema de computador de aprendizado profundo, o CS-2. Ao contrário dos processadores legados de uso geral, o WSE foi construído desde o início para acelerar o aprendizado profundo: ele possui 850.000 núcleos otimizados por IA para operações esparsas de tensor, memória on-chip de alta largura de banda maciça e ordens de magnitude de interconexão mais rápidas do que um processador tradicional cluster poderia alcançar. Ao todo, ele fornece recursos de computação de aprendizado profundo equivalentes a um cluster de máquinas legadas, tudo em um único dispositivo, fácil de programar como um único nó, reduzindo radicalmente a complexidade da programação, o tempo de computação do relógio de parede e o tempo de solução.

Nosso WSE-2 de segunda geração, que alimenta nosso sistema CS-2, pode resolver problemas com extrema rapidez. Rápido o suficiente para permitir modelos em tempo real e de alta fidelidade de sistemas de engenharia de interesse. É um raro exemplo de”escalonamento forte”bem-sucedido, que é o uso de paralelismo para reduzir o tempo de resolução com um problema de tamanho fixo.

E é para isso que o National Energy Technology Laboratory e o Pittsburgh Supercomputing Center o estão usando.. Acabamos de anunciar alguns resultados realmente empolgantes de uma simulação computacional de dinâmica de fluidos (CFD), composta por cerca de 200 milhões de células, em taxas quase em tempo real. Este vídeo mostra a simulação em alta resolução da convecção de Rayleigh-Bénard, que ocorre quando uma camada de fluido é aquecida por baixo e resfriada por cima. Esses fluxos de fluidos movidos termicamente estão ao nosso redor-desde dias de vento, tempestades de neve com efeito de lago, correntes de magma no núcleo da Terra e movimento de plasma no sol. Como diz o narrador, não é apenas a beleza visual da simulação que importa: é a velocidade com que conseguimos calculá-la. Pela primeira vez, usando nosso Wafer-Scale Engine, o NETL é capaz de manipular uma grade de quase 200 milhões de células quase em tempo real.

Que tipo de dados está sendo simulado?

A carga de trabalho testada foi fluxos de fluidos acionados termicamente, também conhecidos como convecção natural, que é uma aplicação de dinâmica de fluidos computacional (CFD). Os fluxos de fluidos ocorrem naturalmente ao nosso redor-desde dias de vento, até tempestades de neve com efeito de lago, até o movimento das placas tectônicas. Esta simulação, composta por cerca de 200 milhões de células, centra-se num fenómeno conhecido como convecção “Rayleigh-Bénard”, que ocorre quando um fluido é aquecido por baixo e arrefecido por cima. Na natureza, esse fenômeno pode levar a eventos climáticos severos, como downbursts, microbursts e derechos. Também é responsável pelo movimento do magma no núcleo da Terra e pelo movimento do plasma no sol.

Em novembro de 2022, o NETL introduziu uma nova API de modelagem de equações de campo, alimentada pelo sistema CS-2, que foi tanto como 470 vezes mais rápido do que era possível no Joule Supercomputer da NETL. Isso significa que ele pode fornecer velocidades além do que os clusters de qualquer número de CPUs ou GPUs podem alcançar. Usando uma API Python simples que permite o processamento em escala de wafer para grande parte da ciência computacional, o WFA oferece ganhos de desempenho e usabilidade que não poderiam ser obtidos em computadores e supercomputadores convencionais-na verdade, ele superou o OpenFOAM no supercomputador Joule 2.0 da NETL em mais de duas ordens de magnitude em tempo de solução.

Devido à simplicidade da API WFA, os resultados foram alcançados em apenas algumas semanas e continuam a estreita colaboração entre NETL, PSC e Cerebras Systems.

Ao transformar a velocidade do CFD (que sempre foi uma tarefa lenta e off-line) em nosso WSE, podemos abrir uma série de novos casos de uso em tempo real para este e muitos outros aplicativos principais de HPC. Nosso objetivo é que, ao habilitar mais poder de computação, nossos clientes possam realizar mais experimentos e inventar uma ciência melhor. O diretor do laboratório do NETL, Brian Anderson, nos disse que isso acelerará e melhorará drasticamente o processo de design de alguns projetos realmente grandes nos quais o NETL está trabalhando para mitigar as mudanças climáticas e permitir um futuro energético seguro-projetos como sequestro de carbono e produção de hidrogênio azul.

A Cerebras está constantemente superando a concorrência quando se trata de lançar supercomputadores. Quais são alguns dos desafios por trás da construção de supercomputadores de última geração?

Ironicamente, um dos desafios mais difíceis da grande IA não é a IA. É a computação distribuída.

Para treinar as redes neurais de última geração de hoje, os pesquisadores costumam usar centenas a milhares de unidades de processamento gráfico (GPUs). E não é fácil. Escalar o treinamento de modelo de linguagem grande em um cluster de GPUs requer a distribuição de uma carga de trabalho em muitos dispositivos pequenos, lidando com tamanhos de memória do dispositivo e restrições de largura de banda de memória e gerenciando cuidadosamente as despesas gerais de comunicação e sincronização.

Adotamos uma abordagem completa abordagem diferente para projetar nossos supercomputadores por meio do desenvolvimento do Cerebras Wafer-Scale Cluster e do Cerebras Weight Streaming modo de execução. Com essas tecnologias, a Cerebras aborda uma nova maneira de escalar com base em três pontos principais:

A substituição do processamento de CPU e GPU por aceleradores de escala de wafer, como o sistema Cerebras CS-2. Essa alteração reduz o número de unidades de computação necessárias para atingir uma velocidade de computação aceitável.

Para enfrentar o desafio do tamanho do modelo, empregamos uma arquitetura de sistema que desagrega a computação do armazenamento do modelo. Um serviço de computação baseado em um cluster de sistemas CS-2 (fornecendo largura de banda de computação adequada) é fortemente acoplado a um serviço de memória (com grande capacidade de memória) que fornece subconjuntos do modelo para o cluster de computação sob demanda. Como de costume, um serviço de dados fornece lotes de dados de treinamento para o serviço de computação conforme necessário.

Um modelo inovador para agendamento e coordenação do trabalho de treinamento no cluster CS-2 que emprega paralelismo de dados, camada em um tempo de treinamento com pesos esparsos transmitidos sob demanda e retenção de ativações no serviço de computação.

Tem havido temores do fim da Lei de Moore por quase uma década, quantos anos mais pode a indústria se espreme e quais tipos de inovações são necessárias para isso?

Acho que a questão com a qual todos estamos lidando é se a Lei de Moore – conforme escrita por Moore – está morta. Não está demorando dois anos para obter mais transistores. Agora está levando quatro ou cinco anos. E esses transistores não estão chegando ao mesmo preço – eles estão chegando a preços muito mais altos. Então a questão é: ainda estamos obtendo os mesmos benefícios de passar de sete para cinco para três nanômetros? Os benefícios são menores e custam mais, então as soluções se tornam mais complicadas do que simplesmente o chip.

Jack Dongarra, um importante arquiteto de computadores, deu uma palestra recentemente e disse: “Ficamos muito melhores em fazer FLOPs e em fazer I/O.” Isso é verdade. Nossa capacidade de mover dados fora do chip fica muito atrás de nossa capacidade de aumentar o desempenho em um chip. Na Cerebras, ficamos felizes quando ele disse isso, porque valida nossa decisão de fazer um chip maior e mover menos coisas para fora do chip. Ele também fornece algumas orientações sobre maneiras futuras de melhorar o desempenho dos sistemas com chips. Há trabalho a ser feito, não apenas extraindo mais FLOPs, mas também em técnicas para movê-los e mover os dados de um chip para outro — até mesmo de um chip muito grande para outro muito grande.

Existe mais alguma coisa que você gostaria de compartilhar sobre os Sistemas Cerebras?

Para o bem ou para o mal, as pessoas costumam colocar o Cerebras nessa categoria de “os caras com chips realmente grandes”. Conseguimos fornecer soluções atraentes para redes neurais muito, muito grandes, eliminando assim a necessidade de fazer computação distribuída dolorosa. Acredito que isso seja extremamente interessante e esteja no cerne do motivo pelo qual nossos clientes nos amam. O domínio interessante para 2023 será como fazer grande computação com um nível mais alto de precisão, usando menos FLOPs.

Nosso trabalho sobre esparsidade fornece uma abordagem extremamente interessante. Não fazemos trabalho que não nos mova em direção à linha do gol, e multiplicar por zero é uma má ideia. Em breve, lançaremos um artigo muito interessante sobre esparsidade, e acho que haverá mais esforço para ver como chegamos a esses pontos eficientes e como fazemos isso gastando menos energia. E não apenas por menos força e treinamento; como minimizamos o custo e o poder usados ​​na inferência? Acho que esparsidade ajuda em ambas as frentes.

Obrigado por essas respostas detalhadas, os leitores que desejam aprender mais devem visitar Cerebras Systems .

By Maisy Hall

Eu trabalho como redator freelancer. Também sou vegana e ambientalista. Sempre que tenho tempo, concentro-me na meditação.