Não deixe o armazenamento se tornar o principal gargalo no treinamento de modelos

Diz-se que as empresas de tecnologia estão lutando por GPUs ou prestes a adquiri-las. Em abril, o CEO da Tesla, Elon Musk, comprou 10.000 GPUs e afirmou que a empresa continuaria a comprar uma grande quantidade de GPUs da NVIDIA. Do lado empresarial, o pessoal de TI também está se esforçando para garantir que as GPUs sejam constantemente utilizadas para maximizar o retorno do investimento. No entanto, algumas empresas podem descobrir que, embora o número de GPUs aumente, a ociosidade da GPU se torna mais grave.

Se a história nos ensinou alguma coisa sobre a computação de alto desempenho (HPC), é que o armazenamento e a rede não devem ser sacrificados em detrimento do foco excessivo na computação. Se o armazenamento não conseguir transferir dados de forma eficiente para as unidades de computação, mesmo que você tenha o maior número de GPUs do mundo, você não alcançará a eficiência ideal.

Segundo Mike Matchett, analista da Small World Big Data, modelos menores podem ser executados em memória (RAM), permitindo mais foco na computação. Porém, modelos maiores como o ChatGPT com bilhões de nós não podem ser armazenados na memória devido ao alto custo.

“Não é possível acomodar bilhões de nós na memória, então o armazenamento se torna ainda mais importante”, diz Matchett. Infelizmente, o armazenamento de dados é frequentemente esquecido durante o processo de planejamento.

Em geral, independentemente do caso de uso, existem quatro pontos comuns no processo de treinamento do modelo:

1. Treinamento de modelo
2. Aplicação de Inferência
3. Armazenamento de dados
4. Computação Acelerada

Ao criar e implantar modelos, a maioria dos requisitos prioriza a prova de conceito (POC) rápida ou ambientes de teste para iniciar o treinamento do modelo, com as necessidades de armazenamento de dados não sendo levadas em consideração.

No entanto, o desafio reside no facto de a implementação da formação ou da inferência poder durar meses ou mesmo anos. Muitas empresas aumentam rapidamente o tamanho dos seus modelos durante este período, e a infraestrutura deve expandir-se para acomodar os crescentes modelos e conjuntos de dados.

Uma pesquisa do Google sobre milhões de cargas de trabalho de treinamento de ML revela que uma média de 30% do tempo de treinamento é gasto no pipeline de dados de entrada. Embora pesquisas anteriores tenham se concentrado na otimização de GPUs para acelerar o treinamento, ainda permanecem muitos desafios na otimização de várias partes do pipeline de dados. Quando você tem um poder computacional significativo, o verdadeiro gargalo é a rapidez com que você pode inserir dados nos cálculos para obter resultados.

Especificamente, os desafios no armazenamento e gerenciamento de dados exigem planejamento para o crescimento dos dados, permitindo extrair continuamente o valor dos dados à medida que avança, especialmente quando você se aventura em casos de uso mais avançados, como aprendizado profundo e redes neurais, que exigem mais recursos. armazenamento em termos de capacidade, desempenho e escalabilidade.

Em particular:

Escalabilidade
O aprendizado de máquina requer o tratamento de grandes quantidades de dados e, à medida que o volume de dados aumenta, a precisão dos modelos também melhora. Isso significa que as empresas devem coletar e armazenar mais dados todos os dias. Quando o armazenamento não pode ser dimensionado, as cargas de trabalho com uso intensivo de dados criam gargalos, limitando o desempenho e resultando em tempo ocioso da GPU dispendioso.

Flexibilidade
O suporte flexível para vários protocolos (incluindo NFS, SMB, HTTP, FTP, HDFS e S3) é necessário para atender às necessidades de diferentes sistemas, em vez de ficar limitado a um único tipo de ambiente.

Latência
A latência de E/S é crítica para construir e usar modelos, pois os dados são lidos e relidos diversas vezes. A redução da latência de E/S pode reduzir o tempo de treinamento dos modelos em dias ou meses. O desenvolvimento mais rápido do modelo se traduz diretamente em maiores vantagens comerciais.

Taxa de transferência
O rendimento dos sistemas de armazenamento é crucial para o treinamento eficiente do modelo. Os processos de treinamento envolvem grandes quantidades de dados, normalmente em terabytes por hora.

Acesso paralelo
Para alcançar alto rendimento, os modelos de treinamento dividem as atividades em múltiplas tarefas paralelas. Isso geralmente significa que os algoritmos de aprendizado de máquina acessam os mesmos arquivos de vários processos (potencialmente em vários servidores físicos) simultaneamente. O sistema de armazenamento deve lidar com demandas simultâneas sem comprometer o desempenho.

Com excelentes recursos de baixa latência, alto rendimento e E/S paralela em grande escala, o Dell PowerScale é um complemento de armazenamento ideal para computação acelerada por GPU. O PowerScale reduz efetivamente o tempo necessário para modelos de análise que treinam e testam conjuntos de dados de vários terabytes. No armazenamento totalmente flash PowerScale, a largura de banda aumenta 18 vezes, eliminando gargalos de E/S, e pode ser adicionada a clusters Isilon existentes para acelerar e liberar o valor de grandes quantidades de dados não estruturados.

Além disso, os recursos de acesso multiprotocolo do PowerScale oferecem flexibilidade ilimitada para a execução de cargas de trabalho, permitindo que os dados sejam armazenados usando um protocolo e acessados ​​usando outro. Especificamente, os recursos poderosos, a flexibilidade, a escalabilidade e a funcionalidade de nível empresarial da plataforma PowerScale ajudam a enfrentar os seguintes desafios:

- Acelerar a inovação em até 2,7 vezes, reduzindo o ciclo de treinamento do modelo.

- Elimine gargalos de E/S e forneça treinamento e validação de modelo mais rápidos, maior precisão do modelo, maior produtividade da ciência de dados e retorno maximizado sobre investimentos em computação, aproveitando recursos de nível empresarial, alto desempenho, simultaneidade e escalabilidade. Aumente a precisão do modelo com conjuntos de dados mais profundos e de maior resolução, aproveitando até 119 PB de capacidade de armazenamento efetiva em um único cluster.

- Alcance a implantação em escala iniciando computação e armazenamento pequenos e de escala independente, oferecendo opções robustas de proteção de dados e segurança.

- Melhore a produtividade da ciência de dados com análises locais e soluções pré-validadas para implantações mais rápidas e de baixo risco.

- Aproveitar designs comprovados baseados nas melhores tecnologias, incluindo aceleração de GPU NVIDIA e arquiteturas de referência com sistemas NVIDIA DGX. O alto desempenho e a simultaneidade do PowerScale atendem aos requisitos de desempenho de armazenamento em todas as etapas do aprendizado de máquina, desde a aquisição e preparação de dados até o treinamento e inferência de modelos. Juntamente com o sistema operacional OneFS, todos os nós podem operar perfeitamente no mesmo cluster orientado pelo OneFS, com recursos de nível empresarial, como gerenciamento de desempenho, gerenciamento de dados, segurança e proteção de dados, permitindo a conclusão mais rápida do treinamento e validação de modelos para as empresas.


Horário da postagem: 03/07/2023