Não deixe que o armazenamento se torne o principal gargalo no treinamento de modelo

Dizem que as empresas de tecnologia estão lutando por GPUs ou no caminho para adquiri-las.Em abril, o CEO da Tesla, Elon Musk, comprou 10.000 GPUs e afirmou que a empresa continuaria comprando uma grande quantidade de GPUs da NVIDIA.Do lado da empresa, o pessoal de TI também está se esforçando para garantir que as GPUs sejam constantemente utilizadas para maximizar o retorno do investimento.No entanto, algumas empresas podem descobrir que, enquanto o número de GPUs aumenta, a ociosidade da GPU se torna mais severa.

Se a história nos ensinou alguma coisa sobre computação de alto desempenho (HPC), é que o armazenamento e a rede não devem ser sacrificados em detrimento do foco excessivo na computação.Se o armazenamento não puder transferir dados com eficiência para as unidades de computação, mesmo que você tenha a maior quantidade de GPUs do mundo, não alcançará a eficiência ideal.

Segundo Mike Matchett, analista da Small World Big Data, modelos menores podem ser executados em memória (RAM), permitindo maior foco na computação.No entanto, modelos maiores como ChatGPT com bilhões de nós não podem ser armazenados na memória devido ao alto custo.

“Não cabem bilhões de nós na memória, então o armazenamento se torna ainda mais importante”, diz Matchett.Infelizmente, o armazenamento de dados é frequentemente negligenciado durante o processo de planejamento.

Em geral, independentemente do caso de uso, existem quatro pontos comuns no processo de treinamento do modelo:

1. Treinamento modelo
2. Aplicação de Inferência
3. Armazenamento de dados
4. Computação Acelerada

Ao criar e implantar modelos, a maioria dos requisitos prioriza a prova de conceito rápida (POC) ou ambientes de teste para iniciar o treinamento do modelo, com as necessidades de armazenamento de dados não sendo consideradas.

No entanto, o desafio reside no fato de que o treinamento ou implantação de inferência pode durar meses ou até anos.Muitas empresas aumentam rapidamente os tamanhos de seus modelos durante esse período, e a infraestrutura deve se expandir para acomodar os modelos e conjuntos de dados crescentes.

A pesquisa do Google sobre milhões de cargas de trabalho de treinamento de ML revela que uma média de 30% do tempo de treinamento é gasto no pipeline de dados de entrada.Embora pesquisas anteriores tenham se concentrado na otimização de GPUs para acelerar o treinamento, muitos desafios ainda permanecem na otimização de várias partes do pipeline de dados.Quando você tem um poder computacional significativo, o verdadeiro gargalo se torna a rapidez com que você pode inserir dados nos cálculos para obter resultados.

Especificamente, os desafios no armazenamento e gerenciamento de dados exigem planejamento para crescimento de dados, permitindo que você extraia continuamente o valor dos dados à medida que progride, especialmente quando você se aventura em casos de uso mais avançados, como aprendizado profundo e redes neurais, que exigem mais armazenamento em termos de capacidade, desempenho e escalabilidade.

Em particular:

Escalabilidade
O aprendizado de máquina requer o manuseio de grandes quantidades de dados e, à medida que o volume de dados aumenta, a precisão dos modelos também melhora.Isso significa que as empresas devem coletar e armazenar mais dados todos os dias.Quando o armazenamento não pode ser dimensionado, as cargas de trabalho com uso intensivo de dados criam gargalos, limitando o desempenho e resultando em tempo ocioso caro para a GPU.

Flexibilidade
O suporte flexível para vários protocolos (incluindo NFS, SMB, HTTP, FTP, HDFS e S3) é necessário para atender às necessidades de diferentes sistemas, em vez de ser limitado a um único tipo de ambiente.

Latência
A latência de E/S é crítica para criar e usar modelos, pois os dados são lidos e relidos várias vezes.A redução da latência de E/S pode diminuir o tempo de treinamento dos modelos em dias ou meses.O desenvolvimento mais rápido do modelo se traduz diretamente em maiores vantagens comerciais.

Taxa de transferência
A taxa de transferência dos sistemas de armazenamento é crucial para o treinamento eficiente do modelo.Os processos de treinamento envolvem grandes quantidades de dados, geralmente em terabytes por hora.

Acesso Paralelo
Para obter alto rendimento, os modelos de treinamento dividem as atividades em várias tarefas paralelas.Isso geralmente significa que os algoritmos de aprendizado de máquina acessam os mesmos arquivos de vários processos (potencialmente em vários servidores físicos) simultaneamente.O sistema de armazenamento deve lidar com demandas simultâneas sem comprometer o desempenho.

Com seus excelentes recursos de baixa latência, alta taxa de transferência e E/S paralela em grande escala, o Dell PowerScale é um complemento de armazenamento ideal para computação acelerada por GPU.O PowerScale reduz efetivamente o tempo necessário para modelos de análise que treinam e testam conjuntos de dados de vários terabytes.No armazenamento totalmente flash PowerScale, a largura de banda aumenta em 18 vezes, eliminando gargalos de E/S e pode ser adicionada a clusters Isilon existentes para acelerar e liberar o valor de grandes quantidades de dados não estruturados.

Além disso, os recursos de acesso multiprotocolo do PowerScale fornecem flexibilidade ilimitada para cargas de trabalho em execução, permitindo que os dados sejam armazenados usando um protocolo e acessados ​​usando outro.Especificamente, os poderosos recursos, flexibilidade, escalabilidade e funcionalidade de nível empresarial da plataforma PowerScale ajudam a enfrentar os seguintes desafios:

- Acelerar a inovação em até 2,7 vezes, reduzindo o ciclo de treinamento do modelo.

- Elimine gargalos de E/S e forneça treinamento e validação de modelos mais rápidos, precisão de modelo aprimorada, produtividade de ciência de dados aprimorada e retorno maximizado sobre investimentos em computação, aproveitando recursos de nível empresarial, alto desempenho, simultaneidade e escalabilidade.Aumente a precisão do modelo com conjuntos de dados mais profundos e de alta resolução, aproveitando até 119 PB de capacidade efetiva de armazenamento em um único cluster.

- Alcance a implantação em escala iniciando computação e armazenamento de escala pequena e independente, oferecendo proteção robusta de dados e opções de segurança.

- Melhore a produtividade da ciência de dados com análises no local e soluções pré-validadas para implantações mais rápidas e de baixo risco.

- Alavancar projetos comprovados com base nas melhores tecnologias, incluindo aceleração de GPU NVIDIA e arquiteturas de referência com sistemas NVIDIA DGX.O alto desempenho e a simultaneidade do PowerScale atendem aos requisitos de desempenho de armazenamento em todos os estágios do aprendizado de máquina, desde a aquisição e preparação de dados até o treinamento e inferência do modelo.Juntamente com o sistema operacional OneFS, todos os nós podem operar perfeitamente dentro do mesmo cluster orientado pelo OneFS, com recursos de nível empresarial, como gerenciamento de desempenho, gerenciamento de dados, segurança e proteção de dados, permitindo a conclusão mais rápida do treinamento e validação do modelo para empresas.


Horário da postagem: 03 de julho de 2023