Notícias - Desempenho de sistemas de armazenamento em array de disco em conexão de host único

Em geral, discos ou matrizes de discos têm o melhor desempenho em um cenário de conexão de host único. A maioria dos sistemas operacionais é baseada em sistemas de arquivos exclusivos, o que significa que um sistema de arquivos só pode pertencer a um único sistema operacional. Como resultado, tanto o sistema operacional quanto o software aplicativo otimizam a leitura e gravação de dados para o sistema de armazenamento em disco com base em suas características. Esta otimização visa reduzir os tempos de busca física e diminuir os tempos de resposta mecânica do disco. As solicitações de dados de cada processo do programa são tratadas pelo sistema operacional, resultando em solicitações de leitura e gravação de dados otimizadas e ordenadas para o disco ou matriz de discos. Isso leva ao melhor desempenho do sistema de armazenamento nesta configuração.

Para matrizes de disco, embora um controlador RAID adicional seja adicionado entre o sistema operacional e as unidades de disco individuais, os controladores RAID atuais gerenciam e verificam principalmente as operações de tolerância a falhas do disco. Eles não realizam mesclagem, reordenação ou otimização de solicitações de dados. Os controladores RAID são projetados com base na suposição de que as solicitações de dados vêm de um único host, já otimizado e classificado pelo sistema operacional. O cache do controlador fornece apenas recursos de buffer direto e computacional, sem enfileirar dados para otimização. Quando o cache é preenchido rapidamente, a velocidade diminui imediatamente para a velocidade real das operações do disco.

A principal função do controlador RAID é criar um ou mais discos grandes tolerantes a falhas a partir de vários discos e melhorar a velocidade geral de leitura e gravação de dados usando o recurso de cache em cada disco. O cache de leitura dos controladores RAID melhora significativamente o desempenho de leitura da matriz de disco quando os mesmos dados são lidos em um curto espaço de tempo. A velocidade máxima real de leitura e gravação de toda a matriz de disco é limitada pelo valor mais baixo entre a largura de banda do canal host, cálculo de verificação da CPU do controlador e recursos de controle do sistema (mecanismo RAID), largura de banda do canal de disco e desempenho do disco (o desempenho real combinado de todos os discos). Além disso, a incompatibilidade entre a base de otimização das solicitações de dados do sistema operacional e o formato RAID, como o tamanho do bloco das solicitações de E/S que não está alinhado com o tamanho do segmento RAID, pode impactar significativamente o desempenho da matriz de disco.

Variações de desempenho de sistemas tradicionais de armazenamento em matriz de disco em acesso a vários hosts

Em cenários de acesso a vários hosts, o desempenho das matrizes de disco diminui em comparação com conexões de host único. Em sistemas de armazenamento de matriz de disco de pequena escala, que normalmente possuem um par único ou redundante de controladores de matriz de disco e um número limitado de discos conectados, o desempenho é afetado pelos fluxos de dados não ordenados de vários hosts. Isso leva a maiores tempos de busca de disco, informações finais e de cabeçalho de segmento de dados e fragmentação de dados para leitura, mesclagem, cálculos de verificação e processos de reescrita. Consequentemente, o desempenho do armazenamento diminui à medida que mais hosts são conectados.

Em sistemas de armazenamento de matriz de disco de grande escala, a degradação do desempenho é diferente daquela de matrizes de disco de pequena escala. Esses sistemas de grande escala usam uma estrutura de barramento ou estrutura de comutação de ponto cruzado para conectar vários subsistemas de armazenamento (matrizes de disco) e incluem caches de grande capacidade e módulos de conexão de host (semelhantes a hubs de canal ou switches) para mais hosts dentro do barramento ou comutação. estrutura. O desempenho depende em grande parte do cache em aplicações de processamento de transações, mas tem eficácia limitada em cenários de dados multimídia. Embora os subsistemas internos da matriz de discos nesses sistemas de grande escala operem de forma relativamente independente, uma única unidade lógica só é construída dentro de um único subsistema de disco. Assim, o desempenho de uma única unidade lógica permanece baixo.

Concluindo, as matrizes de discos de pequena escala experimentam um declínio de desempenho devido a fluxos de dados desordenados, enquanto as matrizes de discos de grande escala com vários subsistemas de matrizes de discos independentes podem suportar mais hosts, mas ainda enfrentam limitações para aplicações de dados multimídia. Por outro lado, os sistemas de armazenamento NAS baseados na tecnologia RAID tradicional e que usam protocolos NFS e CIFS para compartilhar armazenamento com usuários externos por meio de conexões Ethernet apresentam menor degradação de desempenho em ambientes de acesso a múltiplos hosts. Os sistemas de armazenamento NAS otimizam a transmissão de dados usando múltiplas transferências TCP/IP paralelas, permitindo velocidade máxima compartilhada de cerca de 60 MB/s em um único sistema de armazenamento NAS. O uso de conexões Ethernet permite que os dados sejam gravados de maneira ideal no sistema de disco após gerenciamento e reordenamento pelo sistema operacional ou software de gerenciamento de dados no servidor thin. Portanto, o próprio sistema de disco não sofre degradação significativa de desempenho, tornando o armazenamento NAS adequado para aplicações que exigem compartilhamento de dados.

Horário da postagem: 17 de julho de 2023