O blog da AWS

Transformando e inovando o setor de energia usando HPC na AWS

Por Leandro Florenzano, Arquiteto de Soluções Sênior, AWS Brasil Setor Público e Victor Pimenta Malof, Arquiteto de Soluções, AWS Brasil Setor Público.

Visão Geral

O setor de energia enfrenta desafios significativos na simulação e modelagem de sistemas complexos, como redes elétricas inteligentes (smart grids), sistemas de transmissão e distribuição. Essas simulações são cruciais para otimizar o desempenho, a confiabilidade e a eficiência das redes de energia, além de avaliar cenários de contingência, carga e planejar expansões futuras. Essas simulações, que podem ocorrer até mesmo diariamente, exigem um poder computacional massivo e recursos de computação de alto desempenho.

Desafio no setor de energia elétrica

As simulações de redes elétricas inteligentes exigem modelagem de milhões de nós e linhas de transmissão, integrando sistemas de tecnologia operacional de rede (OT), medição inteligente, sistemas de gerenciamento de distribuição (DMS), sistemas de gerenciamento de interrupções (OMS) e sistemas de informação geográfica (GIS). Esses sistemas coletam, produzem e processam dados críticos para monitorar e operar a rede elétrica.

O setor elétrico precisa realizar diversos cálculos matemáticos em paralelo, conciliando essas operações intensivas com outras aplicações que demandam recursos computacionais significativos. Isso requer uma gestão eficiente de recursos, escalonamento de tarefas e otimização de processos para garantir simulações precisas e oportunas.

Para que os cálculos sejam realizados com um tempo hoje considerado aceitável (em média 6 a 8 horas), as empresas do setor elétrico investem milhões de dólares em servidores, armazenamento, rede, monitoramento, além de gestão de datacenter e ambientes de recuperação e desastres (DR).

Além da necessidade de reduzir o tempo de processamento e custo da operação, as empresas do setor elétrico precisam de dados atualizados para rápida tomada de decisão, como por exemplo definir qual o melhor e mais eficiente meio de geração e transmissão de energia para um estado ou país.

O HPC ou High-Performance Computing está transformando o setor de energia ao permitir simulações, modelos e análises mais rápidos e precisos em uma variedade de aplicações críticas. No entanto, as empresas enfrentam restrições ao uso do HPC, incluindo capacidade limitada, longas filas de trabalho e longos ciclos de aquisição de hardware, além de altos custos.

Solução com uso de serviços de HPC na AWS

Para enfrentar esses desafios, a AWS oferece uma suite abrangente de serviços e soluções de computação de alto desempenho (HPC), adaptados às demandas da indústria de energia.

HPC é um termo que se refere a sistemas computacionais projetados para executar aplicações científicas e de engenharia que requer grande poder computacional e processamento paralelo. HPC é uma área que envolve hardware, software e técnicas para resolver problemas complexos e computacionalmente intensivos de maneira eficiente. Esse conceito é bastante amplo e engloba diferentes tipos de sistemas, arquiteturas, algoritmos e técnicas para lidar com cargas de trabalho de computação intensiva. HPC é amplamente utilizado por empresas, instituições acadêmicas e organizações de pesquisa que exigem recursos computacionais poderosos para resolver problemas complexos de maneira eficiente e escalável.

Na nuvem da AWS, HPC é composto pelos seguintes principais componentes e recursos:

Instâncias Amazon EC2 otimizadas para HPC: Incluindo famílias C5, C5n, C6g que são equipadas com processadores de alta frequência, instâncias da família R (otimizadas para memória), e instâncias aceleradas por GPU (G e P) e FPGA (Field Programmable Gate Array).

AWS ParallelCluster: Ferramenta para gerenciar clusters HPC de forma automatizada e simplificada.
AWS Batch: Serviço de processamento em lote altamente escalável para cargas de trabalho HPC.
Amazon FSx para Lustre: Sistema de arquivos de alto desempenho para acesso compartilhado a dados e em tempo real.
Rede de Cluster Elástica (EFA): Opção de rede avançada para comunicação de baixa latência e alta taxa transferência.
AWS Direct Connect: Conexão de rede dedicada entre recursos AWS e infraestruturas locais.
AWS Graviton: Processadores ARM projetados pela AWS para alto desempenho por vCPU.
Esses serviços e recursos da AWS são projetados para trabalhar em conjunto e fornecer um ambiente de computação de alto desempenho escalável, seguro e econômico na nuvem. Eles podem ser provisionados a partir da console AWS.

AWS Parallel Cluster como orquestrador de HPC na AWS

O AWS ParallelCluster como orquestrador de HPC

Um Parallel Cluster HPC na AWS consiste em múltiplas instâncias computacionais interconectadas, denominadas nós, que trabalham juntas para resolver tarefas computacionais intensivas. Esses nós são tipicamente equipados com poderosas CPUs, GPUs ou outros hardware especializados, dependendo dos requisitos específicos da carga de trabalho.

Como o AWS ParallelCluster funciona?
O AWS ParallelCluster é uma ferramenta de código aberto que automatiza o processo de criação e gerenciamento de clusters de computação de alto desempenho (HPC) na AWS. Ele utiliza a infraestrutura como código (IaC) para provisionar e configurar todos os recursos necessários para o cluster, como instâncias EC2, redes virtuais, segurança, armazenamento, agendadores de trabalho e integrações.

O funcionamento do AWS ParallelCluster pode ser resumido nas seguintes etapas:

Instalação: O usuário define qual tipo de sistema operacional será utilizado na criação do cluster. Em seguida utilizando o Python V3 via Command Line Interface (CLI) e via AWS ParallelCluster API ou como AWS CloudFormation.
Configuração do cluster: Após a instalação, configure seu AWS credenciais. Para obter mais informações, consulte Configurando o AWS CLI no AWS CLI guia do usuário. dos recursos. O AWS ParallelCluster configura o ambiente do cluster, instala bibliotecas e ferramentas necessárias, configura o orquestrador de tarefas (como Slurm por exemplo) e estabelece a comunicação entre os nós.
Provisionamento: O AWS ParallelCluster usa as definições de configuração para provisionar automaticamente uma VPC, sub-redes, grupos de segurança, instâncias Amazon EC2 para o nó principal e nós de computação, sistema de arquivos e outros recursos necessários. Existe um guia de praticas recomendadas que sugerimos a leitura.
Acesso e gerenciamento: Os usuários podem acessar o nó principal do cluster por meio de SSH e submeter trabalhos ao gerenciador de tarefas. O AWS ParallelCluster fornece comandos para escalar, pausar, retomar ou remover o cluster conforme necessário.
Além disso, a AWS fornece várias ferramentas e interfaces para visualizar, monitorar, otimizar e gerenciar cargas de trabalho HPC, como o Amazon CloudWatch logs, garantindo a utilização eficiente de recursos, integração com os fluxos de trabalho existentes, alem de rastreabilidade.

Figura 1 – Desenho de arquitetura usando o AWS Parallel Cluster em ambiente AWS

AWS Batch como orquestrador de HPC na AWS

O AWS Batch é um serviço totalmente gerenciado de processamento em lote que permite executar cargas de trabalho de (HPC) na AWS. Ele se integra perfeitamente com o ecossistema HPC, incluindo o AWS ParallelCluster, simplificando a implantação e o gerenciamento de clusters HPC, permitindo que você envie trabalhos em lote diretamente do cluster para o AWS Batch usando agendador de tarefa ou cargas de trabalho, como o Slurm.

Como funciona o AWS Batch:

Ambiente de Computação do AWS Batch : Define os recursos de computação (instâncias EC2) que serão usados para executar os trabalhos em lote. Esse ambiente pode ser configurado com AMIs otimizadas e tipos de instância para cargas de trabalho HPC.
Fila de Trabalhos do AWS Batch: Os trabalhos enviados do nó principal do AWS ParallelCluster são colocados na fila de trabalhos do AWS Batch. O AWS Batch lida com trabalhos de vários nós, trabalhos paralelos e dependências de trabalho, garantindo a execução eficiente e o gerenciamento de cargas de trabalho HPC.

Figura 2 – Desenho de arquitetura usando o AWS Batch como orquestrador de multiplas atividades

Utilizando os resultados dos cálculos com análise de dados e IA

A integração dos serviços de dados e Inteligência Artificial da AWS com as soluções de HPC oferece uma poderosa combinação para o setor de energia. Após a execução dos cálculos matemáticos complexos, os resultados obtidos podem ser armazenados em um DataLake na AWS, criando um repositório centralizado e escalável para análises posteriores.
O Amazon S3 serve como a base deste DataLake, oferecendo armazenamento durável e de baixo custo para volumes massívos de dados. O AWS Glue pode ser utilizado para catalogar, limpar e transformar esses dados, preparando-os para análises mais profundas.
Para consultas SQL complexas e análises em grande escala, o Amazon Athena permite que os analistas de dados explorem o DataLake diretamente, sem a necessidade de mover os dados. Isso possibilita a descoberta rápida de padrões e tendências nos dados de consumo e distribuição de energia.

Com o Amazon QuickSight é possível estruturar a visualização de dados, permitindo a criação de dashboards interativos e relatórios dinâmicos. Com sua integração de aprendizado de máquina (ML), o Amazon QuickSight pode até mesmo sugerir insights automaticamente, destacando anomalias ou tendências que poderiam passar despercebidas.
Para análises mais avançadas, os serviços de Machine Learning da AWS, como o Amazon SageMaker, podem ser empregados para criar modelos preditivos. Estes modelos podem prever picos de demanda, antecipar falhas na rede elétrica ou otimizar a distribuição de energia com base em padrões históricos.

Com o Amazon Bedrock é possível criar uma base de conhecimento robusta, incorporando dados históricos, regulamentações do setor e melhores práticas operacionais. Essa base de conhecimento (Knowledge Base) pode ser consultada usando linguagem natural, permitindo que engenheiros e analistas obtenham respostas rápidas para questões complexas sobre a operação da rede elétrica.

A combinação desses serviços de IA e análise de dados com as capacidades de HPC da AWS cria um ecossistema onde a velocidade de processamento se une à profundidade analítica. Isso permite que as empresas do setor elétrico não apenas processem grandes volumes de dados rapidamente, mas também extraiam valor significativo desses dados, levando a decisões mais informadas e estratégias mais eficazes.

Arquitetura:

Figura 3 – Arquitetura com entrada dos modelos matemáticos, processamento, tratamento dos dados e exibição dos resultados

Conclusão:

Nest blog, mostramos que a adoção de soluções de HPC na AWS representa uma mudança positiva para o setor de energia, oferecendo um potencial transformador sem precedentes. A combinação de escalabilidade praticamente ilimitada, contribuindo com a redução drástica nos tempos de processamento em até 80%, facilitando o acesso democratizado a tecnologias avançadas posiciona o HPC na AWS como uma ferramenta essencial para enfrentar os desafios complexos do setor energético moderno.
A integração com soluções de Inteligência Artificial e Machine Learning não apenas amplia o horizonte de possibilidades, mas também permite que as empresas extraiam insights valiosos de grandes volumes de dados, impulsionando a inovação em áreas críticas como distribuição de energia, previsão de demanda e manutenção preditiva.
À medida que o setor de energia evolui para atender às crescentes demandas por eficiência, sustentabilidade e flexibilidade, HPC na AWS se torna não apenas uma vantagem competitiva, mas uma necessidade estratégica.

Autores

Leandro Florenzano é arquiteto de Soluções Senior da Amazon Web Services para o Setor Público, atua em clientes da vertical de Power & Utilites no Brasil. Ingressou na AWS em 2022. Compõe o time de especialistas em Migrations na AWS.
Victor Pimenta Malof é arquiteto de Soluções da Amazon Web Services para o Setor Público, atua em clientes da vertical de Power & Utilites no Brasil. Ingressou na AWS em 2022 e compõe o time especialistas em Analytics na AWS.

Revisores

Marcelo Baptista é Enterprise Solutions Architect na Amazon Web Services. Ingressou na AWS em 2022 e atende aos clientes de Energy. Compõe o time de especialistas em HPC na AWS.
Cristiano Scandura é Senior Solutions Architect na Amazon Web Services. Ingressou na AWS em 2018 e atende aos clientes de Educação. Compõe o time de especialistas em IA/ML na AWS.