Amazon Lab126, 개발 및 혁신의 속도를 높여 주는 HPC 솔루션 구축
2020년
오늘날 가장 인기 있는 소비자 기술 디바이스 중 일부는 Amazon Lab126에서 탄생했습니다. 캘리포니아에 본사를 둔 이 연구 및 개발 조직은 Amazon Kindle e-리더 및 Amazon Echo 스마트 스피커와 같은 세간의 이목을 끄는 디바이스를 만들어 왔습니다.
Amazon Lab126 디바이스 팀은 고성능 컴퓨팅(HPC) 용량과 기계 학습 기능을 사용하여 설계 환경을 크기를 조정하고, 제품 개발을 가속화하며, 출시 소요 기간을 단축합니다. 하지만 노후화되고 비용이 많이 드는 온프레미스 HPC 환경 때문에 팀에 필요한 확장성과 사용 편의성을 확보할 수 없었습니다. "우리는 특정 조건에서 소비자 디바이스의 기계 및 열 반응을 관찰하는 작업처럼 런타임이 긴 대규모 시뮬레이션을 실행합니다." Amazon Lab126 아키텍처 팀의 선임 관리자인 Shankar Ganapathysubramanian의 말입니다. "이러한 워크로드를 지원하기 위해 컴퓨팅 용량을 늘려야 했습니다." 이어서 Amazon Lab126의 무선 엔지니어링 선임 관리자인 Amit Gaikwad는 이렇게 말합니다. "우리는 더 정교한 고객 대면 솔루션을 더 많이 설계 및 구축하고 있었는데, 온프레미스 HPC 환경에서는 우리에게 필요한 확장성과 속도가 확보되지 않았습니다."
Amazon 설계 및 엔지니어링 팀은 전산 유체 역학, 유한 요소 해석, 전자 설계 자동화, 수치 전자기학 등과 같은 다양한 응용 분야에서 시뮬레이션 및 모델링을 수행합니다. 셀프 서비스 기능은 이러한 다양한 팀을 지원하는 데 중요한 요구 사항이었습니다. Amazon Lab126의 선임 시스템/소프트웨어 개발자 엔지니어인 Mickael Crozes가 이렇게 말합니다. "팀마다 필요한 컴퓨팅 용량이 서로 다른데, 이를 모두 수용할 수 있는 유연성이 부족했습니다. 우리는 각 팀이 온디맨드 방식으로 자체 환경에 액세스할 수 있도록 HPC 리소스를 중앙 집중화하고자 했습니다. 하지만 각 팀이 필요할 때 새로운 HPC 클러스터를 시작할 수 있는 능력이 없었습니다."
"AWS 기반 HPC를 통해 우리는 이제 더 많은 디바이스를 지원하고, 새로운 기술을 탐색하며, 현장에서 디바이스가 어떻게 작동하는지 더 잘 이해할 수 있습니다."
Amit Gaikwad
Amazon Lab126 무선 엔지니어링 부문 선임 관리자
확장 가능한 AWS 기반 HPC 프레임워크 구축
Amazon Lab126 팀은 내부 고객의 요구를 처리하기 위해 2017년 하반기에 Amazon Web Services(AWS)에서 새 클라우드 HPC 환경을 생성하기로 결정했습니다. "서드 파티 HPC 서비스들을 평가해 보았지만, 궁극적으로 AWS가 컴퓨팅 인스턴스 유형의 확장성 및 유연성 측면에서 최고의 기술을 선사했습니다." Crozes의 말입니다. "또한 AWS가 컴퓨팅을 소유하고 데이터를 호스트할 역량이 충분하다는 확신이 있었습니다."
2018년 Amazon Lab126은 온프레미스 HPC 솔루션을 대체하고 HPC 및 기계 학습과 같은 스케일 아웃 워크로드를 위한 AWS 기반의 다중 사용자 R&D 환경을 지원하는 유연한 HPC 참조 프레임워크를 AWS에 구축했습니다. 이 새로운 프레임워크는 빠른 네트워크 백본, 무제한 스토리지, 예산 및 비용 관리를 통해 컴퓨팅 집약적인 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스를 통합하고 간소화합니다. 데이터 스토리지에는 Amazon Elastic Block Store(Amazon EBS) 및 Amazon Elastic File System(Amazon EFS)을 사용합니다. 또한 Amazon Lab126은 대부분의 I/O 집약적인 워크로드에 Amazon FSx for Lustre를 사용하고, 클러스터의 결함 복원력을 높이기 위해 AWS Backup을 사용합니다. Crozes는 이렇게 설명합니다. "AWS Backup은 프로덕션 환경 보호를 자동화할 수 있는 완벽한 솔루션이었습니다. 모든 팀의 데이터를 보호하고, 보존/수명 주기를 관리하며, 사용하기 간편한 그런 솔루션을 만들기 위해서는 수많은 반복 작업이 필요했을 것입니다."
3배 빠른 HPC 작업 실행
Lab126 제품 설계자 및 엔지니어는 새 HPC 클러스터의 성능이 향상된 것을 확인했습니다. 예를 들어, 무선 디바이스 연결 팀은 휴대폰이 지면이나 다른 표면에 부딪혔을 때 어떻게 동작하는지를 연구하는 구조 디바이스 낙하 시뮬레이션의 주기를 개선했습니다. "AWS에서 스케일 아웃 컴퓨팅 HPC 프레임워크를 사용하여 전체 설계 주기 동안 속도가 3배 향상되었습니다." Ganapathysubramanian의 말입니다. "워크로드 병렬화가 더 쉬워졌기 때문에 이제 더 많은 시뮬레이션을 실행할 수 있습니다. 온프레미스 HPC 솔루션을 사용하면 데이터를 생성하는 데 몇 주가 걸리는 경우가 많았습니다. 이제는 몇 시간 만에 해낼 수 있습니다."
AWS의 새로운 프레임워크를 사용하면 Amazon Devices 설계자와 엔지니어가 특정 워크로드의 요구 사항을 충족하도록 온디맨드 방식으로 확장할 수 있습니다. "런타임이 매우 대규모인 데다, 무선 연결 데이터를 분석하는 데만 많은 컴퓨팅이 필요합니다." Gaikwad의 말입니다. "이 솔루션을 사용하면 전 세계의 엔지니어가 솔루션을 이전보다 3배 빠르게 확장할 수 있습니다. 또한 규모를 쉽게 축소할 수 있으므로 작업에 GPU 100개가 필요하지 않다면 그만큼 사용할 필요가 없습니다."
온보딩 프로세스 단순화
또한 Amazon Lab126 설계 기술 팀은 IT 리소스를 사용하지 않고도 HPC 클러스터에서 새로운 Amazon Devices 엔지니어링 팀을 하루 이내에 온보딩 및 지원할 수 있습니다. 이전에는 몇 주가 걸리던 작업입니다. "이제 워크로드 요구 사항에 상관없이 모든 사용자에게 원활하게 작동하는 유연한 중앙 집중식 HPC 환경을 구축했습니다."라고 Crozes는 말합니다. "이를 통해 온보딩 프로세스의 복잡성이 크게 줄었습니다. 여기에 있는 많은 직원은 HPC 전문가가 아닌 만큼, 이러한 사용 편의성 덕분에 특정 설계 전문 지식에 집중할 수 있습니다."
이제 Amazon Devices 팀은 AWS에서 전체 컴퓨터 지원 엔지니어링 워크플로(모델 설계 및 메싱, 시뮬레이션 및 사후 처리 시각화)를 수행할 수 있습니다. 이는 이제 재택 근무를 하는 엔지니어와 설계자가 자신의 전용 슈퍼컴퓨터와 강력한 클라우드 기반 워크스테이션을 클릭 한 번으로 얻을 수 있기 때문에 가능한 일입니다.
제품 혁신 촉진
AWS 기반 HPC 환경의 확장성과 간편성 때문에 Amazon Devices 팀은 하드웨어 관리에 소비하는 시간을 줄이고 혁신에 더 많은 시간을 할애하고 있습니다. "AWS 기반 HPC를 통해 우리는 이제 더 많은 디바이스를 지원하고, 새로운 기술을 탐색하며, 현장에서 디바이스가 어떻게 작동하는지 더 잘 이해할 수 있습니다." Gaikwad의 말입니다. 예를 들어 Amazon Devices 무선 연결 팀은 무선 주파수 간섭을 최소화하는 무선 시스템 최적화에 대한 연구로 최근 DesignCon 최우수 논문상을 수상했습니다.
Ganapathysubramanian은 이렇게 말합니다. "기하학적 계산을 통한 모델 구축과 같은 시뮬레이션을 실시하기 위해서는 많은 작업이 필요합니다. 우리는 AWS에서 스케일 아웃 컴퓨팅 프레임워크의 자동화를 사용하여 엔지니어가 더 많은 부가 가치를 창출할 수 있는 업무에 집중할 수 있도록 이 수동 작업의 복잡성을 줄였습니다. AWS 기반 HPC는 우리가 새로운 기회를 구상하는 데 도움이 됩니다. 예를 들어 일부 최신 Amazon Echo 제품에서는 AWS에 저장된 서로 다른 데이터를 보다 쉽게 연결함으로써 열 설계 구조를 통합하여 여러 제품 기능의 설계를 최적화할 수 있었습니다."
Amazon Lab126은 이제 AWS 기반 스케일 아웃 컴퓨팅 프레임워크에 기반한 HPC 솔루션의 다음 단계에 들어서고 있습니다. "우리는 계속해서 고객의 요구 사항을 해결할 것입니다." Amazon Lab126의 설계 기술 부문 선임 관리자인 Jake Boswell의 말입니다. "우리는 혁신을 지원하기 위해 참조 아키텍처를 더욱 단순화하고 프레임워크를 추가 영역으로 확장하고자 합니다."
자세한 내용은 aws.amazon.com/solutions/implementations/scale-out-computing-on-aws 및 aws.amazon.com/hpc를 참조하세요.
Amazon Lab126 소개
캘리포니아주 서니베일에 소재한 Amazon Lab126은 Amazon의 소비자용 전자 디바이스를 설계하고 엔지니어링하는 Amazon 연구 개발 팀입니다. Amazon Devices 하드웨어, 소프트웨어 및 운영 팀이 참여하는 이 연구소는 Amazon Echo 및 Amazon Kindle과 같은 세간의 이목을 끄는 제품을 개발했습니다.
AWS의 이점
- HPC 작업 실행 및 3배 빠른 워크로드 확장
- 몇 주가 아닌 하루 이내에 새 사용자 온보딩
- 필요에 따라 각 팀에 대해 새로운 HPC 클러스터 시작
- 제품 설계 혁신 촉진
사용된 AWS 서비스
Amazon EC2
Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다.
Amazon Elastic File System
Amazon Elastic File System(Amazon EFS)은 AWS 클라우드 서비스와 온프레미스 리소스에서 사용할 수 있는, 간단하고 확장 가능하며 탄력적인 완전관리형 NFS 파일 시스템을 제공합니다.
Amazon Elastic Block Store
Amazon Elastic Block Store(EBS)는 대규모로 처리량과 트랜잭션 집약적인 워크로드 모두를 지원하기 위해 Amazon Elastic Compute Cloud(EC2)에서 사용하도록 설계된 사용하기 쉬운 고성능 블록 스토리지 서비스입니다.
AWS Backup
AWS Backup은 완전관리형 백업 서비스로, AWS 서비스 전체에 걸쳐 데이터 백업을 쉽게 중앙 집중화하고 자동화할 수 있습니다.
시작하기
산업 분야를 불문하고 다양한 규모의 기업들이 AWS를 통해 매일 비즈니스를 혁신하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.