Amazon Web Services 한국 블로그

C4 Instance 출시

지난해 말 컴퓨팅 최적화 EC2 인스턴스인 C4에 대해 블로그에 소개하고, 요금과 기술 정보는 추후에 소개해 드린다고 했는데, 오늘 7개 지역에서 드디어 c4 인스턴스를 출시하였습니다.

새 인스턴스 타입 C4
새로운 C4인스턴스는 Intel Xeon E5-2666 v3(코드 네임 Haswell)프로세서를 기반으로 하고 있습니다. EC2에 최적화된 맞춤 프로세서는 2.9GHz에서 동작하며 Intel(R Turbo Boost시에는 3.5GHz로 동작합니다(상세 사양 참조). 이들 인스턴스는 EC2에서 가장 높은 성능을 제공하도록 설계되어 있습니다.

인스턴스 이름 vCPU RAM 네트워크 성능 전용 EBS 처리량 Linux 요금
c4.large 2 3.75 GiB 중간 500 Mbps $0.116/1시간
c4.xlarge 4 7.5 GiB 중간 750 Mbps $0.232/1시간
c4.2xlarge 8 15 GiB 높음 1,000 Mbps $0.464/1시간
c4.4xlarge 16 30 GiB 높음 2,000 Mbps $0.928/1시간
c4.8xlarge 36 60 GiB 10 Gbps 4,000 Mbps $1.856/1시간

가격은 미국 동부(북 버지니아)와 미국 서부(오리건)지역이나, 유럽(아일랜드), 아시아 퍼시픽(도쿄), 미국 서부(북 캘리포니아), 아시아 퍼시픽(싱가포르), 아시아 퍼시픽(시드니)로도 이용 가능합니다. 가격에 대한 자세한 내용은 EC2 요금 페이지를 참고하세요.

모든 C4 인스턴스에는 EBS 최적화가 기본적으로 동작합니다. 이 기능에 의해 통상적인 네트워크 처리량(Throughput)과 별도로 500Mbps부터 4000Mbps의 EBS의 전용 산출량을 추가 요금 없이 이용 가능합니다. C3 인스턴스와 마찬가지로 C4인스턴스는 보다 높은 패킷 매초(PPS), 낮은 네트워크 지터 및 지연을 제공하기 위해 확장 네트워킹도 이용할 수 있습니다. 2대 이상의 C2 인스턴스를 Placement Group내에서 기동함으로써 그룹 내 낮은 네트워크 지연을 실현할 수 있습니다.

c4.8xlarge에 대해
EC2는 Web API을 거쳐 쉽게 관리할 수 있는 컴퓨팅 및 네트워크와 블록 스토리지와 같은 자원을 안전하게 제공하기 위해 가상화 기술을 사용하고 있습니다. C4와 같은 고성능 컴퓨팅 최적화 인스턴스에서는 그 아래층에 있는 하드웨어의 성능을 최대한 끌어내고, 낮은 네트워크 지터를 통한 가상화 I/O을 제공하는 것을 목표로 보다 효율적인 시스템이 되도록 c4.8xlarge 인스턴스 타입에는 4개의 vCPU을 추가할 수 있습니다.(어떤 운영 체계에서는 32 vCPU의 상한선이 있고, c4.8xlarge에 대응이 안될 가능성이 있습니다. 자세한 사항은 대응 운영 체제 정보를 참조해 주십시오)

이전의 Intel 프로세서와 마찬가지로 C4의 Intel Xeon E5-2666 v3 역시 Turbo Boost를 지원합니다. 이 기술 설계는 전력 소비와 열 발생의 제한 내에서 프로세서가 정격 주파수(2.9GHz)보다 고속으로 동작하는 기능입니다. 그 효과는 사용 중인 코어 수와 워크 로드에 의존하지만, 이상적인 상황에서는 3.5GHz까지 클럭 속도를 향상 시킬 수 있습니다. 일반적으로 적은 코어를 사용하는 워크 로드는 이 속도에 의한 효과를 얻기 쉽습니다. Turbo Boost는 기본적으로 효과적으로 여러분의 애플리케이션의 변경하지 않고 효과를 얻을 수 있습니다.

이는 Haswell 마이크로 아키텍처의 실제 구성입니다. (이 사진은 C4인스턴스에 사용되는 프로세서에 비슷하지만 동일하지 않습니다). 중앙에 캐쉬가 있고 그 아래위에 CPU코어가 있습니다:

Haswell-die

만약 당워크 로드가 이들 모든 코어를 사용할 경우 2.9GHz의 성능을 이용할 수 있고 나아가 설계된 발열과 소비 전력의 상한을 넘지 않는 범위에서 클럭 속도를 올리는 것이 가능한 경우 언제든지 Turbo Boost의 혜택을 얻을 수 있습니다.

워크 로드가 18코어 모두를 필요로 하지 않는 경우도 있을 것으로 생각합니다(각 코어는 2쓰레드를 지원합니다). 이러한 어플리케이션을 보다 좋은 성능에 보여 주기 위해 스레드 단위로 소비 전력을 관리하는 것이 가능합니다. 이를 C-State 관리라고 합니다. 앱 코드가 2코어 밖에 쓰지 않았다면, 그 외 16코어의 상태를 높은 전력 절약 차원으로 여유가 생겨 나머지의 코어에 대해 Turbo Boost의 기회가 늘어납니다. 또한, 원하는 성능(CPU 클럭 주파수)을 제어할 수도 있고 이쪽은 P-state 관리로서 알려져 있습니다. C-State 관리 기능을 사용하려면, 코어가 활성화 되기까지 시간을 고려할 필요가 있습니다.(높은 Sleep 수준은 낮은 전력 소비지만 활성화 될 때까지 시간을 요합니다). P-State 관리를 사용하려면, CPU 주파수가 바뀌도록 애플리케이션에 대응해 둘 필요가 있습니다. C-State와 P-State 관리는 운영 체제에 도움이 필요하다 현 시점에서는 Linux의 대응하고 있는 점에 주의하세요.

프로세서의 주파수와 C-state의 정보를 표시하려면 turbostat 명령을 이용할 수 있습니다.(Amazon Linux AMI에서 이용 가능합니다)

C-State와 P-State에 대해서는 Jeremy Eder의 글 processor.max_cstate, intelidle.max_cstate and /dev/cpu_dma_latency나 Dell의 테크니컬 화이트 페이퍼 Controlling Processor C-State Usage in LinuxAre hardware power management features causing latency spikes in my application?를 참고하시기 바랍니다.

Intel(R) Xeon(R) Processor(E5-2666 v3)의 상세
Intel Haswell 마이크로 아키텍처는 예전보다 현저히 개선되고 있습니다. 브랜치 예측 및 데이터 페칭에 효율적으로 되어 있습니다. 병렬로 복수의 명령을 실행할 기회를 활용하기 쉽게 되었고, 정수 연산과 분기 성능을 개선합니다. 이 새로운 프로세서는 인텔 Advanced Vector Extensions 2를 채용하고 있습니다. AVX2는 256비트의 정수 벡터를 지원하며 1사이클당 32개의 단일 정밀도 부동 소수 점 또는 16개의 배정 밀도 부동 소수 점을 연산할 수 있습니다. AVX2는 비트 필드의 패킹, 가변 비트 스트림의 디코딩, 비트 수집 및 임의 밀도 연산, 엔디안 변환, 해시, 암호 처리 등도 지원합니다. 마이크로 아키텍처 개선은 기존 애플리케이션의 성능도 30%이상 개선할 수 있습니다. 이들 새 기능을 활용하려면 새 명령을 사용하는 코드를 생성할 수 있는 Tool Chain을 쓰면 됩니다. Intel Developer Zone의 글 Write your First Program with Haswell new Instructions도 참조해 주십시오.

C4인스턴스는 오늘부터 이용할 수 있습니다.
처음 알려드렸듯이 새로운 C4인스턴스는 오늘 부터 7개 이용 가능합니다(기타 지역도 향후 이용 가능하게 됩니다). 온디멘드 인스턴스로 실행하거나 예약 인스턴스로 접속도 가능합니다. 또 지원 지역에서 C4인스턴스에서 AWS Marketplace를 사용할 수 있습니다.

만약 C4인스턴스 타입에 대한 피드백은 ec2-c4-feedback@amazon.com으로 연락 부탁드립니다.

– Jeff;

본 글은 Now Available – New C4 Instances의 한국어 번역입니다.