GUC, AWS 파트너 proteanTecs를 통해 ASIC 신뢰성 및 품질을 대규모로 개선
2021년
Global Unichip Corporation(GUC)은 시스템 및 반도체 회사가 특정 애플리케이션용 집적 회로(ASIC) 또는 마이크로칩을 개발할 수 있도록 지원합니다. ASIC은 세대를 거듭할수록 설계가 더 복잡해지고 더 발전된 반도체 공정을 사용하므로 품질 목표를 달성하기가 더 어려워집니다. 그런데 이러한 ASIC은 가동 시간과 시스템 신뢰성이 중요한 데이터 센터 시스템의 구성 요소가 되었습니다. 이 문제를 해결하기 위해 GUC는 딥 데이터와 기계 학습을 활용하여 전자 제품의 고장을 예측하는 Amazon Web Services(AWS) 셀렉트 기술 파트너인 proteanTecs의 도움을 받았습니다. 이 소프트웨어 솔루션은 현장에서 ASIC을 운영하는 경우에도 가동 중단이나 시스템 중단 없이 ASIC 성능을 모니터링할 수 있습니다.
ProteanTecs의 공동 설립자이자 소프트웨어 부문 부사장인 Yuval Bonen은 “방대한 데이터에 대한 GUC 피드백을 신속하게 제공하기 위해, proteanTecs는 AWS를 활용하여 매일 수백만 개의 시뮬레이션을 실행하는 고성능 컴퓨팅 워크로드를 지원하는 데 필요한 확장성과 유연성을 실현했습니다”라고 말합니다. GUC 고객들은 AWS 기반 ProteanTecs 분석 플랫폼을 통해 ASIC을 면밀히 모니터링하여 실리콘 장애를 사전에 감지하고 수리할 수 있습니다.
proteanTecs는 개발 초기 단계부터 이미 신뢰성 모니터링 및 수리 메커니즘의 필수적인 부분으로 자리 잡았습니다.”
Igor Elkanovich
Global Unichip Corporation 최고 기술 책임자(CTO)
규모와 복잡성의 증대
GUC는 주요 주주인 Taiwan Semiconductor Manufacturing Company(TSMC)의 ASIC 제조의 설계, 인터페이스 지적 재산(IP) 개발 및 관리를 지원하는 데 주력하고 있습니다. 이 대규모 글로벌 반도체 파운드리는 2019년에 499개 고객을 위해 272가지 기술을 사용하여 1만 761개의 제품을 제조했습니다. GUC의 최고 기술 책임자인 Igor Elkanovich는 “저희는 고객이 새로운 프로젝트를 가지고 오기 전에 미리 새로운 반도체 공정, 새로운 조립 기술 및 새로운 인터페이스를 도입합니다. TSMC와 매우 긴밀하게 협력하면서 아직 개발 중인 TSMC의 기술을 미리 도입하고 그와 동시에 IP를 개발하기 시작합니다. 고객이 해당 TSMC 기술을 사용할 수 있게 될 무렵에는 IP가 이미 실리콘 검증을 받은 상태로 GUC 개발 흐름에 적용됩니다”라고 말합니다.
GUC에서 차세대 ASIC을 릴리스할 때마다 설계와 공정이 더욱 복잡해집니다. Elkanovich는 “저희는 트랜지스터 수, 칩 복잡도 및 처리 능력을 몇 배로 높여왔으며, 최근 첨단 패키징 기술의 혁명을 통해 이제 단일 이기종 집적 회로 패키지에 다양한 다이를 한데 조립할 수 있습니다”라고 설명합니다. 대형 기능 회로는 여러 개의 실리콘 다이를 사용하여 제작됩니다. Elkanovich는 “고객에게 높은 대역폭과 성능을 제공하기 위해 다이 사이에는 상호 연결이 집적되어 있습니다. 대부분의 ASIC은 기하급수적으로 확장되는 데이터 센터 애플리케이션과 같은 미션 크리티컬 애플리케이션에 사용되기 때문에 높은 신뢰성이 요구됩니다. 그리고 확장된 후에는 모든 장애의 영향이 더욱 악화됩니다. 저희는 가장 복잡한 설계를 개발하면서 신뢰성도 높이고자 합니다. 이것이 바로 저희가 proteanTecs를 활용하여 해결해야 할 과제입니다”라고 말합니다.
GUC는 proteanTecs의 도움을 받아, ASIC에 내장된 범용 칩 텔레메트리 기술에서 파생된 데이터를 AWS 기반의 proteanTecs 클라우드 시스템을 통해 예측 가능한 인공 지능 및 데이터 분석과 결합하여 시스템 장애를 일으키기 전에 실리콘 결함을 추적하고 복구했습니다. 이 조치를 통해 GUC와 proteanTecs는 GUC ASIC의 품질과 신뢰성을 높일 수 있습니다.
Amazon EC2 스팟 인스턴스에서 고성능 컴퓨팅 워크로드 실행
proteanTecs는 인텔 제온 프로세서 기반 Amazon Elastic Compute Cloud(Amazon EC2) 스팟 인스턴스에서 고성능 컴퓨팅 워크로드를 실행합니다. proteanTecs의 Kubernetes 컨테이너 오케스트레이션 시스템도 Amazon EC2 인스턴스에서 실행됩니다. proteanTecs의 워크로드가 폭증할 때마다 Kubernetes 클러스터는 스팟 인스턴스 수를 늘리라는 요청을 트리거하여 proteanTecs가 해당 워크로드를 손쉽게 처리할 수 있도록 합니다. 스팟 인스턴스를 사용한 덕분에 이 회사의 컴퓨팅 비용이 약 60% 절감되었습니다.
아울러, proteanTecs는 Amazon Relational Database Service(RDS)를 사용하여 애플리케이션 메타데이터를 저장합니다. Amazon RDS를 사용하면 클라우드에서 관계형 데이터베이스를 손쉽게 설정, 운영 및 확장할 수 있습니다. 하드웨어 프로비저닝, 데이터베이스 설정, 패치, 백업 등 시간 소모적인 관리 작업을 자동화하면서 비용 효율적이고 크기 조정 가능한 용량을 제공합니다. 그 덕분에 이 회사의 DevOps 팀은 많은 시간을 절약할 수 있게 되었습니다.
GUC에게는 데이터 프라이버시가 매우 중요한 만큼, proteanTecs는 Amazon Virtual Private Cloud(VPC)를 GUC에 제공합니다. 이 클라우드는 AWS를 사용하여 자체 시스템에서 실행됩니다. proteanTecs 솔루션에 대한 모든 연결에는 위험을 줄이고 proteanTecs와 GUC가 서로의 데이터를 보지 못하도록 하는 가상 프라이빗 네트워크 또는 안전한 폐쇄형 채널이 사용됩니다.
AWS 파트너 proteanTecs를 이용하여 ASIC의 품질 및 신뢰성 증진
GUC와 proteanTecs는 2.5D 다이 간 상호 연결을 위한 GUC의 고대역폭 메모리 인터페이스 IP를 만드는 과정에서 처음으로 협력했습니다. 일반적인 설계에서 ASIC은 수만 개의 회선이 연결된 여러 개의 고대역폭 메모리 구성 요소를 사용합니다. 정상적인 ASIC 작동 중에 proteanTecs는 ASIC에 내장된 범용 칩 텔레메트리에서 데이터를 수집하고 해당 데이터를 분석하여 현장 라인의 신호 무결성을 평가합니다. proteanTecs가 향후 결함의 원인이 될 수 있는 라인의 품질 저하를 감지하면, 시스템은 다음 유지 보수 주기 동안 해당 라인을 사전 설치된 이중화 라인으로 교체합니다. 이를 통해 ASIC의 수명 주기를 연장하고, 시스템 장애를 방지하며, 고객의 데이터 센터 애플리케이션을 지원하기 위해 장애가 발생한 시스템을 교체하는 데 소요되는 막대한 비용을 방지할 수 있습니다. 이 전체 프로세스는 가동 중단을 유발하거나 고객의 정상적인 운영에 지장을 주지 않고 완료됩니다.
이전에는 GUC가 제조 공정 중에 ASIC을 모니터링했지만, proteanTecs를 사용하면서 현장에서 가시성과 수리 가능성을 유지할 수 있게 되었습니다. Elkanovich는 “이전에는 ASIC에서 무슨 일이 있었는지 거의 알 수 없었습니다. 그런데 proteanTecs 솔루션을 추가한 후 상황이 완전히 달라졌습니다. 이제 이전에는 발견할 수 없었던 물리적 효과를 관찰하고 복구할 수 있습니다”라고 말합니다.
미래의 신뢰성을 보장할 추가 라인 구축
GUC와 proteanTecs는 차세대 인터페이스를 개발하기 위해 협력하고 있으며, 이 인터페이스는 2.5D 세대의 병렬 다이 어셈블리가 아니라 TSMC의 3DFabric 다이 어셈블리를 사용하여 개발될 예정입니다. 이 인터페이스에서는 다이 사이에 수십만 개의 회선이 집적되므로 각 ASIC의 컴퓨팅 성능과 메모리가 크게 향상됩니다. Elkanovich는 “proteanTecs는 개발 초기 단계부터 이미 신뢰성 모니터링 및 수리 메커니즘의 필수적인 부분으로 자리 잡았습니다. 이제 아키텍처에서 물리적 구현에 이르기까지, 모든 개발 단계에서 신뢰성을 함께 보장할 수 있습니다”라고 말합니다.
고객의 데이터 센터 애플리케이션이 확장되고 ASIC이 더욱 복잡해지더라도, GUC는 AWS 파트너 proteanTecs가 제공하는 솔루션을 사용하여 예측 가능한 ASIC 모니터링 기능을 계속 제공할 수 있습니다. Elkanovich는 “복잡성이 가중됨에 따라 신뢰성이 불가피하게 저하될 것이라고 생각하는 사람들도 있습니다. 저희의 목적은 그 반대입니다. 저희의 목표는 고객에게 더 높은 수준의 신뢰성과 더 큰 확장성을 제공하는 것입니다”라고 말합니다.
Global Unichip Corporation 소개
대만에 본사를 둔 Global Unichip Corporation(GUC)은 시스템 및 반도체 회사가 특정 애플리케이션용 집적 회로(ASIC) 또는 마이크로칩을 설계하고 개발할 수 있도록 지원합니다. 모회사인 Taiwan Semiconductor Manufacturing Company는 글로벌 반도체 파운드리입니다.
AWS의 이점
- ASIC의 신뢰성과 품질을 대규모로 보장
- 정상적인 시스템 작동 중에 현장에서 ASIC을 모니터링하고 수리
- 많은 비용을 유발하는 시스템 장애 및 운영 중 교체 방지
사용된 AWS 서비스
Amazon EC2
Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다.
Amazon EC2 스팟 인스턴스
Amazon EC2 스팟 인스턴스를 사용하면 AWS 클라우드에서 미사용 EC2 용량을 활용할 수 있습니다. 스팟 인스턴스는 온디맨드 요금과 비교하여 최대 90% 할인된 금액으로 제공됩니다.
Amazon RDS
Amazon Relational Database Service(Amazon RDS)를 사용하면 클라우드에서 관계형 데이터베이스를 간편하게 설정, 운영 및 확장할 수 있습니다.
Amazon VPC
Amazon Virtual Private Cloud(VPC)를 사용하면 사용자가 정의하는 논리적으로 격리된 가상 네트워크에서 AWS 리소스를 시작할 수 있습니다.
시작하기
산업 분야를 불문하고 다양한 규모의 기업들이 AWS를 통해 매일 비즈니스를 혁신하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.