GUC 寻求 AWS 合作伙伴 proteanTecs 的帮助,以大规模提高 ASIC 的可靠性和质量
2021 年
创意电子(GUC)致力于帮助系统和半导体公司开发专用集成电路(ASIC)或微芯片。每一代 ASIC 的设计都更加复杂,并且使用更先进的半导体工艺,使得达到质量目标愈发艰难。但是这些 ASIC 是数据中心系统的组件,在此类系统中,正常运行时间和系统可靠性十分关键。为了克服这一挑战,GUC 聘请了 Amazon Web Services(AWS)精选技术合作伙伴 proteanTecs。该公司可利用深度数据和机器学习来预测电子产品的故障。其软件解决方案可以监控 ASIC 性能,即使 ASIC 在现场运行,也不会对系统造成停机或中断。
proteanTecs 联合创始人兼软件副总裁 Yuval Bonen 表示:“为了快速给 GUC 提供大量数据的反馈,proteanTecs 借助 AWS 实现所需的可扩展性和灵活性,以支持每天运行数百万次模拟的高性能计算工作负载。”通过由 AWS 提供支持的 proteanTecs 分析平台,GUC 客户可以密切监控其 ASIC,主动检测和修复硅芯片故障。
“即使在开发的早期阶段,proteanTecs 就已经是我们可靠性监控和修复机制不可或缺的一部分。”
Igor Elkanovich
创意电子首席技术官
规模和复杂性不断增长
GUC 专注于 ASIC 的设计、接口知识产权(IP)开发和 ASIC 生产管理,生产业务由其最大股东台积电(TSMC)完成。2019 年,这家全球大型半导体代工厂使用 272 种独特技术为 499 家不同的客户生产了 10,761 种不同的产品。“在客户带着项目来寻求我们的协助之前,我们就已经采用了全新的半导体工艺、全新的组装技术和接口,”GUC 首席技术官 Igor Elkanovich 表示,“我们与台积电密切合作,因此,当其技术还在开发中,我们就已经开始采用该新技术且并行开发 IP。到台积电的技术能提供给客户时,IP 已经过硅芯片验证,并成为 GUC 开发流程的一部分。”
每当 GUC 发布新一代 ASIC 时,设计和工艺都会变得更加复杂。Elkanovich 解释道:“我们已经将晶体管的数量、芯片的复杂性和处理能力翻了很多倍,随着先进封装技术方面最新的革命发展,我们现在可以将许多不同的管芯组装在一个异构集成电路封装中。”使用多个硅晶片制造大功能电路。“管芯之间存在密集的互连,以便为我们的客户提供高带宽和高性能,”Elkanovich 指出,“他们需要可靠性,因为大多数 ASIC 都用于任务关键型应用程序,例如呈指数级增长的数据中心应用程序。而且,它们增长后,每次失败的影响都会更严重。我们希望开发出最精密的设计,同时又能提高可靠性。这是我们与 proteanTecs 要共同解决的难题。”
GUC 与 proteanTecs 合作,利用 AWS 上的 proteanTecs 云系统,将来自嵌入在 ASIC 中的通用芯片遥测技术的数据,与预测性人工智能和数据分析相结合,从而在硅芯片缺陷导致系统故障之前对其进行跟踪和修复。通过采取这些措施,GUC 和 proteanTecs 的合作可以提高 GUC 的 ASIC 质量和可靠性。
在 Amazon EC2 竞价型实例上运行高性能计算工作负载
proteanTecs 在由 Intel Xeon 处理器提供支持的 Amazon Elastic Compute Cloud(Amazon EC2)竞价型实例上运行其高性能计算工作负载。该公司的 Kubernetes 容器编排系统也在 Amazon EC2 实例上运行。此外,每当 proteanTecs 发现工作负载激增时,其 Kubernetes 集群都会触发增加竞价型实例数量的请求,这样 proteanTecs 就可以轻松处理该工作负载。使用竞价型实例可将公司的计算成本降低大约 60%。
proteanTecs 还使用 Amazon Relational Database Service(Amazon RDS)来存储应用程序元数据。利用 Amazon RDS,可轻松在云中设置、操作和扩展关系数据库。该服务可提供经济实用的可调容量,同时还能自动执行耗时的管理任务(如硬件预置、数据库设置、补丁和备份)。这为该公司的 DevOps 团队节省了大量宝贵时间。
由于数据隐私对 GUC 十分重要,因此 proteanTecs 为 GUC 提供了 Amazon Virtual Private Cloud(Amazon VPC)。该服务使用 AWS 在自己的系统上运行。与 proteanTecs 解决方案的任何连接均使用虚拟专用网络或安全的封闭通道,这样可以降低风险,并防止 proteanTecs 和 GUC 看到彼此的数据。
借助 AWS 合作伙伴 proteanTecs 提高 ASIC 的质量和可靠性
GUC 和 proteanTecs 首次合作开发了 GUC 的高带宽内存接口 IP,用于 2.5D 管芯间的互连。在典型设计中,ASIC 使用的是多个高带宽内存组件,利用数万条线路来连接这些组件。在 ASIC 正常运行期间,proteanTecs 从嵌入 ASIC 的通用芯片遥测中收集数据,并分析这些数据,以评估现场线路的信号完整性。若 proteanTecs 检测到线路中存在质量下降,并可能会导致未来出现缺陷,系统就会在下一个维护周期内将其替换为预装的冗余线路。这样可延长 ASIC 的生命周期,防止系统故障,还能避免为客户的数据中心应用程序更换故障系统而产生昂贵成本。整个过程在没有停机或中断客户正常运营的情况下就能完成。
GUC 之前曾在制造过程中监控其 ASIC,但通过使用 proteanTecs,该公司得以在现场保持这种可见性和可修复性。“我们以前对 ASIC 中的情况知之甚少,”Elkanovich 表示,“添加 proteanTecs 解决方案后,我们获得了完全不同的视角。现在,我们能够发现并修复以前未能发现的实际影响。”
建造更多线路以提高未来的可靠性
GUC 和 proteanTecs 正在合作开发下一代接口,该接口将使用台积电的 3DFabric 管芯组件进行开发,而不是 2.5D 一代的并排管芯组件。这些接口将在管芯之间有数十万条线路,可极大地提高每个 ASIC 的计算能力和内存。“即使在开发的早期阶段,proteanTecs 就已经是我们可靠性监控和修复机制不可或缺的一部分,”Elkanovich 表示,“现在,我们可以共同解决从架构到物理实施的所有开发阶段中的可靠性问题。”
客户的数据中心应用程序仍在不断增长,且 ASIC 也变得越来越复杂,因此 GUC 将继续使用 AWS 合作伙伴 proteanTecs 提供的解决方案来提供预测性 ASIC 监控。“有些人认为,随着复杂性的增加,可靠性将不可避免地受到影响,”Elkanovich 表示,“我们的目的却恰恰相反。我们的目标是以更高的可靠性水平为客户提供更大的可扩展性。”
关于创意电子
创意电子(GUC)总部位于台湾,致力于帮助系统和半导体公司设计并开发专用集成电路(ASIC)或微芯片。创意电子的母公司是台积电,这是一家全球性的半导体代工厂商。
AWS 的优势
- 大规模提高 ASIC 的可靠性和质量
- 在系统正常运行期间,在现场监控和修复 ASIC
- 防止在运行期间出现代价高昂的系统故障和更换
使用的 AWS 服务
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
Amazon EC2 Spot 实例
Amazon EC2 Spot 实例让您可以利用 AWS 云中未使用的 EC2 容量。与按需型实例的价格相比,使用竞价型实例最高可以享受 90% 的折扣。
Amazon RDS
Amazon Relational Database Service (Amazon RDS) 让您能够在云中轻松设置、操作和扩展关系数据库。
Amazon VPC
Amazon Virtual Private Cloud(Amazon VPC)是一项服务,可支持在自定义的逻辑隔离的虚拟网络中启动 AWS 资源。
开始使用
不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS Cloud 之旅。