Навыки устранения проблем для ИИ-ассистентов по написанию кода в Amazon SageMaker HyperPod
Amazon SageMaker HyperPod теперь позволяет использовать навыки устранения неполадок, чтобы проводить диагностику экспертного уровня в кластерах искусственного интеллекта (ИИ) и машинного обучения непосредственно с помощью ИИ-ассистентов по написанию кода, таких как Claude Code, Cursor и Kiro. SageMaker HyperPod – это специализированная инфраструктура для разработки, обучения и развертывания базовых моделей в любом масштабе. Она предоставляет надежную высокопроизводительную среду со встроенными функциями обеспечения отказоустойчивости и автоматического восстановления кластеров, которая упрощает сложные задачи управления крупномасштабной инфраструктурой для ИИ и машинного обучения. Навыки HyperPod позволяют диагностировать и решать проблемы с кластерами, используя запросы на естественном языке, что ускоряет поиск и устранение неполадок в распределенной инфраструктуре обучения и логического вывода, не требуя специальных знаний.
Отладка аппаратных неисправностей графических процессоров (GPU), диагностика сбоев связи библиотеки NCCL и выявление узких мест в производительности крупных распределенных кластеров по-прежнему являются сложными и трудоемкими задачами. Операторам часто приходится вручную запускать сеансы Менеджера сеансов Менеджера систем AWS (SSM) для различных узлов, анализировать журналы по десяткам инстансов и разбираться с разрозненной документацией. Новые навыки устранения неполадок HyperPod помогают быстрее решать проблемы благодаря таким возможностям, как проверка работоспособности кластера, диагностика оборудования и связи, актуализация версий программного обеспечения и автоматическое создание диагностических отчетов. Каждый навык воплощает передовые практики AWS в виде структурированных рабочих процессов диагностики, которые помогают агентам ИИ систематически собирать данные с узлов кластера посредством Менеджера систем AWS, анализировать закономерности и предоставлять практические рекомендации. Эти навыки совместимы с существующей инфраструктурой HyperPod, и как-либо модифицировать ее не требуется.
Навыки устранения неполадок HyperPod имеют открытый исходный код и в настоящий момент доступны для кластеров HyperPod с оркестрацией Slurm или Amazon EKS в рамках плагина навыков для SageMaker AI. Для начала зайдите в репозиторий AWSLabs на GitHub и установите плагин sagemaker-ai для используемого вами ассистента по написанию кода.