¿Por qué no se aprovisionan mis instancias de spot de EMR durante el ajuste de tamaño de un clúster?
Última actualización: 24 de enero de 2023
Mis instancias de spot de Amazon EMR no se aprovisionan durante el ajuste de tamaño de mi clúster de EMR.
Solución
Amazon Elastic Compute Cloud (Amazon EC2) puede interrumpir su instancia de spot en cualquier momento por los siguientes motivos:
- Falta de capacidad de spot.
- No se pueden cumplir las restricciones de la solicitud.
- El precio de spot es superior al precio máximo asignado.
- Se agotó la cuota de su cuenta de spot. Si es así, puede solicitar un aumento.
Para obtener más información, consulte ¿Por qué Amazon EC2 terminó mi instancia de spot?
Nota: Debido a estas interrupciones, se recomienda usar instancias de spot para cargas de trabajo sin estado, tolerantes a los errores y lo suficientemente flexibles como para soportar interrupciones.
Además, es posible que no se ajuste el tamaño de las instancias de spot ni de las instancias bajo demanda porque los scripts de arranque se modificaron o contienen errores.
Consulte los registros del script de arranque en /emr/instance-controller/log/bootstrap-actions o s3://cluster_id/node-failed/bootstrap-actions/stderr.gz. Los registros muestran el error STARTUP_SCRIPT_FAILED_RET_CODE.
Por ejemplo, el siguiente registro de acciones de arranque muestra que hubo un error en la acción de arranque 1 (emr_bootstrap_actions.sh):
Another app is currently holding the yum lock; waiting for it to exit...
The other application is: yum
Memory : 125 M RSS (444 MB VSZ)
Started: Tue Jul 19 05:36:36 2022 - 00:03 ago
State : Running, pid: 7914
Error: Package: falcon-sensor-4.18.0-6403.amzn2.x86_64 (/falcon-sensor-4.18.0-6403.amzn2.x86_64)
Requires: systemd
Si ve el error anterior, ocurre lo siguiente:
- Todos los nodos de reemplazo nuevos se terminan.
- El nodo deja de aprovisionar nuevas instancias de reemplazo.
- El grupo de instancias del nodo principal pasa al modo detenido, como se muestra en el siguiente ejemplo:
"state": "ARRESTED",
"message": "Instance group ig-2JN5xxxxxxxx in Amazon EMR cluster j-37H4xxxxxxx (emr-xxxxx-spark-cluster) was arrested at for the following reason: Error provisioning instances."
=====
Información relacionada
Interrupciones de instancias de spot
Estado de la solicitud de spot
Spot Instance best practices (Prácticas recomendadas para instancias de spot)
¿Por qué mi instancia de spot ha terminado aunque el precio máximo es superior al precio de spot?
¿Le resultó útil este artículo?
¿Necesita asistencia técnica o con la facturación?