Utilizzo di Apache Spark su Amazon EMR Serverless direttamente da Amazon Sagemaker Studio

Inserito il: 4 set 2024

Ora puoi eseguire analisi di dati dell'ordine di petabyte e machine learning su Amazon EMR Serverless direttamente dai notebook Amazon SageMaker Studio. EMR Serverless fornisce e scala automaticamente le risorse richieste, consentendo di concentrarsi su dati e modelli senza dover configurare, ottimizzare, regolare o gestire i cluster. EMR Serverless installa e configura automaticamente i framework open source e fornisce un runtime ottimizzato per le prestazioni, compatibile e più veloce rispetto all'open source standard.

Con questa versione è ora possibile creare e navigare visivamente le applicazioni EMR Serverless direttamente da SageMaker Studio e connettersi ad esse con pochi semplici clic. Una volta connesso a un'applicazione EMR Serverless, puoi utilizzare Spark SQL, Scala, Python per interrogare, esplorare e visualizzare i dati in modo interattivo ed eseguire lavori Apache Spark per elaborare i dati direttamente da Studio Notebooks. I lavori sono veloci perché utilizzano le versioni di Spark ottimizzate per le prestazioni di EMR. Ad esempio, Spark su EMR 7.1 è 4,5 volte più veloce dell'equivalente open source. EMR Serverless offre un dimensionamento automatico granulare, che fornisce e scali rapidamente le risorse di calcolo e memoria per soddisfare i requisiti dell'applicazione e si paga solo per ciò che si utilizza.

Queste funzionalità sono supportate su SageMaker Distribution 1.10 e versioni successive e sono generalmente disponibili in tutte le regioni AWS in cui è disponibile SageMaker Studio. Per saperne di più, leggi qui l'articolo del blog Usa LangChain con PySpark per l'elaborazione di documenti su larga scala con Amazon SageMaker Studio ed EMR Serverless o la documentazione di SageMaker Studio.