J'utilise des requêtes Hive pour exporter des données d'Amazon DynamoDB vers Amazon S3 et le script Hive n'est toujours pas terminé après plusieurs heures d'exécution. J'ai essayé d'utiliser un cluster EMR de plus grande taille, mais Hive ne crée toujours que quelques tâches de mappage et la plupart des nœuds EMR sont inactifs. Comment configurer Hive pour utiliser davantage de ressources EMR ?

Ceci se produit généralement lorsque le débit de lecture DynamoDB doit faire face à un goulot d'étranglement. EMR requiert que chaque tâche de mappage comporte au minimum 100 unités de capacité de lecture. Même dans le cas de clusters EMR de taille importante, si le débit de lecture DynamoDB configuré est trop bas, seules quelques tâches de mappage sont créées et la requête Hive s'exécute pendant plusieurs heures.

Vérifiez le débit de lecture DynamoDB et la configuration de « dynamodb.throughput.read.percent » dans Hive. Si le nombre de tâches de mappage doit être égal à x, vérifiez que (Débit de lecteur DynamoDB) * (dynamodb.throughput.read.percent)/100 > x. Pour plus d'informations, consultez Options Hive dans le Guide du développeur Amazon EMR.

EMR, Hive, DynamoDB, S3, Simple Storage Service


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support

Date de publication : 26/08/2016