Snowball HDFS のインポート

オンプレミスで MapReduce を実行していて、HDFS (Hadoop Distributed File System) にデータを保存している場合、中間のステージングファイルを使用することなく、そのデータを直接 HDFS から AWS Import/Export Snowball にコピーできるようになりました。多くの場合、HDFS はビッグデータワークロードに使用されるため、これにより大量のデータを AWS にインポートしてさらに処理するプロセスが簡略化されます。

この新機能を使用するには、最新バージョンの Snowball クライアントを、目的の HDFS クラスターを実行しているオンプレミスホストにダウンロードして設定します。次に、以下のようなコマンドを使用して、Snowball 経由で HDFS から S3 にファイルをコピーします。

$ snowball cp -n hdfs://HOST:PORT/PATH_TO_FILE_ON_HDFS s3://BUCKET-NAME/DESTINATION-PATH

-r オプションを使用して、フォルダー全体を再帰的にコピーできます。

$ snowball cp -n -r hdfs://HOST:PORT/PATH_TO_FOLDER_ON_HDFS s3://BUCKET_NAME/DESTINATION_PATH

詳細については、「HDFS クライアントの使用」を参照してください。

— Jeff;

※AWS Import/Export Snowballは日本で未提供のサービスです。

Amazon Web Services ブログ

Snowball HDFS のインポート

お役立ちリンク

フォローお願いいたします