Amazon Web Services ブログ
Snowball HDFS のインポート
オンプレミスで MapReduce を実行していて、HDFS (Hadoop Distributed File System) にデータを保存している場合、中間のステージングファイルを使用することなく、そのデータを直接 HDFS から AWS Import/Export Snowball にコピーできるようになりました。多くの場合、HDFS はビッグデータワークロードに使用されるため、これにより大量のデータを AWS にインポートしてさらに処理するプロセスが簡略化されます。
この新機能を使用するには、最新バージョンの Snowball クライアントを、目的の HDFS クラスターを実行しているオンプレミスホストにダウンロードして設定します。次に、以下のようなコマンドを使用して、Snowball 経由で HDFS から S3 にファイルをコピーします。
$ snowball cp -n hdfs://HOST:PORT/PATH_TO_FILE_ON_HDFS s3://BUCKET-NAME/DESTINATION-PATH
-r
オプションを使用して、フォルダー全体を再帰的にコピーできます。
$ snowball cp -n -r hdfs://HOST:PORT/PATH_TO_FOLDER_ON_HDFS s3://BUCKET_NAME/DESTINATION_PATH
詳細については、「HDFS クライアントの使用」を参照してください。
— Jeff;
※AWS Import/Export Snowballは日本で未提供のサービスです。