Apache Hadoop は Amazon S3 との読み書き用に以下のファイルシステムクライアントを提供しています。

  • S3N (URI スキーム: s3n) - S3 上の通常ファイルを読み書きするためのネイティブファイルシステムです。S3N を使用すると、Hadoop は S3 上の他のツールで書かれたファイルにアクセスでき、反対に他のツールも Hadoop を使用してファイルにアクセスし S3N に書き込むことができます。S3N は安定していて広く使用されていますが、新しい機能が更新されていません。S3N は、クラスパス上に適切なバージョンの jets3t JAR ファイルを必要とします。
  • S3A (URI スキーム: s3a) - Hadoop の S3N ファイルシステムの後継のファイルシステムです。S3A は Amazon 提供のライブラリを使用して S3 と対話します。S3A は 5 GB を超えるファイルへのアクセスをサポートしており、パフォーマンスの向上やその他の改良が施されています。Apache Hadoop の場合、S3A は S3N の後継バージョンであるため、S3N との下位互換性があります。Apache Hadoop を使用すると、s3n:// URL からアクセスできるオブジェクトは、すべて URL スキームを置き換えることによって S3A からアクセスできるはずです。
    注意
    現在 Amazon EMR では、Apache Hadoop S3A ファイルシステムの使用をサポートしていません。
  • S3 (URI スキーム: s3) - S3-Backed なブロックベースファイルシステムの Apache Hadoop における実装です。 Apache Hadoop は 2016 年 5 月時点で、このファイルシステムを廃止しました。

EMR ドキュメント」では、Amazon EMR が s3 URI スキームを使用すると書かれています。Amazon EMR で使用するべき URI スキームはこの 3 つのどれですか?

Apache Hadoop S3 ファイルシステムと Amazon EMR S3 ファイルシステムの違いにより、Amazon EMR で使用するべき URI スキームとファイルシステムは必ずしも明確ではありません。

Amazon EMR の場合、s3:// と s3n:// URI は両方とも EMR ファイルシステムに関連付けられ、機能的に Amazon EMR のコンテキストと互換性があります。ただし、一貫性の観点で、Amazon EMR のコンテキストで s3:// URI を使用することをお勧めします。

s3a:// URI は Amazon EMR と互換性がありません。詳細については、「ストレージシステムとファイルシステムで作業する」と「S3 Support in Apache Hadoop」を参照してください。

S3, S3N, S3A, Hadoop ファイルシステム, HDFS, EMRFS


このページは役に立ちましたか? はい | いいえ

AWS サポート ナレッジ センターに戻る

サポートが必要ですか? AWS サポートセンターをご覧ください

公開日: 2016 年 5 月 20 日