Amazon Web Services ブログ

Amazon EMR に保存データと転送中データの暗号化オプションを追加

AWS をご利用のお客様は Amazon EMR (Apache HadoopApache Spark エコシステムを形成する全範囲のツールを含む) を使用して様々なタイプのミッションクリティカルなビッグデータのユースケースを処理しています。以下の例をご覧ください。

  • Yelp 毎日テラバイト以上のログファイルと写真を処理
  • Expedia クリックストリーム、ユーザー操作、データ提供を処理
  • FINRA 毎日数十億件の証券取引の記録を分析
  • DataXu 毎月 30 兆件の広告チャンスを判断

こうしたお客様 (詳しくはその他のビッグデータのユースケースを参照) は、多くの場合ミッションクリティカルであり安全に保護する必要がある重要なデータを処理しています。

AWS では、EMRFS を使用する Amazon S3 や HDFS の透過的なデータ暗号化など、EMR 用のデータ暗号化オプションを複数ご提供しています。こうしたソリューションは保存データを保護する場合には優れていますが、一時ファイルに保存しているデータやジョブステップの間にあるデータには対処していません。暗号化オプションはそれぞれ有効にしてから設定する必要があるため、暗号化の実装を必要以上に面倒なものにしていました。

ただし、それはもう過去のこと。

新しい暗号化のサポート
本日、AWS は EMR の新しい包括的な暗号化ソリューションをリリースしました。今後は EMR で使用する Apache Spark、Apache Tez、Hadoop MapReduce で保存データや転送中データを簡単に暗号化することができます。

保存データの暗号化は次のストレージタイプに対処しています。

  • EMRFS 経由で S3 に保存したデータ
  • 各ノードのローカルファイルシステムで保存したデータ
  • HDFS を使用してクラスターに保存したデータ

転送中データの暗号化は次のフレームワークでネイティブなオープンソースの暗号化機能を利用します。

  • Apache Spark
  • Apache Tez
  • Apache Hadoop MapReduce

この新機能は Amazon EMR セキュリティ設定を使用して設定することができます。EMR コンソールEMR CLI、または EMR API 経由で設定を作成できます。
EMR コンソールに一連のセキュリティ設定が追加されました。

新しく作成するには [Create] をクリックします。

名前を入力してから新機能に指定するモードと各アスペクトを入力します。モードやタイプに基づき、コンソールが追加情報の入力をリクエストします。
S3 暗号化:

ローカルディスクの暗号化:

転送中データの暗号化

証明書プロバイダーのタイプを PEM にした場合は、暗号化に使用したい PEM ファイルを含む Zip ファイルの S3 内の保存先を入力してください。カスタムを選択した場合は、JAR ファイルの S3 内の保存先とカスタム証明書プロバイダーのクラス名を入力してください。

希望通りに設定したら [Create] をクリックします。セキュリティ設定がコンソールに表示されます。

この操作を完了後、新しく EMR クラスターを作成する際に設定を特定できるようになります。この機能は Amazon EMR リリース 4.8.0 または 5.0.0 を使用しているクラスターでご利用いただけます。詳しくは「セキュリティ設定を使用した Amazon EMR の暗号化」をご覧ください。

Jeff;