Amazon Web Services ブログ

Category: AWS Big Data

Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス

ビッグデータの世界における一般的なユースケースは、さまざまなデータソースからの大量のデータにおける抽出/変換 (ET) とデータ分析の実行です。多くの場合、この後でデータを分析してインサイトを取得します。このような大量のデータを処理するための最も人気のあるクラウドベースソリューションのひとつが Amazon EMR です。 Amazon EMR は、AWS での Apache Hadoop および Apache Spark などのビッグデータフレームワークの実行をシンプル化するマネージドクラスタープラットフォームです。Amazon EMR は、組織が複数のインスタンスを持つクラスターをほんの数分でスピンアップすることを可能にします。また、並列処理を使ってさまざまなデータエンジニアリングとビジネスインテリジェンスのワークロードを処理できるようにもしてくれます。こうすることで、クラスターの確立とスケーリングに関わるデータ処理の時間、工数、およびコストを大幅に削減することができます。 Apache Spark は、オープンソースで高速な汎用目的のクラスターコンピューティングソフトウェアで、ビッグデータの分散処理で広く利用されています。Apache Spark は、タスクの I/O と実行時間を削減するためにノード全体のメモリで並行コンピューティングを実行することから、クラスターメモリ (RAM) に大きく依存しています。 一般に、Amazon EMR で Spark アプリケーションを実行するときは、以下の手順を実行します。 Spark アプリケーションパッケージを Amazon S3 にアップロードする。 設定済みの Apache Spark で Amazon EMR クラスターを設定し、起動する。 Amazon S3 からクラスターにアプリケーションパッケージをインストールし、アプリケーションを実行する。 アプリケーションが完了したら、クラスターを終了する。 Spark アプリケーションを成功させるには、データと処理の要件に基づいて Spark アプリケーションを適切に設定することが大切です。デフォルト設定では Spark が利用できるクラスターのリソースのすべてを使用しない場合があり、物理メモリまたは仮想メモリの問題、あるいはその両方が発生する可能性があります。Stackoverflow.com では、この特定のトピックに関連する何千もの質問が提起されています。 […]

Read More

Okta を ID プロバイダーとして Amazon Redshift へのアクセスとフェデレーションする

データベースのユーザーとアクセスを管理することは、気が遠くなるほど大変でエラーが発生しやすい作業です。これまで、データベース管理者は、ユーザーがどのグループに属しているのか、およびユーザー/グループがどのオブジェクトの使用を許可されているのかを判断する必要がありました。これらのリストはデータベース内で管理されており、社内ディレクトリから簡単に外れる可能性があります。 フェデレーションを使用すると、企業のアイデンティティプロバイダー (IdP) 内のユーザーおよびグループを管理し、それらをログイン時に Amazon Redshift に渡すことができます。前回の記事、「IAM と Amazon Redshift を使用して、データベースユーザー認証を簡単にフェデレーションする」で、Active Directory Federation Service (AD FS) を ID プロバイダーとして使用するフェデレーションワークフローの内部について説明しました。 この記事では、ID プロバイダーとして Okta に焦点を当てます。Okta.com のトライアルアカウントを設定し、組織のディレクトリ内にユーザーとグループを構築し、Amazon Redshift へのシングルサインオン (SSO) を有効にする方法を段階的に説明します。データウェアハウス内でグループレベルのアクセス制御も維持しながら、これらすべてを実行できます。 この記事の手順は、次のセクションで構成されています。 ID プロバイダー (Okta) の設定 – Okta をセットアップします。これには、ユーザーを論理グループにまとめる作業が含まれます。 AWS の設定 – ID プロバイダーと AWS 間の信頼関係を確立するロールと、Okta が Amazon Redshift へのアクセスに使用するロールを設定します。 ID プロバイダー (Okta) の詳細設定 – 作成したロールを入力して Okta の設定を完成させます。また、どのグループを […]

Read More

Amazon Redshift マネジメントコンソールへのきめ細かいアクセスを付与する

完全マネージド型サービスとして、Amazon Redshift は設定と使用が簡単になるように設計されています。このブログ記事では、Amazon Redshift マネジメントコンソールを使って、オペレーショングループのユーザーに特定のアクションだけを実行するアクセス権を付与する方法を紹介します。カスタム IAM ポリシーを実装する場合は、こうしたユーザーが実行中のクエリを監視および停止できるように設定できます。同時に、こうしたユーザーが Amazon Redshift クラスターの変更、再起動、削除などの他のより特権的な操作を実行できないようにすることができます。 Amazon Redshift アクセスコントロールの概要 2013 年 2 月のリリース以来、Amazon Redshift はすぐに世界中で何千社もの顧客を持つ人気のあるクラウドベースのデータウェアハウジングプラットフォームになりました。 Amazon Redshift にアクセスするには、AWS がリクエストの認証に使用できる認証情報が必要です。こうした認証情報には、Amazon クラスターやスナップショットなどの Amazon Redshift リソースにアクセスするためのアクセス許可が必要です。こうした認証情報の詳細については、Amazon Redshift のドキュメントのAmazon Redshift の認証およびアクセスコントロールを参照してください。 すべての AWS リソースは AWS アカウントによって所有され、リソースを作成またはアクセスするためのアクセス許可は AWS Identity and Access Management (IAM) ポリシーによって管理されます。AWS アカウント管理者は、IAM の ID (ユーザー、グループ、ロール) にアクセス許可ポリシーをアタッチすることができます。特に、AWS アカウント管理者は、特定のユーザーに IAM アクセス許可ポリシーをアタッチすることができます。そのようなポリシーは、そのユーザーに、スナップショットやイベントサブスクリプションなどの Amazon Redshift リソースを管理するためのアクセス許可を付与します。

Read More

Amazon QuickSight が ML Insights の一般提供を開始

re:Invent 2018 で、そのまま使える機械学習と自然言語機能をセットにしたML Insightsのプレビューを発表しました。これは、Amazon QuickSight ユーザーにビジュアライゼーションをを超えるビジネスインサイトを提供するものです。そして本日、ML インサイトの一般提供を開始しました。 お客様が生成するデータの量は日々増え続けるにつれ、ビジネスのインサイトのためにデータを活用することはますます大変になっています。こうした背景から機械学習がお役に立てるようになりました。Amazon は機械学習を使用して、ビジネス分析でのさまざまな側面を自動化および拡張してきた草分け的企業です。 新しい ML Insights機能により、Amazon QuickSight は、隠れたデータの傾向を発見し、ビジネスを左右する重要な要因を見つけ、将来の結果を予測したり、データを要約して理解しやすい自然言語で表現したりできます。また、手作業による分析と調査の時間の節約に役立ちます。すぐに使える 機械学習と Amazon QuickSight の豊富な分析機能を統合する包括的な BI ソリューションを構築することで、組織の全員にインタラクティブなダッシュボードを配布できます。ML インサイトを使用すると、機械学習が容易となり、技術や ML スキルセットに関わらず、誰でも簡単に数週間ではなくわずか数分でデータからインサイトを得ることができます。ML によるインサイト機能は次のとおりです。 ML を活用した異常検知は、何十億ものデータポイントを継続的に分析することによって、隠れたインサイトを発見するのに役立ちます。 ポイントアンドクリックで簡単に成長とビジネストレンドを予想するML を活用した予測 ダッシュボードの内容をやさしい言葉で伝えるのに役立つ自動ナラティブ。 ML Insightsの簡単な概要については、こちらのビデオをご覧ください。 ML Insightsをご使用いただくために、このブログ記事では ML を活用した新しい機能について説明します。 お客様のユースケース 過去 3 か月間にわたる ML Insightsのプレビュー期間中、電気通信、エンターテインメント、マーケティング、小売、エネルギー、金融サービス、ヘルスケアなどの幅広い業界のお客様が、ML Insightsを使用して、増え続ける AWS のデータとオンプレミスでのビジネスインサイトを活用してきました。以下では、ML Insightsで行っている素晴らしい例をご紹介します。 エクスペディア・グループは、世界最大級の旅行プラットフォームであり、世界中の旅を簡単にすることを目指しています。 「エクスペディア・グループでは、2 つの重要な戦略的課題があります。顧客中心であること、そしてグローバルをローカルにすることです。だからこそ、Amazon QuickSight などのツールが非常に役立っており、当社のビジネスメトリクスの測定、報告、行動を容易になることで、お客様が行う旅行に関する検索で最適な回答を得るお手伝いができるのです。Amazon QuickSight が提供するそのまま使える ML Insightsは、ビジネスの異常の発生を継続的に監視し、異常値が発生すると関係者に警告し、ビジネスプロジェクトの将来の傾向予測を支援してくれます。このため、これらの機能をゼロから構築する必要がなくなり、チームは他の優先事項に集中することができます。」 エクスペディア・グループでフライトのデータと解析を行うテクノロジーディレクターの […]

Read More

Amazon EMR で Amazon EC2 スポットインスタンスを使用して、Apache Spark アプリケーションを実行するベストプラクティス

 Apache Spark は、分析ジョブの実行に使用する最も一般的なツールの 1 つになりました。その使いやすさ、速いパフォーマンス、メモリとディスクの使用率、および組み込みのフォールト トレランスが人気の理由です。これらの機能は、インスタンスが使い捨てや一時的に使用できる状態になっているクラウド コンピューティングの概念と強く関連付けられます。 Amazon EC2 スポットインスタンスは、オンデマンド料金に比べて大幅な割引料金で、AWS クラウドで利用可能な予備コンピューティング容量を提供します。 EC2 が容量を元に戻す必要がある場合、EC2 は 2 分間の通知でスポットインスタンスを中断できます。スポットインスタンスは、さまざまなフォールト トレラントで柔軟なアプリケーションに使用できます。例としては、分析、コンテナー化されたワークロード、ハイパフォーマンス コンピューティング (HPC)、ステートレス ウェブサーバー、レンダリング、CI/CD、その他のテストと開発ワークロードがあります。 Amazon EMR は、EC2 インスタンスを使用して膨大な量のデータ処理を簡単かつ高速で、そして費用対効果の高い方法で行う、マネージド Hadoop フレームワークを提供します。Amazon EMR を使用するときは、Spark ソフトウェア (または Hadoop フレームワークの他のツール) のインストール、アップグレード、およびメンテナンスについて心配する必要はありません。基となるハードウェアやオペレーティング システムのインストールとメンテナンスについても、ご心配は要りません。代わりに、ビジネス アプリケーションに集中し、Amazon EMR を使用して、区別されていない手間がかかる処理を取り除くことができます。 このブログ記事では、スポットインスタンスを使用してコストを最適化し、Amazon EMR で Spark アプリケーションを効率的に実行することに焦点を当てます。Spark アプリケーションのフォールト トレランスを高め、スポットインスタンスを使用するベストプラクティスをいくつかお勧めします。これらは、可用性を犠牲にしたり、パフォーマンスやジョブの長さに大きな影響を与えたりすることなく機能します。

Read More

Amazon S3 で AWS KMS 暗号化データのクロスアカウント Amazon Redshift COPY および Redshift Spectrum クエリを有効にする方法

この記事では、Amazon S3 のサンプルデータセットを使用してクロスアカウントの Amazon Redshift COPY および Spectrum クエリを設定する方法を段階的に説明します。サンプルデータセットは、AWS KMS で管理されたキー (SSE-KMS) を使用して保管時に暗号化されます。 AWS Key Management Service (AWS KMS) について AWS Key Management Service (AWS KMS) を使用すると、保管中のデータを保護するために使用される暗号化キーを集中管理することができます。データの暗号化に使用する暗号化キーの作成、インポート、ローテーション、無効化、削除、使用ポリシーの定義、および使用の監査ができます。AWS KMS は FIPS 140-2 検証済み暗号化モジュールを使用して、マスターキーの機密性と整合性を保護します。 AWS KMS は、ほとんどの AWS のサービスとシームレスに統合されています。この統合により、簡単にカスタマーマスターキー (CMK) を使用して、これらのサービスに保存されているデータの暗号化を制御することができます。Amazon Redshift などのサービスでデータを暗号化すると決めると、Amazon Redshift が KMS で自動的に作成する AWS 管理の CMK を使用することを選択できます。キーの使用状況を追跡することはできますが、それはお客様ではなくサービスによって管理されています。場合によっては、CMK のライフサイクルを直接管理する必要がある場合や、他のアカウントに CMK の使用を許可したい場合があります。このような場合は、Amazon Redshift などの AWS […]

Read More

Amazon Kinesis Data Streams に新しい機能が加わりました。

数週間前に、当社は2つの重要なパフォーマンス改善機能をAmazon Kinesis Data Streams (KDS):に追加しました。拡張ファンアウトと HTTP/2 データ取得 API です。拡張ファンアウトは、開発者が各ストリームコンシューマーにそれぞれの読み取り処理量を提供することにより、ストリームコンシューマー (リアルタイムでのストリームからのアプリケーションの読み取りデータ) の数を増加させることができます。HTTP/2データ取得APIは、一般的なシナリオでデータをプロデューサーからコンシューマーに70ミリ秒以内に配信できるようになります (65%の向上)。これらの新しい機能により、開発者は Amazon Kinesis Data Streams 上でより高速で、より反応性、並列性に優れ、レイテンシに敏感なアプリケーションを構築できるようになります。 Kinesis は実際に、次のストリーミングサービスのファミリを指します。 Kinesis Video Streams、Kinesis Data Firehose、Kinesis Data Analytics、および本日のブログ投稿のトピックである、 Kinesis Data Streams (KDS)。Kinesis Data Streams では、完全に管理され、大規模にスケーラブルなサービスを利用して、開発者は容易に、かつ継続的にストリーミングデータをリアルタイムで収集、処理、および分析できるようになります。KDS は何十万にも上るソースから 1 秒当たりの数ギガバイトのデータを取り込むことができます。ウェブサイトのクリックストリームやソーシャルメディアのフィードから財務取引や位置情報データに至るまであらゆるものを対象としています。 Kinesis Data Streams は、シャード (shard) の概念を使用してスケールされます。1 個のシャードは、1MB / 秒または 1000 レコード / 秒のインジェスト容量と 2MB / 秒の出力容量を提供します。顧客が数千から数万個のシャードを持ち、毎秒数十ギガバイトの入出力をサポートすることは珍しいことではありません。ファンアウト機能を強化する前に、2MB / 秒 / […]

Read More

【開催報告】Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –

こんにちは。AWS ソリューションアーキテクトの八木達也 ( @ygtxxxx ) です。 7月23日に、「Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –」を開催いたしました。 AWSジャパン主催でデジタル広告業界の方向けのイベントを開催するのは2年ぶりでしたが、定員60人のところ55名の方にお集まりいただき、盛況となりました。             このイベントは「Digital Advertising、AdTech 領域における Machine Learningの実践知」を「互いに学び合う」ことができる場を作ることを目標としていたため、AWSメンバーによるプレゼンテーションだけではなく、お客様プレゼンテーションを中心としたAGENDAを構成しました。機会学習という領域における、テクノロジー視点でのお取組み、組織育成視点でのお取組み、それぞれの視点で最先端な活動をなさる方々よりご登壇を頂きました。 まずは主催者の唐木/八木よりオープニングセッションを行いました。 唐木より全体の説明を行い、八木より「Machine Learning for Digital Advertising」というタイトルでプレゼンテーションを行いました。 Machine Learning for Digital Advertising from Amazon Web Services Japan 次に、アナリティクス スペシャリスト ソリューションアーキテクトの志村より「AWS ML Services Update」というタイトルでプレゼンテーションを行いました。 AWS ML Update from Amazon […]

Read More

[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開

こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 from Amazon Web Services Japan PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から切り離したほうが良いのか?気にしなくて良いのかを知りたいです。 A. RDS をクロールする際、スキーマ取得のため Connection を使用します。瞬間的な処理にはなりますが、Connection が使用される点に留意いただき、検証の実施と実行タイミングの検討をお願いいたします。 Q. ベストプラクティス 2/5, 3/5 で説明されていた Parquetを使用した場合のメトリクスはRedshift Spectrum ではなく、Athenaを使用している場合に同様の情報を知ることは可能でしょうか。 A. Athena では同様の情報を確認いただくことができません。 以上です。 今後の AWS Black Belt Online Seminar のスケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! […]

Read More

はじめに: Big Data on AWS のトレーニングリソース

新しいことを始めるのは何かと大変です。どこから手をつければよいのでしょうか? どのリソースが不慣れな分野を手助けしてくれるのでしょうか? さらに手助けが必要なときは何を頼ればよいのでしょうか? 新規に AWS アカウントを登録いただいたお客様、すでにご登録いただいているお客様のどちらにも、初めて知ることは常に出てきます。私たちのサービスは、絶えず変化するお客様のニーズに応えるために進化しているからです。お客様が AWS で構築する際に滞りなく設定できるように、こちらの AWS サイトで利用できるビッグデータのトレーニングやリソースについて、このクイックリファレンスガイドをまとめました。

Read More