Amazon Web Services ブログ

Category: Analytics

AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始

AWS Glue は、抽出、変換、およびロード (ETL) のためのフルマネージド型のサービスで、これを利用することで分析のためのデータの準備と読み込みが容易になります。Glue は「サーバーレス」です。リソースをプロビジョニングしたり管理したりする必要はなく、Glue がアクティブに実行されている場合にのみリソースについて支払いを行います。 10 倍速く起動する Spark ETL ジョブを特徴とする AWS Glue バージョン 2.0 の一般提供が開始されました。起動レイテンシーの低減により、全体的なジョブ実行時間が短縮され、マイクロバッチ処理と時間が重要な要素となるワークロードでお客様をサポートし、インタラクティブなスクリプト開発とデータ探索を可能にすることでビジネスの生産性を向上させます。 Spark ETL ジョブの起動時間が 10 倍高速化された AWS Glue バージョン 2.0 の一般提供が開始されました。Glue バージョン 2.0 では、ジョブの起動遅延がより予測可能になり、オーバーヘッドが少なくなります。さらに、AWS Glue バージョン 2.0 の Spark ジョブでは、最小の請求期間が 10 分の 1 (すなわち 10 分の最小請求期間から 1 分の最小請求期間) になり、1 秒単位で請求されます。その結果、お客様は、マイクロバッチ、期限厳守のインタラクティブなワークロードをより高いコスト効率で実行できるようになりました。お客様は、マイクロバッチジョブを実行して、データレイク、データウェアハウス、およびデータベースをすばやくロードし、リアルタイム分析を実現できます。ジョブの起動時間が短くなると、SLA 駆動のデータパイプラインの実行の信頼性がより高まります。ジョブの起動時間を短縮することで、インタラクティブなデータ探索と実験も可能になります。Glue バージョン 2.0 は、wheel ファイルまたはリポジトリから Python モジュールをインストールする新しい機能も提供します。 仕組み AWS […]

Read More

[AWS Black Belt Online Seminar] Amazon Redshift Advanced Guide −最新ベストプラクティスとアップデート 資料及び QA 公開

先日 (2020/07/29) 開催しました AWS Black Belt Online Seminar「Amazon Redshift Advanced Guide −最新ベストプラクティスとアップデート」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200729 AWS Black Belt Online Seminar Amazon Redshift Advanced Guide −最新ベストプラクティスとアップデート from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. CTAS で、Parquet の外部テーブルを作成する際の質問です。利用イメージとして、データの全件洗替を上記でしたいのですが、S3 ファイルの上書きができないため、SQL 以外でS3ファイルを削除する必要がある認識です。Redsfhit で完結できないでしょうか。 A. データ全件洗い替えの方法はご認識いただいている通りとなります。現状 Redshift の CTAS での既存 S3 ファイルの上書きや、SQL 経由での S3 ファイルの削除をサポートしていないため、Redshift SQL のみでの完結は出来ません。 Q. Amazon DynamoDB […]

Read More
QuickSight Author embed

Amazon QuickSight の分析機能をマルチテナントのアプリケーションに埋め込む

Amazon QuickSight は最近、埋め込みオーサリング、マルチテナンシーの名前空間、カスタムユーザーアクセス許可、アカウントレベルのカスタマイズという 4 つの新機能を導入しました。Enterprise Edition で利用できる既存の ダッシュボード埋め込み 機能および API 機能と併用することにより、高度なダッシュボード機能と分析機能を SaaS アプリケーションに統合できるようになりました。これらのアプリケーションを構築する開発者や独立系ソフトウェアベンダー (ISV) は、組み込みの事前設定済み(予め用意された)ダッシュボードをすべてのエンドユーザーに提供できるようになり、高度なアドホック探索機能やダッシュボード構築機能もユーザーに提供できるようになりました。 本記事では、架空の ISV のユースケースとして、QuickSight を使うことで、インフラストラクチャのデプロイまたは管理を行うことなく、アプリケーションに簡単に分析を組み込み、数十万人のユーザーにスケールする方法を説明します。

Read More

[AWS Black Belt Online Seminar] Amazon Athena 資料及び QA 公開

先日 (2020/06/17) 開催しました AWS Black Belt Online Seminar「Amazon Athena」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200617 AWS Black Belt Online Seminar Amazon Athena from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. スキャンしたデータサイズに関して従量課金とありますが、S3 の料金とは別途発生するのでしょうか? A. Amazon Athena の料金はクエリでスキャンされたデータ量に基づき、5 USD/TB で課金されます。その他に、クエリ結果を保存するストレージ料金、S3 API リクエスト、データ転送に対する Amazon S3 利用料、AWS Glue データカタログの利用料が発生いたします。 Q. ファイルが分割可能というのはどのような状態をさすのでしょうか。いくつかのファイルが置いてある状態ではないのでしょうか? A. 1つのファイルを分割することができるかどうか、をさします。Amazon Athena は単一ファイルのサイズが閾値を超えた場合に、対象のファイルを分散処理できるように複数のチャンクに分割します。その際、ファイルの圧縮形式・ファイルフォーマットによっては分割できない場合があり、この場合は分散処理できず期待したパフォーマンスが得られなくなります。主なファイルフォーマット・圧縮フォーマットの分割可否は以下の通りです: gzip 圧縮ファイルは分割することができません。 bzip2 圧縮されたファイルは bzip2 がファイルを分割可能な単位で圧縮するアルゴリズムのため、分割することができます。 Snappy […]

Read More

Amazon QuickSight と AWS Lake Formation で列レベルの承認を適用する

Amazon QuickSight は、インサイトの提供を容易にし、Amazon Simple Storage Service (Amazon S3) 上に構築したデータレイクとシームレスに統合する、高速でクラウド対応のビジネスインテリジェンスサービスです。組織内の QuickSight ユーザーは、大抵の場合、コンプライアンスとセキュリティ上の理由から、列のサブセットのみにアクセスする必要があります。列レベルのセキュリティを適用するための適切なソリューションがない場合、ビュー、データマスキング、暗号化など、追加のソリューションを開発して、セキュリティを適用する必要があります。 QuickSight アカウントでは、AWS Lake Formation の列レベルの承認を利用して、ユーザーにきめ細かいレベルのアクセス制御が適用できるようになりました。 ソリューションの概要 このソリューションでは、Lake Formation を使用してエンドツーエンドのデータパイプラインを構築し、Amazon Aurora MySQLデータベースから Amazon S3 データレイクにデータを取り込み、Lake Formation を使用して QuickSight ユーザーに列レベルのアクセス制御を適用します。 次の図は、本ソリューションのアーキテクチャを示しています。 チュートリアルの概要 このソリューションの詳細な手順には、Lake Formation を使ったデータレイクの構築が含まれています。構築には、ソースとして Aurora MySQL データベース、ターゲットデータレイクストレージとして Amazon S3 を使用します。ソースデータベースからデータレイクに単一のテーブルをインポートする Lake Formation のワークフローを作成します。次に、Lake Formation のセキュリティ機能を使用して、インポートしたテーブルで QuickSight サービスの列レベルのセキュリティを適用します。最後に、QuickSight を使用してこのデータレイクに接続し、Lake Formation が QuickSightユーザーにアクセス権を付与した列のみを可視化します。 このソリューションを実装するには、次の手順を実行してください。 前提条件 ソースデータベースの作成 ソースデータベースから単一のテーブルへのインポート […]

Read More

AWS Lake Formation で Amazon QuickSight の作成者に対するきめ細かなアクセス許可の設定を実現

Amazon QuickSight と AWS Lake Formation セキュリティモデルの統合をお知らせします。これにより、QuickSight の作成者に対するきめ細かなアクセス制御の設定が可能になります。データレイク管理者は、Lake Formation コンソールを使用して、 QuickSight ユーザーおよびグループに対して、Lake Formation を介して登録および管理される AWS Glue データカタログのデータベース、テーブル、および Amazon Simple Storage Service (Amazon S3) バケットへのアクセス許可を付与できるようになりました。 この新機能は、以前 QuickSight で導入されたきめ細かなアクセス制御機能を強化します。これにより、管理者は、AWS Identity and Access Management (IAM) ポリシーを使用して、Amazon S3、Amazon Athena、Amazon Relational Database Service (Amazon RDS)、および Amazon Redshift への QuickSight 作成者のアクセス権限をスコープダウンすることができます。アクセス権限のスコープダウンは、QuickSight ユーザーまたは QuickSight ポータルのグループに IAM ポリシーをアタッチすることによって有効になります。詳細については、Amazon S3 および Amazon Athena に対する […]

Read More

【開催報告】Amazon Redshift事例祭り(移行編)~Let’s Modernize Our Data Warehouses!

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 事業開発担当 甲谷です。 6/4に、「Amazon Redshift事例祭り(移行編)~Let’s Modernize Our Data Warehouses!」を開催いたしました。本ブログ記事では、本イベントの内容について簡単にご紹介するとともに、詳細に関しては各発表スライドへのリンクを設けておりますので、ご関心の有る方はダウンロードください。 今回はデータウェアハウス(DWH) Modernizationということで、既存のオンプレミスのデータウェアハウス(DWH)環境から、AWSの高速かつ完全マネージド型のDWHであるAmazon Redshiftへ移行されたお客様に、移行の決め手や移行後の効果について「本音」でお話ししていただきました。セミナーではオンライン形式で、お客様の移行体験談を中心に、AWSソリューションアーキテクトから移行に関するTIPS、DWH Migration Program、APNプログラムについてもご紹介しました。

Read More
QuickSight hands on

BIサービス Amazon QuickSight のセルフハンズオンキットに「販売管理ダッシュボード編」が追加

Amazon QuickSight は、誰もが簡単に利用でき、サーバレスなので運用管理の負荷も少ないBIサービスです。 これまでQuickSightを体験していただくためにQuickSight Basicハンズオンを定期的に開催してきたのですが、先日これに加えて「販売管理ダッシュボード編」を開催させていただきました。 今回これら2つのハンズオンがダウンロード可能になり、お手元の環境でも2種類のハンズオンを試していただけるようになりましたので、それぞれ概要を紹介します。 ※2020/10/16追記:「Amazon QuickSight 埋め込み(embed)ハンズオン」が公開されたため、末尾に追記しました。QuickSightの機能をWebアプリに埋め込むハンズオンです。

Read More

[AWS Black Belt Online Seminar] Amazon Elasticsearch Service 資料及び QA 公開

先日 (2020/06/23) 開催しました AWS Black Belt Online Seminar「Amazon Elasticsearch Service」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. OpenDistro で追加された SQL Query と Lucene Query でパフォーマンスは影響はあるのでしょうか?(変換との説明があったので、どれぐらいの影響があるのかが分かればと思います) A. こちらについては,特に公開されているパフォーマンスに関するデータはございません.もし気になる場合には,是非実際にご自身のワークロードでご確認いただければと思います. Q. ログ分析のユースケースにおいて、Athena と ES の使い分けはどういった観点にしたらよろしいでしょうか。(大規模の場合はESとかでしょうか。) A. 規模よりは,ユースケースで使い分けいただけると良いかと思います. Athena は小規模データから大規模データまで,S3 上のデータに対して SQL を用いたアドホック分析を行う場合にご利用ください.Amazon ES は SQL […]

Read More

Pelion Device Management 管理下のマイコンデバイスにおけるデータの分析・可視化とアラート通知

温度や湿度、加速度などのセンサーを設備に取り付け、その値をクラウドに上げて可視化する、といったユースケースは、商業施設や工場など様々なユースケースで求められています。AWS IoTをはじめとする、AWSのサービスを使うことで、そういったユースケースをすばやく実現することが可能です。これはAWS IoTで管理されているデバイスに限った話ではありません。他のデバイス管理ソリューションをお使いの場合においても、クラウドアプリケーションやデータ分析の用途でAWSをシームレスに利用頂くことができます。 この記事では、Arm Pelion Device Management上で管理されているデバイスから、ログデータをAWS IoT にアップロードし、分析・可視化を行う方法について、具体的な構築手順をご紹介します。ここではWi-Fi環境がない設置場所を想定し、通信手段として3G回線を使用します。また施設内のアラートを管理者に伝えるといったシーンを想定し、記事の後半ではデバイスのボタンを押すと管理者にメールが届く仕組みも構築します。最後に、身近なデバイスでクラウド開発のPoCをクイックに進める手段として、Pelion Device Managementで管理されているRaspberry PiでAWS IoT Coreに接続する方法を紹介します。 概要 今回構築する仕組みは、上記のようなアーキテクチャになります。まず、Mbed OSが動作するマイコンが、Pelion Device Managementで管理されています。デバイスは、MQTTプロトコルによって時系列のセンサーデータを3G回線を経由してIoT Coreへアップロードします。IoT Coreのルールエンジンを使って、分析対象のデータのみをIoT Analyticsに送ります。IoT Analyticsでは、収集、処理、保存といった分析の前処理を行いデータセットを作成します。最後に作成したデータセットをQuickSightからアクセスすることでセンサーの時系列データをグラフ描画することが可能になります。 さらに、ここでは触れませんが、AWS IoT Analyticsを用いて作成したデータセットをAmazon SageMakerというAI・MLのサービスにわたすことで、機械学習による高度な予兆保全や、アノマリー検出なども可能になります。 AWS IoTの認証には、2020年5月に追加されたAWS IoT CoreのMulti-Account Registrationの機能を使用します。これによって、Pelion Device Managementで発行された証明書をIoT Coreに設定するだけで、デバイスは1つの証明書を使って接続することができます。 準備 こちらの記事 の4.2章までを実施し、SIMの設定、センサーおよびボタンの接続、Pelion Portal Account の設定を進めてください。以下は、事前に用意していただくハードウェアです。 使用するハードウェア Seeed Wio 3G GROVE – 温湿度・気圧センサ(BME280) GROVE – 青LEDボタン SIMカード Raspberry Pi 3 […]

Read More