Amazon Web Services ブログ

Category: Analytics

[AWS Black Belt Online Seminar] Amazon Redshift 資料及び QA 公開

先日 (2020/03/18) 開催しました AWS Black Belt Online Seminar「Amazon Redshift」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200318 AWS Black Belt Online Seminar Amazon Redshift from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. どういった場合に行指向ストレージが向いているのでしょうか?(逆に言えば、Redshiftでの処理に向いていないクエリはあるのでしょうか) A. 多数のショートトランザクションが中心となるような場合に行指向ストレージが向いていると言えます。例えば、特定の行のみの情報を取得するような場合や、1行に対する更新処理や挿入処理が繰り返し行われることが多いシステムの場合、行指向ストレージが向いていることが考えられます。一般論になりますが、いわゆるOLTPの処理は行指向の方が向いていると言えます。一方で、比較的少量のトランザクションが中心で、クエリが多くの場合複雑で大規模な履歴データセットに対する集計を伴うような場合、Amazon Redshiftが向いていると言えます。AWSでは、目的別に応じて多様なデータベースをご用意しておりますので、利用シーンに合わせて選択いただければと思います。 Q. SQAにもスロットという概念あるのでしょうか? A. はい、SQAにもスロットという概念があります。SQA用のキューがデフォルトで存在し、該当のキューに対して、スロットが設定されています。Amazon Redshiftがクエリを実行する際には、必ず、デフォルトキュー、ユーザー定義のキュー、SQA用のキューいずれかが持つスロットが使用されることになります。ただし、SQA用のキューが確保しているメモリ容量やスロットの数については公開されておりません。 — 今後の AWS Webinar | イベントスケジュール 直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。 皆様のご参加をお待ちしております。 — AWS Innovate Online Conference / AWS Startup Day Online 【全42セッション公開中】 […]

Read More

Kibana ダッシュボードの設定と作成

Kibana は、オープンソースのデータ視覚化および探索ツールです。ログと時系列分析、アプリケーションモニタリング、運用インテリジェンスのユースケースに使用できます。Kibana は、ヒストグラム、折れ線グラフ、円グラフ、ヒートマップ、組み込みの地理空間サポートなど、強力で使いやすい機能も提供します。 Kibana は、検索および分析エンジンである Amazon Elasticsearch Service (Amazon ES) と緊密に統合されており、大量のデータの分析を簡素化します。Amazon ES のシンプルなブラウザベースのインターフェイスにより、動的なダッシュボードをすばやく作成して共有できます。 この記事では、視覚化データとダッシュボードを作成する方法を示します。Kibana を使用して Amazon ES に保存された Amazon Relational Database Service (RDS) と Amazon Aurora PostgreSQL ログを使用します。この記事は、2 部構成シリーズの第 2 部です。パート 1 については、「Amazon Elasticsearch Service で PostgreSQL ログを分析する」を参照してください。 大まかな手順は次のとおりです。 インデックスパターンを作成する テキストフィールドを集計する 検出機能を探索する 視覚化機能を探索する 視覚化データを作成する ダッシュボードを作成する 前提条件 適切な AWS のサービスにアクセスできる有効な AWS アカウント。 Aurora/RDS PostgreSQL データベース。 詳細については、「Amazon RDS」を参照してください。 […]

Read More

Amazon Elasticsearch Service で PostgreSQL ログを分析する

バージョン 9.6.6 以降の Amazon RDS は、Amazon CloudWatch への PostgreSQL ログの発行をサポートしています。 Aurora PostgreSQL は、バージョン 9.6.12 以降、およびバージョン 10.7 以降の CloudWatch Logs へのログの発行をサポートしています。このデータを CloudWatch から Amazon Elasticsearch Service (Amazon ES) にライブストリーミングすることにより、RDS PostgreSQL DB ログの継続的な可視性を維持します。Kibana と簡単な検索構文を使用して、データをリアルタイムで視覚化、分析、検出できます。また、PostgreSQL ログのモニタリングを設定し、Kibana でアラームを設定して、ログに記録されたエラーまたは長時間実行されているクエリをタイムリーに検出できるようにすることもできます。 CloudWatch を使用すると、ログをクエリして視覚化を実行できますが、複数の AWS アカウントに複数のデータベースがある場合、これは困難な場合があります。この記事で使用するソリューションは理想的です。それはログを一元的にストリーミングし、各アカウントの複数のコンソールにログインせずに複数のデータベースのダッシュボードを視覚化するためです。 Amazon ES は完全マネージド型のサービスで、容易に、ダウンタイムなしで Elasticsearch を大規模にデプロイ、セキュリティ保護、運用することができます。ウェブサイト、モバイルデバイス、サーバー、センサーが生成した非構造化ログおよび半構造化ログを分析できます。これにより、運用インテリジェンス、アプリケーションモニタリング、根本原因の分析などが保証されます。このサービスは、オープンソース API、マネージド型のKibana を提供し、Logstash や他の AWS のサービスと統合して、任意のソースからデータを安全に取り込みます。Amazon ES を使用すると、リアルタイムで検索、分析、視覚化できます。 この記事では、RDS PostgreSQL データベースのログを CloudWatch に発行し、データを Amazon […]

Read More

[AWS Black Belt Online Seminar] Next Generation Redshift 資料及び QA 公開

先日 (2020/02/18) 開催しました AWS Black Belt Online Seminar「Next Generation Redshift」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200218 AWS Black Belt Online Seminar Next Generation Redshift from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. Concurrency Scalingの1日あたり1時間分の無料クレジットは繰越されるのでしょうか? A. はい、繰り越されます。クレジットはクラスターごとに最大30時間まで累積します。詳細はAmazon Redshift の料金 の「同時実行スケーリングの料金」をご参照ください。 Q. 無料アカウント(期間)にRA3をお試しする事可能ですか? A. いいえ、無料トライアルの2ヶ月間でお試しいただけるのはDC2.largeインスタンスタイプのみとなります。詳細は Amazon Redshift 無料トライアル をご参照ください。 — 今後の AWS Webinar | イベントスケジュール 直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。 — AWSome Day Online […]

Read More

データを段階的に読み込み、AWS Glue で最適化された Parquet ライター

 AWS Glue では、Apache Spark ETL ジョブによる分析およびデータ処理のために、さまざまなソースから大規模なデータセットを準備 (抽出および変換) およびロードするためのサーバーレス環境がご利用いただけます。シリーズの最初の記事である「AWS Glue を使った Apache Spark ジョブのスケーリングとデータパーティショニングのベストプラクティス」では、Apache Spark アプリケーションや Glue ETL ジョブの開発者、ビッグデータアーキテクト、データエンジニア、ビジネスアナリストが、AWS Glue で実行するデータ処理ジョブを自動的にスケーリングするのに役立つベストプラクティスをご紹介しました。 この記事では、JDBC を使用して Amazon S3 データレイクおよびデータベースのデータソースからデータを段階的にロードする方法を示します。また、ジョブブックマークを使用して新しく追加されたデータのみを読み取り、さらにジョブブックマークを前回のジョブ実行の最後にリセットして遅れて到着するデータを処理することで、AWS Glue ETL ジョブをスケーリングする方法についても説明します。さらにこの記事では、複雑な AWS Glue ETL スクリプトとワークロードを備えたジョブブックマークを使用したベストプラクティスについても確認しています。 最後に、データの余分なパスを回避し、実行時にスキーマを計算することにより、パフォーマンスに最適化されたカスタム AWS Glue Parquet ライターを使用する方法について説明します。AWS Glue Parquet ライターを使用すると、列を追加または削除して、データセットのスキーマを進化させることもできます。 AWS Glue ジョブブックマーク AWS Glue の Spark ランタイムには、状態を保存するメカニズムがあります。このメカニズムは、ETL ジョブを特定の方法で実行することで処理したデータを追跡するために用いられます。永続化された状態情報は、ジョブブックマークと呼ばれます。 上記のスナップショットは、同じ ETL ジョブの異なる時間インスタンスで複数のジョブを実行している Glue コンソールのビューを示しています。ジョブブックマークは、AWS […]

Read More

IoT@Loft #7 – オートモーティブIoT

こんにちは、AWSソリューションアーキテクトの渡邊 です。1月30日の IoT@Loft 第7回目のテーマは、「オートモーティブIoT」でした。MaaSや自動運転などに取り組まれているエンジニアの方々にその取り組みについてご紹介いただきました。また、オートモーティブ分野におけるAWSサービスの活用方法について、AWSよりご紹介しました。

Read More

[AWS Black Belt Online Seminar] Amazon QuickSight アップデート 資料及び QA 公開

先日 (2020/02/04) 開催しました AWS Black Belt Online Seminar「Amazon QuickSight アップデート」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200204 AWS Black Belt Online Seminar Amazon QuickSight アップデート from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. 予め決められた分析手順(項目、パラメーター、フィルタなどの組合せて順)がある場合、データを与えるだけで可視化できる機能があると考えて良いでしょうか?またはAPI/CLI 等で対応する必要があるでしょうか? A. パラメータは、URL に#p.パラメータ名=abc といった形で付与する事が可能であり、パラメータの値をつかってフィルタが可能です。また、ユーザやグループ毎に、パラメータのデフォルト値を設定することも可能です。これにより、ユーザが QuickSight のダッシュボードを見る際、それぞれ個別のパラメータ値でフィルタをする事が可能になります。 Q. QuickSight の利用についてセキュリティ面(ID/PW の漏洩等)を意識したベストプラクティスはありますでしょうか(CloudWatch の活用など)? A. ID 管理の面では、一般論になりますが、組織を異動されたり退職されたりした場合の対応を、人手ではなく自動的に行うのが望ましいと考えられます。つまり、SAML 連携や AD 連携を使っていただき、異動や退職が反映されるディレクトリと連携してシングルサインオンを実現することで、QuickSight 独自のパスワード管理が不要になり、不必要なアクセスを防ぐことが可能になります。 また、監査という意味では CloudTrail をご活用いただくのがよろしいかと思います。CloudTrail では QuickSight 内の活動が記録され、S3 […]

Read More

Amazon Athena を使用したクロスアカウントの AWS Glue データカタログ

多くの AWS のお客様は、複数アカウント戦略を用いています。一元化された AWS Glue データカタログは、異なるアカウント間におけるメタデータの共有に関連する管理の量を最小化するために重要です。この投稿では、Amazon Athena が異なる AWS アカウント間で一元化されたデータカタログをクエリすることを可能にする機能を紹介します。 ソリューションの概要 2019 年後半、AWS は、Amazon Athena を Apache Hive Metastore に接続する機能を導入しました。この機能により、別のアカウントのデータカタログをポイントするように Athena を設定することもできます。Hive Metastore 機能は、AWS Lambda 関数を使用して、選択したデータカタログにクエリをフェデレーションします。この同じ機能で、カタログクエリを別のアカウントのデータカタログにプロキシできます。 次の図は、2 つの異なるアカウントで使用される必要なコンポーネントと、Athena を使用したクロスアカウントの Glue データカタログアクセスのためのアカウント間のフローを示しています。 このチュートリアルでは、Athena クエリを実行するのと同じアカウント (アカウント B) で Lambda 関数を作成します。リソースポリシーを使用して Lambda 関数にクロスアカウントアクセスを許可します。これにより、アカウント B の関数がアカウント A のデータカタログをクエリできます。アカウント B のユーザーは、テーブルがポイントし、Lambda 関数を実行するためのアクセス権を有する Amazon S3 リソースへのアクセス権を持っている必要があります。Lambda 関数の実装の詳細は、Github リポジトリを参照してください。 この投稿では、Lambda 関数およびその関数の読み取り専用 IAM […]

Read More

FactSet が Amazon DynamoDB から Amazon S3 Parquet へのデータのエクスポートを自動化して、データ分析プラットフォームを構築する方法

この記事は、FactSet のリードソフトウェアエンジニアである Arvind Godbole と AWS プリンシパルソリューションアーキテクトの Tarik Makota によるゲスト投稿です。「FactSet は、世界中の何万人もの投資専門家向けの柔軟でオープンなデータとソフトウェアソリューションを作成し、投資家が重要な決定を下すために使用する金融データと分析に即座にアクセスできるようにします。FactSet では、製品が提供する価値を常に向上するために取り組んでいます」 私たちが検討してきた分野の 1 つは、クライアントの検索結果の関連性です。さまざまなクライアントの使用例と 1 日あたりの検索回数が多いため、匿名化された使用データを保存し、そのデータを分析してカスタムスコアリングアルゴリズムを使用して、結果を高めることができるプラットフォームが必要でした。計算をホストするために Amazon EMR を使用するのは明らかな選択肢でしたが、匿名化されたデータを Amazon EMR が使用できる形式に変える方法について疑問が生じました。そこで私たちは AWS と協力し、Amazon DynamoDB を使用して Amazon EMR で使用するデータを準備することにしました。 この記事では、FactSet が DynamoDB テーブルからデータを取得し、そのデータを Apache Parquet に変換する方法について説明します。Amazon S3 に Parquet ファイルを保存して、Amazon EMR でほぼリアルタイムの分析を可能にします。途中で、データ型変換に関連する課題に直面しました。これらの課題をどのように克服できたかについて説明しようと思います。 ワークフローの概要 ワークフローには次の手順が含まれています。 匿名化されたログデータは DynamoDB テーブルに保存されます。これらのエントリには、ログの生成方法に応じて異なるフィールドがあります。テーブルに項目を作成するたびに、DynamoDB ストリームを使用してレコードを書き出します。ストリームレコードには、DynamoDB テーブルの単一項目からの情報が含まれます。 AWS Lambda 関数は DynamoDB ストリームにフックされ、DynamoDB […]

Read More

Amazon QuickSight: 2019 年の振り返り

2019 年は、Amazon QuickSight にとって刺激的な年でした数千社におよぶお客様をオンボーディングし、グローバルに 10 箇所の AWS リージョンに拡張し、60 以上の機能 (各週間に 1 つ以上の機能) をリリースしました お客様や Amazon QuickSight で実施する全てのことに活気づけられています。面談、電話会議、メール、ディスカッションフォーラム、そして AWS サミットを通して、皆様と時間を共にできたことを感謝いたします。今年の締めくくりとして、ハイライトの概要を簡単に紹介いたします。 re:Invent 2019 Amazon QuickSight チームは、 re:Invent で Best Western、Capital One、Club OS などのお客様といっしょに行った、分析ニーズの実装や Amazon QuickSight の使用に関する体験について語りました。また、新しくリリースされた API を使った 2 つの実践的なワークショップを実施しました。 ANT324:Amazon QuickSight を使用して、企業規模でビジネス分析を展開する このセッションでは、企業がすべてのユーザー向けに Amazon QuickSight Enterprise Edition を展開し、 Active Directory 、Federated SSO (SAML/OpenID Connect) 認証、AWSのデータへのプライベート 接続性、E […]

Read More